基於會話的web用戶行為習慣分析研究
理論研究
作者:房明 李聳
[摘要]:web用戶的行為習慣分析技術的研究就是通過捕捉web用戶的來源IP、訪問方式、使用瀏覽器版本、使用操作係統版本、訪問時段、停留時間、搜索關鍵字、鏈接跳出率、點擊熱點、視覺熱點、鼠標軌跡、鍵盤輸入等信息用以分析web用戶的性別、年齡、職業、興趣愛好、個人習慣等隱含信息,從而根據web用戶訪問的特點做出預測性分析,挑戰用戶心理學,對網站改進服務質量、提高服務效率提供幫助。
[關鍵詞]:web用戶 行為習慣 分析研究
1引言
web用戶的行為習慣分析原本是屬於心理學範疇的一個概念,人的所有行為都離不開心理,行為是心理的一個外在表現,隻有真正分析出了web用戶的心理行為和習慣,才能夠進一步了解web用戶瀏覽網站的行為模式。web用戶的行為習慣分析技術的研究就是通過捕捉web用戶的來源IP、訪問方式、使用瀏覽器版本、使用操作係統版本、訪問時段、停留時間、搜索關鍵字、鏈接跳出率、點擊熱點、視覺熱點、鼠標軌跡、鍵盤輸入等信息用以分析web用戶的性別、年齡、職業、興趣愛好、個人習慣等隱含信息,從而根據web用戶訪問的特點做出預測性分析,挑戰用戶心理學,對網站改進服務質量、提高服務效率提供幫助。
2研究方法
2.1數據采集
web用戶的行為數據可以從瀏覽器、HTTP協議數據和應用交互數據三個方麵獲取,而這些數據的采集是web用戶行為模式挖掘的一個關鍵步驟,是保證web用戶行為模式挖掘結果準確性的重要前提。
當前web用戶行為數據采集技術主要從對存放於服務器上的web日誌數據進行分析和淨化入手,目的是消除日誌中的無用數據並提取用戶訪問會話。在這方麵,現在普遍采用的方法是基於日誌的用戶會話識別技術,大部分研究都采用設定訪問時間閾值的方式來劃分用戶訪問會話,即設定一個時間閾值,超過這個值的訪問記錄都將被視作新會話處理。但是,由於網絡環境中本地緩存、代理服務器和NAT技術的廣泛應用,使得web日誌中的數據並不足夠準確。
日誌數據的複雜性和不準確性對以日誌分析為基礎的數據采集方法造成很大挑戰,數據的不準確直接影響到用戶行為模式挖掘的準確性。主動式采集是在瀏覽器交互數據和HTTP協議數據兩方麵進行用戶會話數據的采集技術,使用javascript腳本將對挖掘有價值的用戶行為數據存放於客戶端的cookie文件中,為改善用戶體驗,接下來可以使用AJAX技術與服務器端程序進交互,將cookie文件中的信息傳送到服務器端程序處理並存入用戶行為數據庫,為接下來的數據挖掘提供分析數據。而如果web用戶禁用cookie,則可以利用URL重寫技術,將session id加密後作為查詢字符串的一部分追加到這些網頁中的每個鏈接中,實現對用戶行為跟蹤,從而解決使用web日誌進行分析挖掘方式無法準確識別用戶會話的問題。
2.2web用戶行為模式挖掘
海量的web用戶訪問信息數據中隱含著大量的有價值、有規律的信息,將這些具有規律性的信息提取出來並加以分析和整理,使之成為用戶行為模式並應用到網站服務的改善工作中去,能夠提高用戶訪問的有效性,使網站服務更有針對性、更智能。
web用戶行為模式中的用戶訪問瀏覽的序列模式識別是有效率的,這種模式識別即是從海量訪問信息中識別出用戶瀏覽頁麵的先後訪問順序,將每個用戶在會話周期內的訪問序列作為一個數據項,然後利用數據挖掘技術中的相關算法對海量數據項進行挖掘,傳統的挖掘算法僅僅是對用戶頻繁訪問路徑進行挖掘,並沒有考慮到用戶對於頁麵節點的哪部分內容感興趣,也沒有考慮到通過用戶在某頁麵節點的停留時間來判斷感興趣的程度,web用戶行為模式可以在用戶興趣度的量化指標角度加以研究,將用戶興趣度與用戶訪問路徑相結合的方式更加具體的來挖掘用戶行為模式,為網站架構的改善提供有效的決策支持。