Web日志的研究分析

時間：2024-09-27 14:51:20 Web Services 我要投稿

相關推薦

關于Web日志的研究分析

　　描述了Web日志數據預處理技術的一種改進技術——Frame過濾技術，對其關鍵部分與運作模式進行了研究與改進。討論了Frame頁面過濾預處理技術在Web頁面挖掘中的效率問題，分析了決策樹算法中最著名的算法——ID3算法，并用ID3算法對Frame過濾算法進行了改進，比較新舊算法的執行效率及算法結果質量，得出了新算法執行效率更高及質量更好的結論，從而搞高了對存在Frame頁面的網站實施Web日志挖掘算法時挖掘結果的興趣度。

關于Web日志的研究分析

　　1 引言

　　Internet的迅速發展使得Web為人們提供了內容豐富且數量龐大的信息，隨著數據挖掘技術的出現以及發展，數據挖掘逐漸被應用于Web數據。

　　Web日志挖掘是三大類Web挖掘之一，它主要包括數據預處理和挖掘算法實施兩個主要階段.實施挖掘算法之前要對Web日志文件進行預處理，將其轉化為用戶會話集.本文著重討論Web日志挖掘預處理技術中的Frame頁面過濾預處理技術，即在傳統的Web日志預處理過程中加入Frame頁面過濾這一步驟，并提出了用決策樹算法著名的ID3算法進行Frame頁面過濾，進一步提高了日志數據預處理的質量和效率，從而為挖掘算法的實施提供更為準確的數據，提高了對存在Frame頁面的網站實施Web日志挖掘算法時整個Web日志挖掘的效率及挖掘結果的興趣性。

　　2 Web日志預處理中的Frame頁面過濾技術[2]2.1 Web日志預處理技術現狀

　　Web日志挖掘[1] [3－4]是指將數據挖掘技術應用于Web服務器日志文件，以發現隱藏在其中的用戶訪問模式。Web日志預處理是在Web日志挖掘前，對Web日志進行清理、過濾以及重新組合的過程，其目的是剔除日志中對挖掘過程無用的屬性及數據，并將Web日志數據轉換為挖掘算法可識別的保存形式。到目前為止提出的Web日志的預處理技術，它包含三種方法識別用戶的活動集合：

　　(1) Web服務器提供Cookie，則具有相同Cookie值的頁面請求是來自同一個用戶，則用戶會話識別的主要的任務就是將Web日志劃分為不同Cookie值所對應的頁面請求集合。

　　(2) Web服務器沒有提供Cookie，但每個網站用戶都要一個登錄標識符方可訪問站點，則分析工具即可利用登錄標識符識別會話。

　　⑴如果Web服務器既沒有Cookie也沒有登錄標識符，可以利用主機地址，同時分析日志中每條記錄的請求頁和引用頁的URL，然后根據Web站點的拓撲結構（超鏈接）和其它啟發式規則識別用戶會話，但是這種方法的精確度較低，不能100％正確地識別出每個請求對應的用戶。這里主要討論第3種預處理方法。一般Web日志預處理主要包括：數據凈化、用戶識別、會話識別、路徑補充、事務識別數據凈化指刪除Web服務器日志中與挖掘算法無關的數據。由于在Web日志中通常只有HTML文件與用戶會話相關，所以通過檢查URL的后綴刪除不相關的數據。

　　用戶識別是指要識別出每個訪問網站的用戶。一般Web日志挖掘工具中常使用基于日志/站點的方法，并輔助一些啟發式規則幫助識別用戶。

　　會話識別是將用戶的訪問記錄分為單個的會話。通常采用超時方法識別用戶會話，如果兩頁間請求時間的差值超過一定的界限(超時閾值)就認為用戶開始了一個新的會話。路徑補充是由于本地緩存和代理服務器緩存的存在，使得服務器的日志會遺漏一些重要的頁面請求。路徑補充就是將這些遺漏的請求補充到用戶會話中，解決的方法類似于用戶識別中的方法。

　　事務識別，用戶會話是Web日志挖掘中唯一具備自然事務特征的元素，但是，對于某些挖掘算法來說可能用戶會話的粒度太大，需要利用分割算法將其轉化為更小的事務。一般通常采用圖1所示的數據預處理過程。如果按照前面所介紹的日志預處理技術對Web日志進行預處理，則Frame頁面和其SubFrame頁面也將一起出現在用戶會話文件中。在這樣的用戶會話文件上進行數據挖掘，Frame頁面和SubFrame頁面作為頻繁遍歷路徑或者頻繁訪問頁組出現的概率很高，并且他們同時出現在挖掘結果中，這就降低了挖掘結果的興趣性。

　　HTML規范通過“Frame”標記支持多窗口頁面，每個窗口里裝載的頁面對應一個URL。當用戶請求Frame頁面的URL時，Frame頁面和其中的SubFrame頁面作為一個多窗口頁面展現在用戶面前，我們可以將用戶對Frame頁面的請求看成就是對多窗口頁面的請求。這樣，在數據預處理階段將Frame頁面和其中的SubFrame頁面作為一個整體考慮，并且把Frame頁面對應的URL當作這個整體的代表。從全局而言，這樣處理可以有效地消除Frame頁面對日志挖掘的影響，最終提高挖掘結果的興趣性。

　　改進的Web日志數據預處理過程中，在會話識別與路徑補充這兩個步驟之間增加了Frame頁面過濾。Frame頁面過濾要完成的任務是，根據從站點的拓撲結構中提取出的Frame-SubFrame關系表，從會話識別過程中生成的會話文件中，尋找Frame頁面及其SubFrame頁面，將會話文件中對Frame和其SubFrame頁面的請求用Frame頁面代替，從而刪除會話文件中多余的SubFrame頁面。由于刪除了會話文件中的SubFrame頁面，因此會丟失SubFrame頁面中包含的超鏈接信息，所以接下來的路徑補充步驟中必須使用提升的站點結構。

　　3 基于ID3算法的Frame頁面過濾預處理技術

　　如上文所述，我們應用Frame頁面過濾技術有效地消除了Frame頁面對日志挖掘的影響，然而我們知道Web日志挖掘的記錄是成千上萬的，上述Frame頁面過濾算法中是對每個用戶對話的每個頁面進行是否Frame和SubFrame的判斷，并且對判斷出的子框架逐個地進行刪除，而且因為SubFrame頁面的刪除導致后面必須用提升的站點結構，雖然較一般預處理技術增加了興趣度，但是效率還是比較低的，而且也增加了開銷。并且SubFrame過濾中被刪去，在后面的路徑補全中能否完全恢復也值得高榷。而且有快速分類性質允許多粒度層的決策樹分類算法可以解決此問題。

　　ID3算法的基本思想是貪心算法，采用自上而下的分而治之的方法構造決策樹。首先檢測訓練數據集的所有特征，選擇信息增益最大的特征A建立決策樹根節點，由該特征的不同取值建立分枝，對各分枝的實例子集遞歸，用該方法建立樹的節點和分枝，直到某一子集中的數據都屬于同一類別，或者沒有特征可以在用于對數據進行分割。

【Web日志的研究分析】相關文章：

基于web的綜合測評與分析05-20

面向電子商務的Web日志挖掘系統09-27

網站日志分析診斷和作用10-16

Web Workers加速移動Web應用07-01

關于Meta標簽元素分析研究分析07-21

基于Web的MES系統安全架構設計及分析10-16