- 相關(guān)推薦
關(guān)于Web日志的研究分析
描述了Web日志數(shù)據(jù)預(yù)處理技術(shù)的一種改進(jìn)技術(shù)——Frame過濾技術(shù),對其關(guān)鍵部分與運(yùn)作模式進(jìn)行了研究與改進(jìn)。討論了Frame頁面過濾預(yù)處理技術(shù)在Web頁面挖掘中的效率問題,分析了決策樹算法中最著名的算法——ID3算法,并用ID3算法對Frame過濾算法進(jìn)行了改進(jìn),比較新舊算法的執(zhí)行效率及算法結(jié)果質(zhì)量,得出了新算法執(zhí)行效率更高及質(zhì)量更好的結(jié)論,從而搞高了對存在Frame頁面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)挖掘結(jié)果的興趣度。
1 引言
Internet的迅速發(fā)展使得Web為人們提供了內(nèi)容豐富且數(shù)量龐大的信息,隨著數(shù)據(jù)挖掘技術(shù)的出現(xiàn)以及發(fā)展,數(shù)據(jù)挖掘逐漸被應(yīng)用于Web數(shù)據(jù)。
Web日志挖掘是三大類Web挖掘之一,它主要包括數(shù)據(jù)預(yù)處理和挖掘算法實(shí)施兩個(gè)主要階段.實(shí)施挖掘算法之前要對Web日志文件進(jìn)行預(yù)處理,將其轉(zhuǎn)化為用戶會話集.本文著重討論Web日志挖掘預(yù)處理技術(shù)中的Frame頁面過濾預(yù)處理技術(shù),即在傳統(tǒng)的Web日志預(yù)處理過程中加入Frame頁面過濾這一步驟,并提出了用決策樹算法著名的ID3算法進(jìn)行Frame頁面過濾,進(jìn)一步提高了日志數(shù)據(jù)預(yù)處理的質(zhì)量和效率,從而為挖掘算法的實(shí)施提供更為準(zhǔn)確的數(shù)據(jù),提高了對存在Frame頁面的網(wǎng)站實(shí)施Web日志挖掘算法時(shí)整個(gè)Web日志挖掘的效率及挖掘結(jié)果的興趣性。
2 Web日志預(yù)處理中的Frame頁面過濾技術(shù)[2]2.1 Web日志預(yù)處理技術(shù)現(xiàn)狀
Web日志挖掘[1] [3-4]是指將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web服務(wù)器日志文件,以發(fā)現(xiàn)隱藏在其中的用戶訪問模式。Web日志預(yù)處理是在Web日志挖掘前,對Web日志進(jìn)行清理、過濾以及重新組合的過程,其目的是剔除日志中對挖掘過程無用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識別的保存形式。到目前為止提出的Web日志的預(yù)處理技術(shù),它包含三種方法識別用戶的活動(dòng)集合:
(1) Web服務(wù)器提供Cookie,則具有相同Cookie值的頁面請求是來自同一個(gè)用戶,則用戶會話識別的主要的任務(wù)就是將Web日志劃分為不同Cookie值所對應(yīng)的頁面請求集合。
(2) Web服務(wù)器沒有提供Cookie,但每個(gè)網(wǎng)站用戶都要一個(gè)登錄標(biāo)識符方可訪問站點(diǎn),則分析工具即可利用登錄標(biāo)識符識別會話。
⑴如果Web服務(wù)器既沒有Cookie也沒有登錄標(biāo)識符,可以利用主機(jī)地址,同時(shí)分析日志中每條記錄的請求頁和引用頁的URL,然后根據(jù)Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu)(超鏈接)和其它啟發(fā)式規(guī)則識別用戶會話,但是這種方法的精確度較低,不能100%正確地識別出每個(gè)請求對應(yīng)的用戶。這里主要討論第3種預(yù)處理方法。一般Web日志預(yù)處理主要包括:數(shù)據(jù)凈化、用戶識別、會話識別、路徑補(bǔ)充、事務(wù)識別數(shù)據(jù)凈化指刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù)。由于在Web日志中通常只有HTML文件與用戶會話相關(guān),所以通過檢查URL的后綴刪除不相關(guān)的數(shù)據(jù)。
用戶識別是指要識別出每個(gè)訪問網(wǎng)站的用戶。一般Web日志挖掘工具中常使用基于日志/站點(diǎn)的方法,并輔助一些啟發(fā)式規(guī)則幫助識別用戶。
會話識別是將用戶的訪問記錄分為單個(gè)的會話。通常采用超時(shí)方法識別用戶會話,如果兩頁間請求時(shí)間的差值超過一定的界限(超時(shí)閾值)就認(rèn)為用戶開始了一個(gè)新的會話。路徑補(bǔ)充是由于本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器的日志會遺漏一些重要的頁面請求。路徑補(bǔ)充就是將這些遺漏的請求補(bǔ)充到用戶會話中,解決的方法類似于用戶識別中的方法。
事務(wù)識別,用戶會話是Web日志挖掘中唯一具備自然事務(wù)特征的元素,但是,對于某些挖掘算法來說可能用戶會話的粒度太大,需要利用分割算法將其轉(zhuǎn)化為更小的事務(wù)。一般通常采用圖1所示的數(shù)據(jù)預(yù)處理過程。如果按照前面所介紹的日志預(yù)處理技術(shù)對Web日志進(jìn)行預(yù)處理,則Frame頁面和其SubFrame頁面也將一起出現(xiàn)在用戶會話文件中。在這樣的用戶會話文件上進(jìn)行數(shù)據(jù)挖掘,F(xiàn)rame頁面和SubFrame頁面作為頻繁遍歷路徑或者頻繁訪問頁組出現(xiàn)的概率很高,并且他們同時(shí)出現(xiàn)在挖掘結(jié)果中,這就降低了挖掘結(jié)果的興趣性。
HTML規(guī)范通過“Frame”標(biāo)記支持多窗口頁面,每個(gè)窗口里裝載的頁面對應(yīng)一個(gè)URL。 當(dāng)用戶請求Frame頁面的URL時(shí),F(xiàn)rame頁面和其中的SubFrame頁面作為一個(gè)多窗口頁面展現(xiàn)在用戶面前,我們可以將用戶對Frame頁面的請求看成就是對多窗口頁面的請求。這樣,在數(shù)據(jù)預(yù)處理階段將Frame頁面和其中的SubFrame頁面作為一個(gè)整體考慮,并且把Frame頁面對應(yīng)的URL當(dāng)作這個(gè)整體的代表。從全局而言,這樣處理可以有效地消除Frame頁面對日志挖掘的影響,最終提高挖掘結(jié)果的興趣性。
改進(jìn)的Web日志數(shù)據(jù)預(yù)處理過程中,在會話識別與路徑補(bǔ)充這兩個(gè)步驟之間增加了Frame頁面過濾。Frame頁面過濾要完成的任務(wù)是,根據(jù)從站點(diǎn)的拓?fù)浣Y(jié)構(gòu)中提取出的Frame-SubFrame關(guān)系表,從會話識別過程中生成的會話文件中,尋找Frame頁面及其SubFrame頁面,將會話文件中對Frame和其SubFrame頁面的請求用Frame頁面代替,從而刪除會話文件中多余的SubFrame頁面。由于刪除了會話文件中的SubFrame頁面,因此會丟失SubFrame頁面中包含的超鏈接信息,所以接下來的路徑補(bǔ)充步驟中必須使用提升的站點(diǎn)結(jié)構(gòu)。
3 基于ID3算法的Frame頁面過濾預(yù)處理技術(shù)
如上文所述,我們應(yīng)用Frame頁面過濾技術(shù)有效地消除了Frame頁面對日志挖掘的影響,然而我們知道Web日志挖掘的記錄是成千上萬的,上述Frame頁面過濾算法中是對每個(gè)用戶對話的每個(gè)頁面進(jìn)行是否Frame和SubFrame的判斷,并且對判斷出的子框架逐個(gè)地進(jìn)行刪除,而且因?yàn)镾ubFrame頁面的刪除導(dǎo)致后面必須用提升的站點(diǎn)結(jié)構(gòu),雖然較一般預(yù)處理技術(shù)增加了興趣度,但是效率還是比較低的,而且也增加了開銷。并且SubFrame過濾中被刪去,在后面的路徑補(bǔ)全中能否完全恢復(fù)也值得高榷。而且有快速分類性質(zhì)允許多粒度層的決策樹分類算法可以解決此問題。
ID3算法的基本思想是貪心算法,采用自上而下的分而治之的方法構(gòu)造決策樹。首先檢測訓(xùn)練數(shù)據(jù)集的所有特征,選擇信息增益最大的特征A建立決策樹根節(jié)點(diǎn),由該特征的不同取值建立分枝,對各分枝的實(shí)例子集遞歸,用該方法建立樹的節(jié)點(diǎn)和分枝,直到某一子集中的數(shù)據(jù)都屬于同一類別,或者沒有特征可以在用于對數(shù)據(jù)進(jìn)行分割。
【W(wǎng)eb日志的研究分析】相關(guān)文章:
基于web的綜合測評與分析05-20
面向電子商務(wù)的Web日志挖掘系統(tǒng)09-27
網(wǎng)站日志分析診斷和作用10-16
Web Workers加速移動(dòng)Web應(yīng)用07-01
關(guān)于Meta標(biāo)簽元素分析研究分析07-21
基于Web的MES系統(tǒng)安全架構(gòu)設(shè)計(jì)及分析10-16
解析企業(yè)內(nèi)訓(xùn)研究與分析01-11
日本研究生留學(xué)趨勢分析06-30