科技論文發表基于Web數據挖掘技術的研究論文
互聯網的不斷得到發展,網頁中數據量迅速增加,如何從這么多的網頁信息中獲取有用的數據已經成功數據挖掘領域的一個熱門的研究方向,數據挖掘是近幾年來迅速發展的進行信息獲取的一個重要渠道, 尤其大量運用與社會和科學的方方面面。一般來說數據挖掘主要利用計算機和相關的信息技術,把有用的數據從海量的網頁數據中挖掘出來,為我們從事其他方面的運用。基于網頁的數據挖掘是一門技術的綜合研究方向,它的思想是從Internet中提取網頁中的大量數據,也就是從網頁的數據結構中發現隱含的模式[1]。
1 數據挖掘的特點
1)數據挖掘的特點之一就是半結構化,這個特別算是網頁數據挖掘的最大特點[2],因為網頁上的數據分布沒有規律,非常復雜,沒有任何固定的模式能夠很好的描述它的特點。因此稱它為半結構化。
2)數據挖掘的特點之二是網頁中的數據比較分散,這些網頁數據存在世界各地的很多服務器上,因此是一種數據源分散的結構。
3) 數據挖掘的特點之三是數據庫的'結構存在不同,因為互聯網上的一個網站可以存為一個數據源,它們的結構互不相關,異構性特點比較強,由它們構成的數據庫自然而然也屬于一種異構的形式。
4) 數據挖掘的特點之四是動態性強,網站上的數據資源是不斷更新變化的,找不到固定的形式,網站與網站的直接訪問的鏈接是形式變化的。
2 數據挖掘過程
基于Web的數據挖掘與傳統的數據倉庫相比,網頁上的信息是半結構化的或非結構化、不容易識別、變化的,正因為它這些特點,要想在網頁上開展直接數據挖掘,可謂很費功夫,就要借助一些方法來預處理數據,才能方便挖掘。通常進行網頁數據挖掘可分為的如圖1所示的四個步奏。
1)數據源的獲取,在網站的各個頁面中獲取數據信息,組成目標數據信息源,再從這些信息源中找到相關有用的數據。這個過程的目的就是從像網頁文檔、email、網頁記錄、新聞信息、各種網站數據庫中挖掘出有用的數據。
2)把獲取的數據進行加工處理,網頁數據挖掘的好壞直接與數據源的好壞相關,如果獲取的數據源有大量的垃圾數據,對數據挖掘過程有很大的影響,因此挖掘之前需要對數據源進行篩選,消除那些雜音數據,保證數據源的純正,然后將這些已經過濾的數據再次裝入數據庫中進行下一步的分析。
3)對數據經過提純處理后,進入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數據模式。在挖掘的過程中,經常會使用到一些相關的方法,例如聚類分析法、關聯規則發等挖掘方法。
4)在對數據模式發現后,需要對這些模式進行挖掘,也就是知識的轉換過程,把提取到的模式再進行信息轉化,轉化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。
3 數據挖掘分類
在進行數據挖掘的時候,針對不同的數據結構,會采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數據,不能籠統采用一種方法,這樣挖掘的數據相應的雜音數據就比較多。大體上,我們把數據挖掘分為三種類型,即:網頁使用挖掘、網頁結構挖掘、網頁內容挖 [3],如圖2所示。
4 數據挖掘相關技術
互聯網的發展促進網頁數據挖掘得到越來越多的應用,于是針對網頁挖掘的各種方法和技術不斷出現,就這些相關的技術[4],下面分別一一介紹。
4.1 網頁內容挖掘
4.1.1 網頁文檔挖掘
網頁文檔挖掘就是分析網站上存在的數量很多的網頁文檔采用聚類、分類、關聯處理等多種方法進行分析,然后根據網頁文檔進行預測。在Internet的文檔數據一般都是以html格式的網頁文檔出現,要采集這些網頁文檔數據,然后把這些文檔數據變成記錄的形式存貯進數據庫,把這些記錄用來表示文檔內容特征,為后續的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數非常高,對數據分析不利,因此一個好特征表示主要集中在特征集的選取方面,特征集需求好,對數據進行分析的時間就相對少,如果選取不好,將要花很長時間去等待。因此特征集選取好壞成為數據分析額關鍵。一旦特征集選擇好后,就可以采用聚類、分類、數據關聯等方法來進行提取信息,然后對這些提取的信息進行評價分析,找到有用的信息,為后續的決策工作提供指導。
4.1.2 挖掘網頁多媒體
在進行網頁多媒體挖掘主要關注的是特征提取,這點網頁內容挖掘不一樣。在網頁多媒體挖掘中提取的多媒體特征主要關注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據這些特征進行數據挖掘。
4.2挖掘網頁結構
挖掘網站空間中的知識,不僅關注包含在各個網頁內容中的信息數據,同時也關注網站與網站之間的網頁結構和超級鏈接結構,這也是非常重要的。進行網頁結構挖掘主要分析網頁結構之間的特征,利用聚類和分類來分析頁面結構特征,找到特征模式。
4.3 網頁使用挖掘
網頁使用挖掘也是挖掘網頁記錄,實際就是挖掘用戶在網頁上留下的相關的記錄信息,網頁使用挖掘就是分析用戶留言記錄的相關信息,通過這些信息時報未來需要發展的用戶; 網頁使用挖掘通常使用擴展有向樹模型分析用戶的各種瀏覽行為習慣,挖掘出用戶的日志信息,以及用戶關心、關注的興趣領域,把這些信息存放在知識庫中,未下一步的分析工作提供數據, 對網頁使用日志挖掘可分為三個步驟:日志預分析、分析方法處理、 模式分析階段。在網頁使用分析中,關注網頁服務器記錄的相關信息,這些信息主要包括用戶訪問的時間、URL、IP、使用方法、代理、返回結構、傳輸數據等相關信息雖然信息比較多,但是還存在無用的數據,需要進行提純處理。一旦數據處理后,就能采用關聯分析、如路徑分析等模式發現技術來分析日志,獲取有用的信息。
5 結束語
本文介紹了網頁數據挖掘的相關概念、挖掘過程、分類方法以及相關技術。在Internet發展的今天, 網頁數據挖掘的研究方面更加寬,人們不斷關注如何對這些網頁數據的處理。網頁數據挖掘在各個方面,特別在結合語言問題、查詢半結構化、數據庫方面會得到不斷發展。
【科技論文發表基于Web數據挖掘技術的研究論文】相關文章: