- 相關推薦
基于WEB文本挖掘的統計分析VB+ACCESS
畢業論文
基于WEB文本挖掘的統計分析
---用戶興趣建模與中文網頁自動分類
摘 要 本文介紹了運用Web文本挖掘技術,在Windows平臺上實現用戶興趣建模和智能網頁推薦系統的方法和過程。首先簡要介紹了目前國內外的研究動態和水平,然后介紹了興趣模型的相關知識,主要包括:web文本挖掘的分類,web文本挖掘的靜態和動態統計分析,興趣模型的發現與建立,用戶興趣模型的獲得與實現,中文分詞技術等內容。在簡單介紹現有算法的基礎上,經過實踐調查統計,根據課題的需要和實際情況,提出1種相對簡單的用戶興趣模型的建立和實現的方法。并用VB 6.0 和Access 2003實現了相關功能。
關鍵詞: Web文本挖掘; 網志分析;統計分析;用戶興趣模型; 中文分詞
Stat and Analyse Based on Web Textual Mining
---User’s Interests Modeling and Chinese Pages Auto-Classify
Abstract In this paper,introduced the method and process of how to realize User’s Interest Modeling and Chinese Pages Commend System on Windows platform,which uses Web Textual Mining.In the begining,we introduce the resemble thesiss research developments and level at home and abroad.Then,we introduce the correlation knowledge of interest modeling,which include the classes of Web Textual Mining,static and dynamic statistic and analyze of Web Textual Mining,detect and build the interest model,obtain and realize the users interest model,Chinese Split Word technique etc.For the tasks requirements and practical situation,after introduced some algorithm in existence we produce a relative simple way of users interest modeling and the realize methods,by investigate and stat.The systems realize tool is Microsoft VB 6.0 and Microsoft Access 2003.
Keywords:Web Textual Mining; Web-log analyse; Stat and analyse; User’ s Interests Model;Word split
目 錄
1 前 言 1
1.1 課題背景 1
1.2 國內外研究動態和水平 1
1.3 本文的主要工作 2
1.4 課題研究的意義 3
1.5 論文的大致結構 3
2 WEB文本挖掘 4
2.1 數據挖掘 4
2.1.1 WEB挖掘的概述及分類 4
2.1.2 Web 挖掘的任務 5
2.1.3 Web數據挖掘幾個步驟 6
2.1.4 Web數據挖掘的分類 7
2.2 WEB 文本挖掘 9
3 興趣模型的發現與建立 11
3.1 現有算法介紹 11
3.1.1 用戶主動提供 11
3.1.2 相關反饋 12
3.1.3 現有興趣發現算法的缺陷 13
3.2 靜態和動態相結合的方法 13
3.2.1 Web訪問動機的靜態分析 14
3.2.2 Web訪問動機的動態分析 17
3.3 結論與模型的建立 17
3.3.1 根據隱式反饋[6]建立和更新用戶興趣模型 17
4 用戶興趣模型獲得與實現 22
4.1 COOKIES 22
4.1.1 Cookies的概述及屬性 22
4.1.2 Cookies的存取方法 23
4.1.3 Cookies安全需求和造成的安全威脅 24
4.1.4 Cookies的作用 25
4.2 收藏夾分析 26
4.1.1 獲取 “收藏夾”文件 26
4.1.2 收藏夾的目錄結構 28
4.1.3 如何分析網志中的頁面 28
4.3中文分詞技術介紹 30
4.3.1 中文分詞和對興趣收集的重要意義 30
4.3.2 CSW 5.0 中分詞組件簡介 32
4.3.3本系統調用CSW5. DLL 示例 33
4.4 VB中的鉤子 34
4.4.1 鉤子的概述和分類 34
4.4.2 VB中鉤子的實現 36
5 中文網頁自動分類技術 38
5.1 文檔自動分類算法的類型 38
5.2 實現中文網頁自動分類的1般過程 39
5.3 影響自動分類的關鍵因素 40
5.3.1 分類體系 40
5.3.2 特征提取 41
5.3.3 分類算法介紹 41
6 系統設計與實現 42
6.1系統可行性研究 42
6.1.1 背景 42
6.1.2可行性研究的前提 42
6.1.3要求 42
6.1.4進行可行性研究的方法 42
6.1.5設備 42
6.1.6 局限性 43
6.1.7 技術條件方面的可行性 43
6.1.8 社會因素方面的可行性 43
6.1.9 結論 43
6.2需求分析 43
6.2.1任務概述 43
6.2.2需求規定 44
6.2.3 數據管理 45
6.2.4 故障處理要求 45
6.2.5 運行環境規定 45
6.3總體設計 45
6.3.1 系統實現方案 45
6.3.2 功能模塊分解 45
6.3.3 數據庫設計 46
6.4詳細設計 47
6.4.1 結構程序設計 47
6.4.2 人機界面設計 53
6.5系統實現 53
7 結 論 54
致 謝 55
參考文獻 56
附錄1 CSW 5.0分詞軟件DLL介紹 57
附錄2 漢語詞性對照表[北大標準/中科院標準] 61
附錄3 部分程序源代碼 63
1 前 言
1.1 課題背景
近年來,Internet的網絡和應用都在以驚人的速度在發展。根據中國互聯網絡信息中心2003年1月公布的中國互聯網絡發展狀況的統計數據,在中國,上網計算機總數達到2083萬,上網用戶總數達到5910萬,WWW站點數約為371600個。而就全世界而言,上網用戶數達到數億。同時,各種各樣的網絡應用早己走進各行各業,尤其是遠程教育、電子商務、搜索引擎等等。但是由于 Internet是1個開放、分布的信息空間,它本身所固有的 3個特點己經明顯地阻礙了人們充分地使用 Internet上的信息資源:[1](1) Internet上可利用的信息是無組織的,多種結構形式的,并且分布在全世界的各個站點上;(2)數據和服務的類型以及數量每天都在大量增加,因而信息可利用性和可靠性也在不斷地變化;(3)由于信息源的動態性以及潛在的有用信息的更新和保存問題,信息常常是模糊的:有時甚至是錯誤的。由于上述原因,在 Internet上進行信息檢索經常會出現“信息過載”,即網上的信息是海量和無組織的,易發生“資源迷向”,即用戶不知道如何更加有效地利用資源等問題。
人們迫切需要1些智能的和個性化的工Internet系統,能學習和了解用戶的興趣愛好,成為用戶的助手或秘書,能幫助用戶從浩如煙海的工Internet信息中快速而準確地搜索出他們感興趣的內容:
能為用戶提供主動的、最新的信息服務和推薦;能幫助用戶實現個性化的遠程學習等。而這些系統的基礎都離不開1個 “個性化的用戶興趣模型”。
電子商務(E-Business)發展到現在,它提供的高效和安全的服務,讓人們體會到了Internet應用的神奇。但是,電子商務服務提供商和用戶同時對它的提出了新的要求:如何才能象現實生活中的商家和客戶交流1樣,商家為客戶推薦適合其興趣愛好的商品和服務,這在現實生活中,是靠商家與客戶的多次不同形式的交流達到的,然而,通過什么的途徑,能夠在Internet上,在商家與客戶沒有見面的環境下達到這1點呢。根據用戶顯式反饋的信息,進行綜合整理,也許是1條途徑,但是這里面包含了太多的主觀和不確定因素。隱式反饋成了人們關注的焦點,通過對用戶靜態的動態的興趣體現,通過統計分析得到用戶興趣,從而為用戶量身定制web服務和page推薦,當然,這不可避免地涉及到個人隱私問題。本課題就是在這樣的背景下提出來的。
【基于WEB文本挖掘的統計分析VB+ACCESS】相關文章:
基于WEB的在線考試系統03-09
基于Web服務的集成研究03-08
基于Web技術的網絡考試系統03-18
基于PHP的Web數據庫訪問03-19
基于Web服務的短信網關設計03-26
基于聚類分析的數據挖掘方法03-08
基于WEB的網絡考試系統ASP+SQL03-08
基于粗糙集的文本分類研究03-03
基于Web的嵌入式數控系統實現03-07