- 相關(guān)推薦
基于聚類分析的數(shù)據(jù)挖掘方法
畢業(yè)論文
基于聚類分析的數(shù)據(jù)挖掘方法
目錄
前言 1
1 相關(guān)理論 2
1.1 數(shù)據(jù)挖掘(DATA MINING)理論 2
1.1.1 概念 2
1.1.2 數(shù)據(jù)挖掘的任務(wù) 2
1.1.3 數(shù)據(jù)挖掘的應(yīng)用 3
1.1.4 數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀 4
1.2 聚類(CLUSTERING)理論 5
1.2.1概念 5
1.2.2聚類算法的分類 5
1.2.3分割聚類方法 6
1.2.4聚類算法的應(yīng)用 6
1.3 WEB數(shù)據(jù)挖掘理論 7
1.3.1 文本檢索概念 7
1.3.2 Web數(shù)據(jù)挖掘概念 8
1.3.3 Web數(shù)據(jù)挖掘工作原理 8
1.3.4 Web挖掘分類及各自的研究現(xiàn)狀及發(fā)展 9
1.4 ASP理論 11
1.4.1概念 11
1.4.2 ASP服務(wù)器(IIS) 12
1.4.3 ASP程序的發(fā)布與執(zhí)行 13
1.4.4 ASP的內(nèi)置對象 13
1.5 數(shù)據(jù)庫理論 14
1.5.1 SQL概念 14
1.5.2 Microsoft Access 2003數(shù)據(jù)庫介紹 15
1.5.3 Access數(shù)據(jù)庫的安全性 15
2 需求分析 17
2.1 任務(wù)概述 17
2.1.1研究背景 17
2.1.2問題提出 17
2.1.3研究現(xiàn)狀 17
2.1.4研究目標(biāo) 18
2.2 數(shù)據(jù)需求 18
2.2.1靜態(tài)數(shù)據(jù) 18
2.2.2動(dòng)態(tài)數(shù)據(jù) 19
2.2.3數(shù)據(jù)庫描述 19
2.2.4數(shù)據(jù)采集 19
2.3 功能需求 19
2.4 性能需求 19
2.4.1數(shù)據(jù)精確度需求 19
2.4.2適應(yīng)性需求 20
2.5 運(yùn)行需求 20
2.5.1用戶界面 20
2.5.2運(yùn)行環(huán)境 21
3 概要設(shè)計(jì) 22
3.1 總體設(shè)計(jì) 22
3.1.1總體結(jié)構(gòu) 22
3.1.2處理流程 22
3.1.3模塊設(shè)計(jì) 24
3.2 接口設(shè)計(jì) 26
3.2.1外部接口 26
3.2.2內(nèi)部接口 26
4 詳細(xì)設(shè)計(jì) 27
4.1 系統(tǒng)結(jié)構(gòu) 27
4.1.1系統(tǒng)框架 27
4.1.2數(shù)據(jù)流圖 28
4.2 模塊詳細(xì)設(shè)計(jì) 28
4.2.1人機(jī)交互模塊 28
4.2.2聚類分析模塊 31
4.2.3數(shù)據(jù)庫模塊 33
4.3 數(shù)據(jù)字典 34
5 編碼與實(shí)現(xiàn) 36
5.1 人機(jī)交互模塊實(shí)現(xiàn) 36
5.1.1數(shù)據(jù)庫連接部分 36
5.1.2查詢匹配部分 37
5.1.3結(jié)果顯示部分 37
5.2 聚類模塊實(shí)現(xiàn) 38
5.2.1分詞部分 38
5.2.2文本向量空間模型部分 39
5.2.3聚類部分 40
5.3 數(shù)據(jù)庫模塊實(shí)現(xiàn) 41
5.3.1網(wǎng)絡(luò)蜘蛛(spider) 41
5.3.2數(shù)據(jù)庫表 41
6 性能測試與分析 41
6.1 測試實(shí)例的研究與選擇 41
6.2 測試環(huán)境與測試條件 41
6.2.1測試環(huán)境 41
6.2.2 Web服務(wù)器的安裝 41
6.3 實(shí)例測試 43
結(jié)束語 45
參考文獻(xiàn) 46
致謝 47
摘要 本設(shè)計(jì)課題為基于聚類分析的數(shù)據(jù)挖掘方法,為實(shí)現(xiàn)這1課題,我利用ASP技術(shù),設(shè)計(jì)了1個(gè)Web搜索引擎。通過對搜索引擎的優(yōu)化,使其對檢索的初始結(jié)果進(jìn)行聚類分析,返回結(jié)果給用戶。從而也實(shí)現(xiàn)了“基于聚類分析的數(shù)據(jù)挖掘方法”這1目標(biāo)。搜索引擎我設(shè)計(jì)了3個(gè)模塊,分別為人機(jī)交互模塊、聚類模塊、數(shù)據(jù)庫模塊3個(gè)模塊。人機(jī)交互模塊通過ADO對象進(jìn)行數(shù)據(jù)庫連接。當(dāng)用戶輸入關(guān)鍵字,檢索數(shù)據(jù)庫的網(wǎng)頁數(shù)據(jù),得到初始數(shù)據(jù)結(jié)果集,聚類模塊對這些結(jié)果進(jìn)行聚類分析,再把聚類結(jié)果返回給用戶。由于Web文本是無結(jié)構(gòu)或半結(jié)構(gòu)化的,進(jìn)行聚類分析之前要對文本建立向量空間。建立向量空間模型,首先對文本分詞,再掃描文本提取特征值,計(jì)算這些特征值的權(quán)重,依據(jù)文本相似度對文本進(jìn)行聚類,聚類算法采用k-means算法。最后把結(jié)果返回給用戶。數(shù)據(jù)庫模塊設(shè)計(jì)了兩個(gè)表,1個(gè)保存網(wǎng)頁數(shù)據(jù),另1個(gè)表是分詞時(shí)所需要用到的表,數(shù)據(jù)的獲取,由開源網(wǎng)絡(luò)蜘蛛執(zhí)行。通過設(shè)計(jì)實(shí)現(xiàn),基本實(shí)現(xiàn)了基于聚類分析的數(shù)據(jù)挖掘方法的初衷。
關(guān)鍵詞 數(shù)據(jù)挖掘;聚類分析;搜索引擎;文本向量
The method of Data Mining Based on Clustering Analysis
Abstract this design concentrates on data mining method which based on clustering analysis. In order to realize this task, I design a web search engine with the technique of ASP. From optimizing the search engine, the early results can be proceeded clustering analysis. This can make the similar results in a cluster. Finally, the search engine returns these results to the user. Also, from this, I can give my voice to the "The method of Data Mining Based on Clustering Analysis ". The search engine composes with the module of user, the module of clustering and the module of database. The module of user connect database with the object of ADO. After users enter the key words and recall the web page data of database, the user could get the initial results. The module of clustering clusters these results, and returns the results to the user. Because web text editing is non-structure or half-structure, vector space should be established for text editing before carry out clustering. In order to establish vector space model, the words should be extracted from the text editing firstly. Then the trait value should be extracted after the scanning of the text editing. According to the similar sign, the results make together. The method bases on k-means. Finally, return the results to the user. In the module of database, I design two tables. One is a data of web; the other is a dictionary table. From a spider, I can get the web data on the Internet and save this data to the database. From this design, I carry out the method of data mining based on clustering. .
Key words Data Mining; Clustering; Search Engine; Text Vector
前言
網(wǎng)絡(luò)和存儲(chǔ)技術(shù)的迅猛發(fā)展,使數(shù)據(jù)的傳播和積累速度不斷提高,但當(dāng)我們?yōu)閾碛袠O其詳盡的數(shù)據(jù)而欣喜的同時(shí),也發(fā)現(xiàn)新的數(shù)據(jù)處理和提煉技術(shù)非常匱乏。面對日益龐大的數(shù)據(jù)資源,人們迫切需要更強(qiáng)有力的工具來“挖掘”其中有用的信息。數(shù)據(jù)挖掘就是針對這1要求而發(fā)展來的。
近年來, Internet 已成為計(jì)算機(jī)領(lǐng)域最熱門的1項(xiàng)技術(shù),Internet 的普及使人們可以突破空間、地域的限制,方便地共享資源。但在實(shí)際使用中,Web 網(wǎng)上龐大的數(shù)據(jù)量會(huì)給用戶的信息查詢帶來極大的困難。鑒于此,各種搜索引擎應(yīng)運(yùn)而生,比較有名的有Yahoo 、Alta Vista、Google、百度、北大天網(wǎng)等,另外還有許多針對新聞、論壇、音樂、游戲等的搜索引擎。
現(xiàn)階段網(wǎng)上大多數(shù)搜索工具都采用列表式目錄鏈接和關(guān)鍵詞查詢的方式,只要在題名和文章中含有該關(guān)鍵詞,則返回給用戶,這樣往往帶來大量的無用信息,難以找到真正有用的內(nèi)容。而現(xiàn)代社會(huì)的競爭趨勢要求必須對Web 上大量復(fù)雜的信息進(jìn)行實(shí)時(shí)地和深層次地分析,從中找出真正有價(jià)值的信息知識(shí)。因此,人們迫切感到需要1種新的技術(shù),可以從Web 海量的數(shù)據(jù)中自動(dòng)地、智能地抽取隱藏于這些數(shù)據(jù)中的知識(shí)。于是Web 挖掘作為數(shù)據(jù)挖掘技術(shù)和Web 的結(jié)合應(yīng)運(yùn)而生了。Web 挖掘不僅能夠幫助人們迅速找到所需要的信息,還能挖掘出用戶的潛在需求,主動(dòng)向用戶提供信息。理想的Web 挖掘可以在網(wǎng)絡(luò)上實(shí)現(xiàn)阮岡納贊的“圖書館5定律”,即在Web 上實(shí)現(xiàn)“信息是為了用的;每個(gè)用戶有其信息;每個(gè)有用信息有其用戶;節(jié)省用戶的時(shí)間;網(wǎng)絡(luò)是1個(gè)生長中的有機(jī)體”。如果把整個(gè)網(wǎng)絡(luò)看成1個(gè)巨大的數(shù)字圖書館則理想的Web 挖掘就相當(dāng)于圖書館員,是網(wǎng)絡(luò)信息海洋的導(dǎo)航者,能夠從Web 海量信息中找到有用的知識(shí)。由于目前Web 頁面的重要信息主要集中在Web 的文本中,而聚類分析作為數(shù)據(jù)挖掘的1個(gè)重要功能,也能作為1個(gè)獨(dú)立的工具來獲得數(shù)據(jù)分布的情況?梢杂行У膶eb文本進(jìn)行聚類,是檢索度大大提高。
現(xiàn)在對搜索引擎進(jìn)行聚類,普遍采用下面的方法:首先建立Web文本向量空間模型,把非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本文檔轉(zhuǎn)換成結(jié)構(gòu)化的向量空間模型(即把文本轉(zhuǎn)化成數(shù)字表示的形式)。再對Web文本進(jìn)行聚類。在搜索引擎應(yīng)用中,常采用的聚類算法現(xiàn)階段文本聚類以層次凝聚法(以G- HAC 算法為代表) 和平面劃分法(以K- Means 算法為代表) 為主。此外也有研究工作者改進(jìn)的聚類算法。
本文中,作者描述采用k-means算法設(shè)計(jì)的1個(gè)搜索引擎。通過聚類算法的應(yīng)用,使搜索引擎檢索精確度有了很大提高。但是由于作者的水平、時(shí)間有限,設(shè)計(jì)實(shí)現(xiàn)的功能不是很完善,本論文也存在1些缺點(diǎn)和錯(cuò)誤,殷切希望老師批評指正。
【基于聚類分析的數(shù)據(jù)挖掘方法】相關(guān)文章:
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文11-18
基于顧客價(jià)值的需求,流動(dòng)網(wǎng)挖掘策略分析06-04
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文6篇11-18
基于MOSFET內(nèi)阻的電流采樣及相電流重構(gòu)方法10-30
網(wǎng)絡(luò)經(jīng)濟(jì)數(shù)據(jù)挖掘在工商管理中的應(yīng)用論文07-29
談基于互聯(lián)網(wǎng)新模式的企業(yè)網(wǎng)絡(luò)營銷方法08-25
基于大數(shù)據(jù)企業(yè)管理會(huì)計(jì)面臨的挑戰(zhàn)和對策論文(精選7篇)04-29
局域網(wǎng)數(shù)據(jù)庫環(huán)境下數(shù)據(jù)采集及處理05-08