1. <tt id="5hhch"><source id="5hhch"></source></tt>
    1. <xmp id="5hhch"></xmp>

  2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

    <rp id="5hhch"></rp>
        <dfn id="5hhch"></dfn>

      1. web數(shù)據(jù)挖掘技術(shù)分析與研究

        時(shí)間:2020-11-12 10:39:29 Web Services 我要投稿

        web數(shù)據(jù)挖掘技術(shù)分析與研究

          1Web數(shù)據(jù)挖掘面臨的問題

        web數(shù)據(jù)挖掘技術(shù)分析與研究

          目前面向Web的數(shù)據(jù)挖掘面臨的問題,主要有兩個(gè)方面:

          1.1數(shù)據(jù)庫(kù)環(huán)境的異構(gòu)型

           Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,數(shù)據(jù)源之間是異構(gòu)的,外加上各個(gè)站點(diǎn)的信息和組織的不同,Web網(wǎng)站就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。要對(duì)這些數(shù)據(jù)進(jìn)行挖掘,首先,要解決各個(gè)站點(diǎn)之間的異構(gòu)數(shù)據(jù)集成,提供用戶統(tǒng)一界面,從復(fù)雜的數(shù)據(jù)源中取得所需的有用的信息知識(shí)。其次,有關(guān)Web上的數(shù)據(jù)查詢。

          1.2數(shù)據(jù)結(jié)構(gòu)的半結(jié)構(gòu)化

           Web上的數(shù)據(jù)比較復(fù)雜,各個(gè)站點(diǎn)的數(shù)據(jù)都獨(dú)立設(shè)計(jì),具有動(dòng)態(tài)可變性。雖然Web上的數(shù)據(jù)形成半結(jié)構(gòu)化數(shù)據(jù)。這些問題是進(jìn)行Web數(shù)據(jù)挖掘所面臨的最大困難。

          2XML技術(shù)在Web數(shù)據(jù)挖掘中的優(yōu)勢(shì)

          Web數(shù)據(jù)的異構(gòu)使Web數(shù)據(jù)挖掘變得十分困難,通過XML可以解決這個(gè)問題。因?yàn)閄ML文檔具有很好的自我描述性,他的元素、子元素、屬性結(jié)構(gòu)樹可以表達(dá)極為豐富的語(yǔ)義信息,能夠很好的描述半結(jié)構(gòu)化的數(shù)據(jù),因此在網(wǎng)絡(luò)數(shù)據(jù)集成、發(fā)送、處理和顯示的方面。開發(fā)人員能夠用XML的格式標(biāo)記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)的處理提供了有用的途徑。利用XML,Web設(shè)計(jì)人員能夠構(gòu)建文檔類型定義的多層次互相關(guān)聯(lián)的系統(tǒng)、元數(shù)據(jù)、數(shù)據(jù)樹、樣式表和超鏈接結(jié)構(gòu);赬ML的Web數(shù)據(jù)挖掘技術(shù),能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,解決Web數(shù)據(jù)挖掘的難題。

          2.1XML技術(shù)在Web數(shù)據(jù)挖掘中具體作用利用XML技術(shù)我們?cè)赪eb數(shù)據(jù)挖掘中可以完成以下幾點(diǎn):

          2.1.1集成異構(gòu)數(shù)據(jù)源

           XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以完成和關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng),從而實(shí)施精確地查詢與模型抽取。XML可以搜索多個(gè)不同數(shù)據(jù)庫(kù)的問題,以實(shí)現(xiàn)集成。

          2.1.2和異構(gòu)數(shù)據(jù)進(jìn)行交換

           在Web數(shù)據(jù)挖掘程中,用戶需要和異構(gòu)數(shù)據(jù)源進(jìn)行數(shù)據(jù)交換,XML通過自定義性及可擴(kuò)展性來標(biāo)識(shí)各種數(shù)據(jù),從而描述從各站點(diǎn)搜集到的Web頁(yè)中的數(shù)據(jù)。XML的出現(xiàn)解決了數(shù)據(jù)查詢的統(tǒng)一接口。

          2.1.3過濾信息并顯示

           XML描述數(shù)據(jù)本身,可以使得定義的數(shù)據(jù)以不同的方式顯示,對(duì)獲取的信息進(jìn)行裁減和編輯以適應(yīng)不同用戶的需求。以不同的瀏覽形式提供給不同的用戶。

          3基于XML的Web數(shù)據(jù)挖掘模型

          我們通過對(duì)XML及Web數(shù)據(jù)挖掘的分析,設(shè)計(jì)了一個(gè)基于XML的Web數(shù)據(jù)挖掘模型通過提供一個(gè)Web數(shù)據(jù)挖掘的集成環(huán)境,提高數(shù)據(jù)挖掘系統(tǒng)的整體性能。工作流程如下:系統(tǒng)根據(jù)用戶要求搜集Web資源,經(jīng)數(shù)據(jù)轉(zhuǎn)換器處理成相應(yīng)的XML數(shù)據(jù)存儲(chǔ),提供給挖掘器使用;挖掘器則根據(jù)要求從選取相應(yīng)的算法挖掘,輸出挖掘結(jié)果;用戶根據(jù)自己的滿意度,獲得需要的挖掘結(jié)果,調(diào)整挖掘要求進(jìn)入新一輪數(shù)據(jù)挖掘。通過系統(tǒng)的維護(hù)我們可以加入新的挖掘算法,實(shí)現(xiàn)升級(jí)。

          3.1各模塊具體功能

          3.1.1數(shù)據(jù)收集

           從Web站點(diǎn)上采集數(shù)據(jù)并存儲(chǔ),獲得挖掘內(nèi)容。針對(duì)異構(gòu)數(shù)據(jù)源,可以多種方式提出相關(guān)需求,挖掘的重點(diǎn)是Web內(nèi)容和Web使用的數(shù)據(jù)。把用戶訪問網(wǎng)站留下原始日志數(shù)據(jù)進(jìn)行清洗、過濾和轉(zhuǎn)換處理,轉(zhuǎn)變成統(tǒng)一處理的數(shù)據(jù)結(jié)構(gòu),構(gòu)建日志數(shù)據(jù)庫(kù)。

          3.1.2轉(zhuǎn)換器

          對(duì)檢索得到的數(shù)據(jù)用XML技術(shù)進(jìn)行預(yù)處理,建立半結(jié)構(gòu)化數(shù)據(jù)模型,抽取其特征的元數(shù)據(jù),用結(jié)構(gòu)化的形式保存,為挖掘模塊提供所需的數(shù)據(jù)。

          3.1.3挖掘器

           不同的挖掘算法有不同適用情況,挖掘綜合器根據(jù)具體的需求和挖掘方法的不同選擇策略到挖掘算法庫(kù)中去選擇挖掘算法或種組合算法執(zhí)行挖掘任務(wù)。隨著應(yīng)用的深入,知識(shí)庫(kù)中的算法和規(guī)則不斷的豐富。挖掘算法庫(kù)是挖掘分析方法的綜合庫(kù),以插拔的形式組織存放各種挖掘算法。314結(jié)果生成與評(píng)估以直觀的方式提交挖掘結(jié)果,便于用戶的評(píng)估。通過模式分析和興趣度度量,若結(jié)果使得用戶滿意,數(shù)據(jù)挖掘結(jié)束,輸出用戶感興趣的內(nèi)容;否則可以在此重新提出挖掘要求,重新挖掘。

          3.2系統(tǒng)各模塊實(shí)現(xiàn)方法

          3.2.1數(shù)據(jù)收集

           數(shù)據(jù)的收集也涉及數(shù)據(jù)挖掘的技術(shù),其過程是:通過人工輸入辦法,給出查詢主題,找到相關(guān)的'Web頁(yè),然后,通過相應(yīng)的數(shù)據(jù)挖掘的算法對(duì)訓(xùn)練數(shù)據(jù)集提煉,利用提煉出的數(shù)據(jù)模式,進(jìn)行更大范圍的搜索,以獲取更多的數(shù)據(jù)源。最終形成較新和有效XML文檔。

          3.2.2數(shù)據(jù)的轉(zhuǎn)換處理

           數(shù)據(jù)抽取轉(zhuǎn)換是模型實(shí)現(xiàn)一個(gè)重要環(huán)節(jié),其主要方法是把現(xiàn)有的Web頁(yè)面轉(zhuǎn)換成XML格式,并使用相關(guān)工具處理XML結(jié)構(gòu)數(shù)據(jù)檢要把HTML中含有的與主題無關(guān)的標(biāo)記過濾掉,然后轉(zhuǎn)化到XML的格式存儲(chǔ)。目前Web頁(yè)面到XML文檔的轉(zhuǎn)換,有兩部分?jǐn)?shù)據(jù)構(gòu)成:一是XML數(shù)據(jù),二是非XML數(shù)據(jù)。XML數(shù)據(jù),可以直接將它們提交給下一個(gè)模塊。對(duì)于非XML數(shù)據(jù),本文的實(shí)現(xiàn)方法是用到Tidy以改正HTML文檔中的常見錯(cuò)誤并生成格式編排良好的等價(jià)文檔,還可以使用Tidy生成XHTML(XML的子集)格式的文檔。通過構(gòu)造相應(yīng)的Java類完成將數(shù)據(jù)從HTML到XML的轉(zhuǎn)換。

          3.2.3挖掘方法

         。1)文本分類:文本分類是指按預(yù)先定義的主題類別,把集合中的每個(gè)文檔確定一個(gè)所屬類別。這樣,用戶能夠方便地瀏覽文檔,并限制搜索范圍來使查找更為容易。利用文本分類技術(shù)對(duì)大量文檔進(jìn)行快速、有效地自動(dòng)分類。有關(guān)的算法通常采用TFIDF和NaiveBayes等方法。

         。2)文本聚類:文本聚類與分類的不同之處在于,聚類不需要預(yù)先定義好的主題類別,它是將把文檔集合分成若干個(gè)簇,要求同簇內(nèi)文檔內(nèi)容相似度最大,而不同簇間的相似度最小。Hearst等人研究表明聚類假設(shè),即與用戶查詢相關(guān)的文檔通常會(huì)聚類比較靠近,而遠(yuǎn)離與用戶查詢不相關(guān)文檔。可以利用文本聚類技術(shù)把搜索引擎檢索結(jié)果分成若干個(gè)簇,用戶只要考慮那些相關(guān)的簇,就能夠縮小所需要瀏覽的結(jié)果數(shù)量。目前,常用的文本聚類算法,分為兩種:以G-HAC等算法為代表的層次凝聚法,以k-means等算法為代表的平面劃分法。

          (3)關(guān)聯(lián)分析:關(guān)聯(lián)分析是指從文檔集合中發(fā)現(xiàn)不同詞語(yǔ)之間關(guān)系Brin提出一種從大量文檔中查找一對(duì)詞語(yǔ)出現(xiàn)模式算法,在Web上尋找作者和書名的模式,從而發(fā)現(xiàn)數(shù)千本在Amazon網(wǎng)站上查找不到的新書。

         。4)模式評(píng)價(jià):Web數(shù)據(jù)挖掘中十分重要的過程就是模式評(píng)價(jià)。常用的方法有預(yù)留法和交叉實(shí)驗(yàn)法,將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集兩部分,學(xué)習(xí)和測(cè)試反復(fù)進(jìn)行,最后用一個(gè)平均質(zhì)量模型來確定模型質(zhì)量的好壞。

         。5)預(yù)留法:從數(shù)據(jù)集合隨機(jī)抽取預(yù)定大小一個(gè)子集作為測(cè)試集,其他數(shù)據(jù)則作為訓(xùn)練集。

         。6)交叉驗(yàn)證法:把整個(gè)數(shù)據(jù)集合按照所要進(jìn)行的學(xué)習(xí)測(cè)試循環(huán)次數(shù)分成一定數(shù)目的子集,在每次循環(huán)中,選取其一個(gè)子集作為測(cè)試集,其它子集并集則作為訓(xùn)練集。

          4結(jié)束語(yǔ)

          XML技術(shù)不僅為Web上的數(shù)據(jù)交換提供了一個(gè)標(biāo)準(zhǔn),而且能夠更好的表示數(shù)據(jù)內(nèi)容,以及數(shù)據(jù)的含義。隨著XML的興起和完善,Web頁(yè)面會(huì)蘊(yùn)涵更多的結(jié)構(gòu)化和語(yǔ)義的信息,因此,基于XML技術(shù)的數(shù)據(jù)挖掘已成為目前Web挖掘的研究熱點(diǎn)。當(dāng)然Web數(shù)據(jù)挖掘這一研究領(lǐng)域還有待于進(jìn)一步研究。

        【web數(shù)據(jù)挖掘技術(shù)分析與研究】相關(guān)文章:

        1.Web數(shù)據(jù)挖掘技術(shù)探析

        2.關(guān)于Web日志的研究分析

        3.客戶關(guān)系管理數(shù)據(jù)挖掘與應(yīng)用

        4.基于web的綜合測(cè)評(píng)與分析

        5.如何壓縮Web Service數(shù)據(jù)

        6.論Web網(wǎng)站建設(shè)組織與結(jié)構(gòu)分析

        7.淺析挖掘機(jī)維修與保養(yǎng)技術(shù)

        8.挖掘機(jī)無回轉(zhuǎn)故障分析與處理

        国产高潮无套免费视频_久久九九兔免费精品6_99精品热6080YY久久_国产91久久久久久无码

        1. <tt id="5hhch"><source id="5hhch"></source></tt>
          1. <xmp id="5hhch"></xmp>

        2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

          <rp id="5hhch"></rp>
              <dfn id="5hhch"></dfn>