1. <tt id="5hhch"><source id="5hhch"></source></tt>
    1. <xmp id="5hhch"></xmp>

  2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

    <rp id="5hhch"></rp>
        <dfn id="5hhch"></dfn>

      1. 幾種信息檢索模型比較

        時間:2023-03-05 19:26:43 計算機應用畢業論文 我要投稿
        • 相關推薦

        幾種信息檢索模型比較

        摘要:對信息檢索模型研究的主要內容和構建策略進行了描述,給出了幾種常用的信息檢索模型相關性算法,分析了它們的優缺點,并就存在的問題進行了探討,總結了信息檢索模型的研究現狀和發展趨勢。

        關鍵詞:信息檢索模型;相關性;查詢;搜索引擎

        Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval.And in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched.In addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article.

        Keywords:Information retrieval models;Relativity;Inquiry;Search engine

        當前,隨著互聯網的普及和網上信息的爆炸式增長,信息檢索系統及其核心技術搜索引擎的性能和效率問題已成為人們研究和關注的焦點。影響一個搜索引擎系統的性能有很多因素,但最主要的是信息檢索模型,其研究內容包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。本文從研究文檔與用戶查詢“相關性”匹配的角度出發,對信息檢索模型研究的主要內容和構建策略進行了詳細的描述,并給出了幾種常用的信息檢索模型相關性算法,分析了它們的優缺點及存在的問題,總結了當前信息檢索模型的研究現狀和發展趨勢,其目的在于提高信息檢索、查詢的性能和效率。

        一、構建信息檢索模型的策略

        當前,構建信息檢索模型的主要策略有以下兩個:

        (一)通用的信息檢索模型

        構建一個通用的信息檢索模型,研究優化的匹配算法,提高查詢速度、查全率和查準率,最大程度地滿足一般用戶的查詢需求。

        (二)用戶興趣模型

        根據特定用戶查詢興趣要求構建用戶興趣模型或共同興趣模型,能夠盡可能地滿足特殊用戶查詢的需求。它可以構建一個適合行業或專業應用語義要求信息獲取模型。如google就能推斷用戶的使用意圖,提供動態的、即時的用戶“個性化定制”信息,幫助用戶快速、準確地定位到所需要的信息。

        二、常用的信息檢索相關性算法

        (一)布爾模型

        布爾模型是基于特征項的嚴格匹配模型,文本查詢的匹配規則遵循布爾運算的法則。用戶可以根據檢索項在文檔中的布爾邏輯關系提交查詢,搜索引擎則根據事先建立的倒排文件結構,確定查詢結果。標準的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關,要么與查詢無關。查詢結果一般不進行相關性排序。

         

        在布爾模型中,一個文檔通過一個關鍵詞條的集合來表示,這些詞條都來自一個詞典。在查詢與文檔匹配的過程中,主要看該文檔中的詞條是否滿足查詢條件。布爾模型用文檔的檢索狀態值作為一種評價查詢和文檔相似性的一種方法。這里,首先定義關鍵詞集合S,關鍵詞為t1,t2,…,tn。

        這些關鍵詞可以和邏輯操作符AND,OR和NOT形成不同的條件查詢。如果得到條件表達式的值為True,該文檔相對于此條查詢的檢索狀態值為1;如果若干文檔相對于此條查詢的檢索狀態值都為1,則可以認為,這些文檔與此用戶的查詢是相關的。

        布爾模型的主要優點有兩點:一是實現起來比較容易,速度快,計算的代價相對較少。二是查詢語言表達簡單,用戶可以使用任意復雜的查詢表達式,易于表示同義關系(如:聾教育OR特殊教育)和詞組(如:計算機AND基礎AND課程改革)。它的缺點是,由于所有檢索到的與用戶查詢條件相關的文檔具有相同的檢索狀態值,則不能對查詢結果按照相關性進行排序;另外關鍵詞也沒有考慮權重的影響,缺乏定量分析和靈活性以及不能表述模糊匹配。而為了克服布爾型信息獲取模型查詢結果的無序性,在查詢結果處理中引進了模糊邏輯運算,將所檢索的數據庫文檔信息與用戶的查詢要求進行模糊邏輯比較,按照相關的優先次序排列查詢結果。

        (二)向量空間模型

        向量空間模型把信息庫中的文本以及用戶的查詢都表示成向量空間中的點(向量),用它們之間夾角的余弦作為相似性度量。向量空間模型是現在的文本檢索系統以及網絡搜索引擎的基礎。

        在向量空間模型中,信息檢索系統如果涉及n個關鍵詞Term,則建立n維的向量空間,每一維都代表不同的關鍵詞Term。首先要建立文本和用戶查詢的向量,一個n元組的文檔向量Di的每個坐標都通過對應關鍵字的權重來表示,查詢向量中的權重表示對應關鍵詞對于用戶來說的重要程度。然后進行查詢向量和文本向量的相似性計算。并可以在匹配結果的基礎上進行相關反饋,優化用戶的查詢。在知道了文檔向量與查詢向量后,查詢與文檔的相似性就可以通過公式(2)求解。

                 (2)

        在公式(2)中,文檔Di可以用n維的向量表示,其中每個分量表示某一Term在整篇文檔中的權重。Q = (q1,q2,…,qn)中ql表示Terml在Q中的權重。

        向量空間模型的優點在于:1.檢索詞加權改進了檢索效果。2.部分匹配策略允許檢索出與查詢條件相近的文獻。3.可以根據相似度對文獻進行排序。

        它的缺點是,在這種模型中的基本假設,關鍵詞Term向量之間被假設為相互無關的,而實際是有時它們之間大多是依賴關系,如在自然語言中,詞或短語之間存在著十分密切的聯系。所以這一假設對計算結果的可靠性造成一定的影響。另外,在查詢中,也不能像布爾模型一樣使用關鍵詞之間的邏輯運算關系。
        (三)概率模型
        概率模型主要是基于概率排序原則:即如果文檔按照與查詢的概率相關性的大小排序,那么排在最前面的是最有可能被獲取的文檔。它主要針對信息檢索中相關性判斷的不確定性以及查詢信息表示的模糊性。

        在前面的向量模型中,我們假定關鍵詞Term向量是正交的,不考慮Term向量之間的依賴關系。而在概率模型中,可以通過概率計算表達關鍵詞Term之間,以及關鍵詞Term和文檔之間的依賴關系,預測文檔與用戶查詢的相關概率,并可以對獲取的結果按照相關度概率的大小進行排序(簡稱PRP)。

        概率模型有兩個主要的參數:一個文檔和用戶查詢的相關概率Pr(rel)及不相關概率Pr(nonrel),并且Pr(rel)=1-Pr(nonrel)。即

        Pr[term t in document|document is relevant]=Rt/R                             (3)

        Pr[term t in document | document is irrelevant]= (ft-Rt)/(N- Rt)  (4)

        其中:R表示與用戶查詢相關的文檔數;Rt表示在相關R中出現關鍵詞Term t的文檔數;N表示文檔數;ft表示在N個文檔中出現關鍵詞Term t的文檔數。由式(3)和(4),可以

        得到:

        Pr[term t is not in document| document is relevant]= (R- Rt)/R    (5)

        Pr[term t is not in document | document is irrelevant]=(N-ft-(R- Rt))/(N- Rt)        (6)

        根據上面所給的“條件概率”,可以計算出關鍵詞Term t的權重:

                     (7)

        在公式(7)中,如果wt>0,表明詞Term t出現的文檔與用戶查詢相關;如果wt<0,出現Term t的文檔與用戶查詢無關。

        概率模型的主要缺點是對文本集的依賴性過強,而且條件概率值很難估計。概率模型的一個特例是貝葉斯網絡,該網絡以概率的方式定義了關鍵詞的權重隨著與其相關的關鍵詞的權重的改變而改變方式。由于該模型適用于超文本信息系統,因而該模型的應用越來越廣泛。但是該模型的缺點是,計算復雜度很大,因而該模型不適合很大的網絡。

        三、結束語

        目前,大多數信息檢索模型都依賴于布爾模型,而在實驗環境中用的最多并居于主導地位的是傳統的向量空間模型。信息檢索模型還有許多其他變種,如基于布爾模型的變種有:模糊集合模型、擴展布爾模型;基于矢量空間模型的變種有:通用矢量空間模型、潛在語義索引模型、神經網絡模型;基于概率模型的變種有:推理網模型、可信網模型。而總體上來看,這些模型及其變種都是“語法”層次的信息檢索模型,沒有具有“語義”特征的規范的詞匯集。今后,進一步研究基于“概念語義空間”的文本信息組織與檢索,建立基于本體的信息檢索模型,則能有效地代表文檔和用戶信息需求,使信息檢索更加精確、有效。未來的搜索引擎應該信息量更大、搜索速度更快、搜索精度更高和最大限度地滿足用戶個性化的要求。

        參考文獻:

        [1]Ricardo Baeza-Yates,Berthier Riberiro-neto等著.王知津等譯.現代信息檢索[M].北京:機械工業出版社,2005

        [2]吳麗華,羅云鋒,張宏斌.信息檢索模型及相關性算法的研究[J].情報雜志,2006(12)25-27

        【幾種信息檢索模型比較】相關文章:

        淺談幾種常見的網絡存儲技術的比較及研究論文05-03

        DWDM光網絡網元管理信息模型的創建過程05-11

        審計風險模型的演進及應用08-26

        食油采購加工模型05-11

        Home.Net模型/架構研究06-01

        壓縮遞增年資的數量模型與分析06-07

        公交車調度問題的數學模型05-11

        數學模型方面的論文(精選6篇)05-16

        企業績效管理綜合模型及應用分析05-02

        公路交通事故MIMR救援模型05-11

        国产高潮无套免费视频_久久九九兔免费精品6_99精品热6080YY久久_国产91久久久久久无码

        1. <tt id="5hhch"><source id="5hhch"></source></tt>
          1. <xmp id="5hhch"></xmp>

        2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

          <rp id="5hhch"></rp>
              <dfn id="5hhch"></dfn>