目錄式搜索引擎的體系架構研究
爬蟲子系統是搜索引擎獲取資源的主要方式,下面是小編搜集整理的一篇關于目錄式搜索引擎的體系架構研究的論文范文,歡迎閱讀借鑒。
引言
信息檢索系統主要為互聯網用戶提供對資源的檢索服務,用戶通過輸入自己想要尋找的資源信息(諸如資源的部分名稱,資源內容中相關關鍵詞等),信息檢索系統根據用戶提供的檢索需求進行資源匹配和資源定位,并按照一定的順序將匹配的資源反饋給用戶。搜索引擎是在信息檢索系統的基礎上發展而來,目前的搜索引擎可以大致分為:目錄式搜索引擎,元搜索引擎,語義搜索引擎等。目錄式搜索引擎以當前主流的百度搜索引擎(基于中文的搜索)和谷歌搜索引擎(基于多種語言的搜索)為代表,本文也主要以目錄式搜索引擎為例,展開對搜索引擎體系架構的研究。
搜索引擎體系架構
相比于信息檢索系統,搜索引擎在檢索詞輸入時更加靈活,對資源的預處理方面,搜索引擎系統優化了更多的細節,在對資源的相似度匹配方面,搜索引擎需要考慮更多的因素在綜合定量用戶檢索詞和資源之間的相似度,最后的排序輸出更是衍生出很多優秀的排序算法?傮w來說,搜索引擎主要分為:索引子系統,內容管理子系統,鏈接分析子系統和結果排序子系統,搜索引擎的體系架構如圖1所示。
1、爬蟲子系統
爬蟲子系統是搜索引擎獲取資源的主要方式,爬蟲子系統通過在互聯網環境下運行爬蟲子程序,定期的對互聯網資源進行檢查,判斷指定URL鏈接的內容是否發生變更并適時的對數據進行更新,并將更新后的數據反饋給數據庫系統。爬蟲子系統目前主要采用兩種方式進行資源爬。涸隽渴脚廊『屠鄯e式爬取。增量式爬取表示爬蟲子系統根據當前URL鏈接遞增的去遍歷下一條網頁;累積式爬取表示根據當前URL鏈接遍歷所有與之相連的網頁,并將新得到的URL鏈接加入到隊列,完成遍歷后從隊列中取新的URL繼續遍歷。爬蟲子系統性能的優良直接決定了最終搜索引擎結果的`輸出質量,因為在數據的篩選階段主要也是依賴爬蟲子系統進行數據過濾,篩選出有價值的資源信息。
2、索引子系統
索引子系統則是承接了爬蟲子系統的數據資源,互聯網數據呈現的是一種無規則或者半結構的數據,面對如此不規整的數據格式,搜索引擎難以完成對資源的篩選和排序工作,因此索引子系統主要針對這種情況,通過對網絡爬蟲爬取的數據資源進行梳理,按照規則對數據進行規則化。倒排索引堪稱是在信息檢索領域對數據規則化最為有效的方式,我們通常對數據的認知是從正排索引開始,即根據資源名稱,聯想到資源的內容相關信息;倒排索引則與此相反,倒排索引根據關鍵詞和概念特征去反推具體的資源名稱。諸如我們在討論武俠時,會先想到“孤獨求敗”、“喬峰”等,根據這些關鍵詞和概念特征,我們會繼續反推得到對應的金庸先生相關武俠著作的書名:“神雕俠侶”和“天龍八部”等。這種推理的方式和我們的搜索引擎系統是何其相似,用戶通過輸入相關關鍵詞和概念來獲得對應的資源信息。
基于倒排索引的理論基礎,我們對搜索引擎的數據資源進行結構重組。首先需要對數據進行數據分詞和關鍵詞提取,對中文的分詞是一項非常復雜的工作,中文不像英文那樣,天然的以空格進行分割,中文分詞需要將中文字符序列按照詞義進行分割,分割后的每個單元都是一個關鍵詞,進行對中文進行分詞需要符合中文的語言規范和特點,需要保證分詞之后,每個單元都是一個完整的語義部分,同時還需要考慮分割之后語義的最大完整性,另一方面,在分詞過程中要考慮對停用詞(對整個語義表達沒有實際含義的詞,如“的”)的去重工作。分詞和停用詞操作相當于對數據的初始化處理,經過初始化之后,則完成了數據的初始化工作,索引子系統的構建是建立在數據初始化之后,文檔經過分詞之后,文檔都由一系列關鍵詞組成,此時可以建立文檔和關鍵詞之間的二維矩陣,二維矩陣中對應的權值信息表示關鍵詞在文檔中的權值信息,關鍵詞在文檔中的權值可以通過多種方式加以計算,目前主要由:TF方法,DF方法,TF-IDF方法,CHI方法,IG方法和MI方法。
3、鏈接分析子系統
鏈接分析子系統曾是谷歌的發家算法,并且在數據挖掘和搜索引擎享有極高的評價,鏈接分析子系統通過對互聯網中數據進行建模分析,發現互聯網網頁之間通過URL鏈接建立彼此之間的聯系,網頁之間通過超鏈接關系進行頁面跳轉。通過對互聯網鏈接關系的深度分析,網頁質量越高的網頁,其被其它網頁所鏈向的可能性越大,反之亦然,通過對這一規律進行深度分析并構建模型,得出互聯網網頁的質量評價模型:即網頁的質量由鏈向其網頁的數量所決定。網頁的質量用PageRank值(PR值)表示,如公式1所示。
PageRank(PR)值=重新訪問概率+迭代訪問概率(公式1)。
假設互聯網用戶采用兩種方式進行網頁:其一、通過一個網頁目錄,隨機的選擇其中一個網頁進行瀏覽,瀏覽結束之后,重新回到網頁目錄,再次選取新的URL進行訪問;其二、隨機選擇一個網頁URL進行訪問,從該網頁中提取URL鏈接列表,從URL鏈接列表中隨機選擇一個網頁URL繼續訪問。我們定義為該訪問模式和隨機游走模型,并得出網頁質量的量化評價公式,如公式2所示。
在公式2中,p表示采用重新訪問的方式進行頁面瀏覽的概率,相應地采用迭代訪問的概率為(1-p),迭代訪問時用戶選擇下一個頁面進行訪問的概率取決于下一個頁面的PR值,從某個頁面鏈出的網頁可能有多個,表示的是對每一個鏈出網頁都采取平均分配權值的方式。
4、結果排序子系統
結果排序子系統是用戶直接與搜索引擎進行交互的部分,結果排序子系統通過對符合用戶篩選條件的數據庫中資源進行排序并輸出。排序子系統需要綜合考慮多種因素,諸如網頁自身的PR值,用戶檢索詞和數據資源之間的相似度值等多個方面。同時,排序子系統需要考慮如何保證用戶需要的資源排在靠前的位置。相關研究發現,用戶通常只會對前幾頁的搜索引擎結果進行點擊,因此排序子系統不僅要保證結構輸出的準確性,即既要保證準確率和召回率,同時非常重要的因素是首頁命中率。
總結
本文通過對當前主流的目錄式搜索引擎的體系架構進行研究,主要就爬蟲子系統、索引子系統、鏈接分析子系統和結果排序子系統四部分進行論述,并就每種子系統中關鍵詞技術進行了介紹。
參考文獻:
[1]羊晶璟,鞠時光,王秀紅;赪eb的個性化搜索引擎的研究[J].計算機工程與設計,2008,20:5206-5208.
[2]李廣麗,劉覺夫。垂直搜索引擎系統的研究與實現[J].情報雜志,2009,10:144-147+169.
[3]文必龍,張璇,趙晶浩,趙滿。企業搜索引擎個性化排序方法[J].計算機系統應用,2013,04:199-203.
[4]佟曉筠,王翥。一種特定領域智能搜索引擎技術的研究[J].計算機應用研究,2004,05:49-51.
【目錄式搜索引擎的體系架構研究】相關文章:
圖書檢索系統體系架構研究11-04
紅帽認證體系架構介紹11-10
流媒體系統架構的應用11-11
j2ee技術體系架構10-27
分布式系統架構實踐05-31
關于分布式系統架構07-12
SOA體系架構下的企業系統集成11-04
軟件工程體系的架構和發展分析07-20
醫院成本會計體系架構論文08-11