- 相關(guān)推薦
網(wǎng)絡(luò)信息分類系統(tǒng)的詞匯控制
所謂詞匯控制,是指根據(jù)信息資源標(biāo)引和檢索的需要,對自然語言中的詞匯進行選擇、規(guī)范并揭示其相關(guān)性的過程。自然語言作為一種人際交流和思維的工具,其詞匯具有使用靈活、表達性強等特點,但相對檢索要求來說,含義不夠精確,缺乏明確的結(jié)構(gòu),詞匯量也過大。因此,必須根據(jù)檢索系統(tǒng)要求,對詞匯進行選擇和處理。適度的詞匯控制對于建立一個高效的信息組織和檢索系統(tǒng)是十分必要的。
分類系統(tǒng)對詞匯的控制主要包括:同義控制、詞義控制和詞間關(guān)系控制三個方面[1],本文主要圍繞這三個方面進行討論研究。
1 傳統(tǒng)分類法詞匯控制
傳統(tǒng)分類法的構(gòu)成原理中,詞匯控制是一個重要的方面。
1.1 同義控制
即對字面形式不同、涵義相同的詞進行控制,使一個概念只用一個語詞表達,目的是克服自然語言中的一義多詞現(xiàn)象。
分類法對詞匯的同義控制主要體現(xiàn)在類名的選擇上。類名即類目的名稱,規(guī)定著類目的含義和內(nèi)容范圍。當(dāng)遇到一義多詞情況時,傳統(tǒng)分類法的選詞原則一般是:采用能準(zhǔn)確反映其含義且比較通行的科學(xué)名詞,而不選擇其俗稱、舊稱、不能準(zhǔn)確表達全稱原義的簡稱、不通行的譯名或近義詞等[2]。如有必要,也可將這些落選的同義詞、近義詞用括號加注于類名后,或設(shè)置交替類目、用代參照。
1.2 詞義控制
即對同形異義詞和語義含糊的詞進行控制,使得詞義明確,一個詞語只表示一個概念,克服自然語言中的一詞多義現(xiàn)象。
傳統(tǒng)分類法主要通過類目注釋來對詞義進行控制。類目注釋有多種類型,包括內(nèi)容注釋、關(guān)系注釋、編列方法注釋、分類方法注釋、沿革注釋等。一般在類目內(nèi)容注釋中作詞義控制,對類目的涵義加以說明,或?qū)︻惸康膬?nèi)容范圍加以區(qū)分,指示某類包含與不包含的內(nèi)容。如中圖法第四版類目“TB47工業(yè)設(shè)計”的注釋:“工業(yè)設(shè)計是工程技術(shù)與美學(xué)藝術(shù)相結(jié)合的新學(xué)科”。
1.3 詞間關(guān)系控制
指揭示詞匯之間的各種聯(lián)系使其成為一個語義相關(guān)的系統(tǒng),目的是用以滿足擴檢、縮檢、改變檢索方向等的需要。詞匯之間的聯(lián)系,主要包括等同、等級、相關(guān)三種基本類型。
由于傳統(tǒng)分類法以分類標(biāo)記作為概念標(biāo)識,將系統(tǒng)展開的類目體系作為主要檢索途徑,因此,詞間關(guān)系控制成為其詞匯控制的中心。分類系統(tǒng)主要采用系統(tǒng)方式展開,通過層層劃分,構(gòu)成其具有隸屬、并列關(guān)系的秩序井然的概念等級體系。將主題之間從屬、并列、相關(guān)等聯(lián)系加以系統(tǒng)展示,同時將類目之間的參照作為揭示類目之間橫向聯(lián)系的一種補充手段。類目參照一般用于內(nèi)容聯(lián)系具有揭示價值、但在分類體系中被分散了的類目之間,通常采用互逆的方式在相關(guān)門類下注明。
2 網(wǎng)絡(luò)分類系統(tǒng)詞匯控制現(xiàn)狀
以下從同義控制、詞義控制及詞間關(guān)系控制三個方面來對網(wǎng)絡(luò)分類系統(tǒng)詞匯控制的現(xiàn)狀與傳統(tǒng)分類法進行對比分析。
2.1 同義控制
在類目名稱上,傳統(tǒng)分類法的類名力求科學(xué)、準(zhǔn)確、規(guī)范,而網(wǎng)絡(luò)分類法在類名選擇上更注意面向各類網(wǎng)絡(luò)用戶,力求通俗易懂、時新,類名也更為簡練。因此,導(dǎo)致類名不規(guī)范的現(xiàn)象在各網(wǎng)絡(luò)分類系統(tǒng)尤其是在其三級及以下類目中普遍存在,成為詞匯控制中一個突出的問題[3]。如雅虎中國的一個三級類目名“親子”,搜狐的一個三級類目名“拓展”。
至于落選的同義詞,一般不建立用代參照或設(shè)置交替類目,但可作為入口詞。如在提供類目索引的雅虎中國中,在檢索框中輸入“腳踏車”,檢索結(jié)果會將你指引向“自行車”[4]。
2.2 詞義控制
網(wǎng)絡(luò)分類系統(tǒng)中,也普遍存在類名用語模糊導(dǎo)致難以判斷其外延的現(xiàn)象。傳統(tǒng)分類法中的詞義控制手段如含義注釋和范圍注釋也很少采用,一般只在一級大類下有選擇地列舉重點或熱點下位類來幫助明確其類名含義。如Yahoo!中,在一級大類“Business & Economy”下列出部分一級類“B2B,Finance,Shopping,Jobs”[5];在Open Directory中,一級大類“Business”下列出部分二級類“Jobs,Real Estate,Investinn”[6]。
2.3 詞間關(guān)系控制
與傳統(tǒng)分類法一樣,等級式類目體系也是網(wǎng)絡(luò)分類法進行詞間關(guān)系控制的主要手段。傳統(tǒng)分類法基本上是采用線性形式揭示類目之間聯(lián)系的,這是文獻組織的需要和傳統(tǒng)檢索環(huán)境的特點所決定的。計算機的使用,特別是超文本技術(shù)的使用改變了這一狀況。超文本技術(shù)的特點是,可以通過節(jié)點之間的鏈接,以非線性的方式充分揭示和表達信息之間的聯(lián)系。這一特點極大地改進了網(wǎng)絡(luò)分類法中類目之間各種關(guān)系的揭示,尤其是多維關(guān)系的揭示。這是超文本技術(shù)的強項,也是傳統(tǒng)分類法中的一個薄弱環(huán)節(jié)。目前,網(wǎng)絡(luò)分類體系中對多維關(guān)系的揭示比較充分,一般均通過鏈接的方式,在相應(yīng)類下重復(fù)反映。但如在處理過程中缺乏一致性及對應(yīng)用范圍的適度控制,也會造成類目關(guān)系的混亂。此外,單一的重復(fù)反映并不能簡單代替相關(guān)關(guān)系的揭示[7]。
在從屬、并列關(guān)系的揭示上,網(wǎng)絡(luò)分類系統(tǒng)目前也存在一些問題,如類目歸屬存在著不合理現(xiàn)象,同位類排列不能揭示類間關(guān)系等。
3 網(wǎng)絡(luò)分類系統(tǒng)詞匯控制改進策略
網(wǎng)絡(luò)分類目錄是因特網(wǎng)上用戶常用的兩種信息檢索工具之一,對網(wǎng)上海量的混雜無序的信息起著重要的導(dǎo)航作用。網(wǎng)絡(luò)分類系統(tǒng)詞匯控制的根本目的是提高檢索效率,因此,筆者認(rèn)為網(wǎng)絡(luò)分類系統(tǒng)的所有詞匯控制改進策略都應(yīng)以提高檢索效率為前提。
3.1 繼續(xù)保持自然語言的主體檢索語言地位
目前,在大多數(shù)信息存儲與檢索系統(tǒng)中,自然語言和人工受控語言處于并存狀態(tài),相互取長補短。隨著Internet的普及發(fā)展,信息檢索最終用戶日趨壯大,自然語言檢索呈現(xiàn)迅速發(fā)展趨勢。如前所述,網(wǎng)絡(luò)分類檢索系統(tǒng)中詞匯控制具有與傳統(tǒng)分類系統(tǒng)不同的特點,自然語言在系統(tǒng)中完全占據(jù)了主體地位。從根本上看,這是由自然語言檢索的特點和網(wǎng)絡(luò)用戶的檢索需求特點所決定的。
傳統(tǒng)分類法的編制主要針對印刷型文獻的特點用以編制分類目錄和組織分類排架,而網(wǎng)絡(luò)信息分類體系旨在為網(wǎng)上信息提供指引,建立與目標(biāo)信息的快速有效的鏈接。網(wǎng)絡(luò)信息分類體系面向的是廣大網(wǎng)絡(luò)用戶而不是圖書情報專業(yè)人員。與原來的專業(yè)檢索人員相比,網(wǎng)絡(luò)用戶的范圍十分廣泛,他們的教育程度、知識結(jié)構(gòu)、專業(yè)技術(shù)、興趣愛好各不相同,對同一事物、同一概念的理解也不盡相同。因此,為了增加網(wǎng)絡(luò)分類體系對一般用戶的易用性,現(xiàn)有的網(wǎng)絡(luò)分類體系都盡量采用自然語言,而避免學(xué)術(shù)性、專業(yè)性過強的詞匯,從而向大眾提供易于掌握、使用的分類查詢系統(tǒng)。
自然語言由于其與生俱來的詞義模糊、詞間關(guān)系不清等特性造成不少的漏檢和誤檢,與人工語言相比,檢索效率較低。但從用戶角度來說,自然語言具有獨特的優(yōu)越性,如自然語言時新性強,一旦網(wǎng)頁中出現(xiàn)某個新概念詞語,即可直接使用這一新詞作為檢索入口,而不必要轉(zhuǎn)換成另一規(guī)范詞用于檢索。而且自然語言檢索方便,它解除了受控語言的種種限制,不需要復(fù)雜的檢索規(guī)則,使用者能夠較快適應(yīng)、易用性突出。
當(dāng)然,要想獲得滿意的檢索效果,對自然語言的適度控制是不可缺少的,這包括建立機內(nèi)關(guān)鍵詞詞典、類主題詞典和后控制詞表等。有理由相信隨著相關(guān)技術(shù)的日益提高,自然語言的優(yōu)越性將越來越顯著,網(wǎng)絡(luò)分類檢索系統(tǒng)也將日臻完善,獲得人們的普遍歡迎。
綜上所述,為了促進網(wǎng)絡(luò)分類系統(tǒng)的廣泛使用,自然語言在其中作為主體檢索語言的地位需要繼續(xù)保持下去。
3.2 適度借鑒傳統(tǒng)分類法和主題法的詞匯控制手段
傳統(tǒng)分類法主要通過其層層展開的嚴(yán)密的類目體系來進行詞匯控制。其系統(tǒng)的類目體系使得系統(tǒng)地掌握和利用一個學(xué)科或?qū)I(yè)范圍的知識和信息很方便,對于從學(xué)科或?qū)I(yè)出發(fā)的泛指性檢索能達到較高的檢全率,而且能方便地進行擴檢和縮檢。傳統(tǒng)主題法系統(tǒng),一般以詞匯為單元進行控制,主要通過參照系統(tǒng)和各種輔助索引來展示詞間關(guān)系,在主題詞的選擇、詞義控制方面比分類法更為嚴(yán)格。主題法的特點是以主題為中心集中信息資源,能準(zhǔn)確、專指地標(biāo)引和揭示各種主題內(nèi)容,檢索的直接性、通用性好,適合于進行專指性檢索,而且可通過靈活組配方式進行多途徑檢索,達到較好的使用效果。
現(xiàn)有網(wǎng)絡(luò)分類法由于應(yīng)用超文本技術(shù)揭示詞間關(guān)系,采用多重列類的方法,從不同的屬性、角度設(shè)置類目,從而提供從多個方面揭示信息資源的方法,增加了檢索入口,方便用戶從不同角度查找。這是其在檢索上相對于傳統(tǒng)分類法和主題法檢索系統(tǒng)最大的優(yōu)勢。但從目前檢索實踐來說,其檢索效率遠(yuǎn)不及后者,究其原因,詞匯控制是其中一個很重要的因素。因此,要改善網(wǎng)絡(luò)分類系統(tǒng)的檢索效率,借鑒傳統(tǒng)分類法和主題法成熟的詞匯控制手段是一個可行的辦法[8]。
首先,在類目體系設(shè)計上,網(wǎng)絡(luò)分類體系普遍存在著類目設(shè)置缺乏規(guī)律性、類目歸屬不合理、同位類排列混亂、橫向關(guān)系揭示不一致等問題,而這些問題在傳統(tǒng)分類法中都相應(yīng)地有很成熟的技術(shù)或約定俗成的做法可借鑒。
其次,在類名選擇上可借鑒傳統(tǒng)主題法詞匯選擇的原則和方法或直接選用其主題詞。類目名稱不規(guī)范是目前各種網(wǎng)絡(luò)分類系統(tǒng)的一大通病。作為面向最終用戶的檢索系統(tǒng)來說,采用廣大網(wǎng)民所喜聞樂見的稱謂是無可厚非的,但對于類目命名還是要進行適當(dāng)?shù)囊?guī)范化處理。現(xiàn)有的網(wǎng)絡(luò)分類系統(tǒng)大多屬于等級式主題分類法系統(tǒng),以主題充當(dāng)類目。因此,借鑒傳統(tǒng)主題法詞匯選擇的原則和方法或直接選用其主題詞不失為改善詞匯控制的一個捷徑。
另外,在詞義控制上,可采取傳統(tǒng)分類法和主題法所常用的手段,包括加限義詞、增設(shè)含義注釋和范圍注釋等,以進一步明確類目的內(nèi)涵和外延。這有助于用戶在查詢系統(tǒng)時快速、準(zhǔn)確選擇類目,增強系統(tǒng)的用戶友好性,從而達到改善檢索效果的目的。
3.3 建立一致的詞匯控制機制
許多國內(nèi)外知名的綜合性門戶網(wǎng)站如Yahoo、Excite、Infoseek、搜狐、網(wǎng)易等都研制有自己的網(wǎng)絡(luò)分類檢索工具,提供分類瀏覽式查詢。這些各具特色的網(wǎng)絡(luò)分類體系給網(wǎng)上信息檢索帶來了極大的便利。這些分類體系的大類設(shè)置與劃分、類名的表述與外延、類目的排列等各不相同,檢索性能也有較大的差異。而用戶在查詢網(wǎng)絡(luò)信息時通常會使用多種分類檢索工具,這就造成了用戶理解和使用的困難,更不利于網(wǎng)上信息資源的共建和共享。
傳統(tǒng)分類法也曾是多種多樣的,但目前在國際上占主導(dǎo)地位的只有DDC、UDC和LCC,在我國則是《中圖法》和《科圖法》。綜合性的分類法趨向統(tǒng)一是信息資源共享趨勢的結(jié)果。互聯(lián)網(wǎng)上信息資源的最大特點之一就是它的共享性。知識組織體系的相對統(tǒng)一將為基于網(wǎng)絡(luò)的資源共享提供便利。因此,編制適應(yīng)網(wǎng)上信息組織和檢索的統(tǒng)一分類體系已成為迫切需要解決的問題。建立一致的詞匯控制機制是統(tǒng)一分類體系的非常重要的一環(huán),對于推動網(wǎng)絡(luò)分類法的進一步發(fā)展具有重要的意義。
建立一致的網(wǎng)絡(luò)信息分類體系詞匯控制機制,應(yīng)該由圖書情報專業(yè)人員參與,以現(xiàn)有的傳統(tǒng)分類體系主題法詞匯控制機制為基礎(chǔ),吸收已有的網(wǎng)絡(luò)分類體系的詞匯控制經(jīng)驗和成果,遵循面向網(wǎng)絡(luò)信息資源、面向網(wǎng)絡(luò)技術(shù)環(huán)境、面向網(wǎng)絡(luò)用戶的原則。其詞匯控制機制主要包括同義控制、詞義控制、詞間關(guān)系控制方面的原理、原則、方法和技術(shù)等,此外,還包括詞量控制、詞組選擇和使用的控制、專指度的控制等方面的內(nèi)容。
最后,在詞匯控制機制一致的基礎(chǔ)上,構(gòu)建相對統(tǒng)一的網(wǎng)絡(luò)信息分類法。所謂相對統(tǒng)一,是指在統(tǒng)一網(wǎng)絡(luò)分類體系基本原理包括詞匯控制機制的基礎(chǔ)上,保留并改進現(xiàn)有的多樣的網(wǎng)絡(luò)分類體系,允許多種有特色有實力的分類體系共存發(fā)展。因為不同的網(wǎng)絡(luò)分類體系在類目體系和資源選擇上往往都有自己的特點,在滿足不同用戶需求或檢索特定資源時有其獨到之處[7]。此外,多樣性必然導(dǎo)致網(wǎng)絡(luò)分類體系之間的競爭,為了爭取用戶,開發(fā)者不得不針對用戶的需求實時地改進,這就使得整個網(wǎng)絡(luò)分類體系的性能得到自然的提升,從而推動網(wǎng)絡(luò)分類法逐步走向成熟和完善[9]。
【參考文獻】
1 馬張華.信息組織(第二版)[M].北京:清華大學(xué)出版社,2003.14-15.
2 張琪玉.情報語言學(xué)基礎(chǔ)(第二版)[M].武漢:武漢大學(xué)出版社,1997.44-47.
3 黃如花.網(wǎng)絡(luò)信息組織:模式與評價[M].北京:北京圖書館出版社,2003.89-91.
4 http://cn.yahoo.com,2004-10-11.
5 http://www.yaboo.com,2004-10-11.
6 http://dmoz.org/,2004-10-11.
7 劉穎.試論網(wǎng)絡(luò)信息分類的現(xiàn)狀與未來——構(gòu)建統(tǒng)一的網(wǎng)絡(luò)信息分類法[J].晉圖學(xué)刊,2003,(1):21-23.
8 周寧,黃曉梅,等.信息組織[M].武漢:武漢大學(xué)出版社,2001.74-77.
9 杜安平.網(wǎng)絡(luò)分類體系基本原理研究[J].圖書館學(xué)研究,2004,(4):60-62.
【網(wǎng)絡(luò)信息分類系統(tǒng)的詞匯控制】相關(guān)文章:
基于電話網(wǎng)絡(luò)的熱網(wǎng)遠(yuǎn)程控制系統(tǒng)設(shè)計05-11
淺析自動控制系統(tǒng)04-19
信息管理系統(tǒng)開題報告07-20
信息管理系統(tǒng)論文11-22
管理信息系統(tǒng)論文07-29
信息管理系統(tǒng)論文通用02-14