《現代漢語語法信息詞典》的開發與應用
【摘要】現代漢語語法信息詞典是為計算機實現漢語句子的自動分析與自動生成開發的一部機器詞典,它以數據庫文件形式收錄了5萬多條現代漢語的詞語,不僅給出了每個詞語所屬的詞類,而且詳細描述了它們的各種語法屬性。本文介紹這部語法詞典的開發歷程、內容概要和設計思想,并且舉例說明在自然語言處理系統中如何應用這部語法詞典。關鍵詞:現代漢語、語法信息詞典、機器詞典、自然語言處理The Development of Contemporary Chinese GrammaticalKnowledge Base and its ApplicationsZHU Xuefeng YU Shiwen WANG HuiInstitute of Computational Linguistics, Peking UniversityBeijing 100871, P.R.CPhone :2501892 AbstractThe Contemporary Chinese Grammatical Knowledge Base is a machine dictionary,which is developed for automatic analysis and generation of Chinese sentences. There are about 50,000 Chinese words and idioms in the knowledge base represented by database files. The knowledge base not only gives part of speech for each word or idiom, but also describes their various grammatical attributes. The paper introduces the design, the development and the outline of the knowledge base and shows its applications in natural language processing systems with examples.Keywods: contemporary Chinese, grammatical knowledge base, machine dictionary, natural language processing 1. 現代漢語語法信息詞典的開發歷程 十年前,中文輸入技術的主流還是漢字編碼,以詞為單位進行輸入也只是漢字輸入的陪襯。北大計算語言學研究所在1986年提出了一個語法規則制導的以語句為單位的中文輸入方案,并在一年多的時間內實現了。參考文獻[1]深入淺出地介紹了這個方案的原理與實現技術。這個方法中就包含了一部電子詞典,除了詞條及每個詞的檢索特征(拼音、起筆、末筆等)外,還包括詞類及細分的子類。這部詞典成為現代漢語語法信息詞典的基礎。 作為中國七五攻關項目“自然語言理解與人機接口”中的一個子專題,俞士汶于1987年提出了開發“現代漢語詞語語法信息庫”的計劃[2] ,把研究重點放在詞語語法屬性的描述上。恰逢此時,中國著名語言學家朱德熙先生承擔了全國社會科學規劃領導小組下達的“現代漢語詞類研究”的攻關項目。從此,北大計算語言學研究所與中文系的研究者們在朱德熙先生的率領下開始了聯合攻關,并結成了穩定的合作關系。1990年,“現代漢語詞語語法信息庫”取得了階段性成果,通過技術鑒定。 在討論八五攻關項目時,以中國工程院院士、中國中文信息學會理事長陳力為教授為代表的中國一批自然語言處理技術專家敏銳地覺察到,為了中文信息處理技術的發展,特別是語言信息處理技術的發展,有必要建立通用的應用開發平臺[3][4]。這個大型語言工程將現代漢語語法信息詞典(以下有時簡稱為“語法詞典”)列為它的一個子專題。從1991年起北大計算語言學研究所承擔了這個子專題的研制任務。本項研究繼承了“現代漢語詞語語法信息庫”的成果,又經過5年的努力,現在本項研究已完成如下任務:(1)制訂了現代漢語語法信息詞典的規格說明書與開發方略[5];(2)建立了面向信息處理的現代漢語詞語分類體系并完成了關于這個分類體系的研究報告[6];(3)明確了詞語的收錄范圍與選詞原則[7];(4)探討了某些詞類的子類劃分[8];(5)語法詞典本身的開發,這當然是最繁重、最艱巨的任務。到目前為止,語法詞典收錄的詞語總數為5萬多條,并且將這5萬多詞都歸了類,按照規格說明書填入了語法屬性信息,其中百分之七十經過了仔細的、多遍的、不同角度的校對。 按照應用開發平臺工程總體組的布署,北大已將語法詞典的部分內容提交給其他子專題開發組使用。最近,負責句法規則的研究者告知,語法詞典對句法分析提供的語法知識是有價值的,也是相當充分的。對于開發者來說,這當然是莫大的安慰與鼓勵。另外,北大計算語言學研究所與中國科學院計算所聯合開發“漢英機器翻譯模型系統”,與北京通字公司聯合開發“面向通用圖像碼的自然語言生成系統”,與自然科學基金項目配合,開發漢語語料庫多級標注系統[9],這些應用系統利用了語法詞典的信息。語法詞典為這些應用系統取得階段性成果也作出了貢獻。 總之,現代漢語語法信息詞典的開發已取得階段性成果,并且在若干自然語言處理應用系統開發中得到了利用。2. 現代漢語語法信息詞典的內容概要2.1 詞語的分類詞語的分類既是任何一個自然語言處理系統的基礎也是語法信息詞典開發的基礎。因為語法詞典既要描述每類詞都有的共同的語法屬性,又要分別描述各類詞特有的語法屬性,只有這樣,語法信息才會充分、完備,而又不致過于冗余。語法詞典的詞類體系是在朱德熙先生的語法理論指導下,依據詞的語法功能建立的,現代漢語詞語可劃分為以下18個基本詞類:名 詞(n) 如:書、水、教授、國家、心胸、北京時間詞(t) 如:明天、元旦、唐朝、現在、春天處所詞(s) 如:空中、低處、郊外、隔壁方位詞(f) 如:上、下、前、后、東、西、南、北、里面、外頭、中間數詞(m) 如:一、第一、千、零、許多、分之量 詞(q) 如:個、群、公斤、杯、片、種、些區別詞(b) 如:男、女、公共、微型、初級代 詞(r) 如:你、我們、這、那么、哪兒、誰 動 詞(v) 如:走、休息、同意、能夠、出去、是、調查形容詞(a) 如:好、紅、大、溫柔、美麗、突然狀態詞(z) 如:雪白、金黃、淚汪汪、滿滿當當、灰不溜秋副詞(d) 如:不、很、都、剛剛、難道、忽然介 詞(p) 如:把、被、對于、關于、以、按照連 詞(c) 如:和、與、或、雖然、但是、否則助 詞(u) 如:了、著、過、的、所、似的語氣詞(y) 如:嗎、呢、吧、嘛、啦、唄擬聲詞(o) 如:嗚、啪、叮呤當啷、嘩啦嘆 詞(e) 如:唉、喔、哎喲、嗯、啊括號中的英文字母是各個詞類的代碼。這18個基本詞類是被多數語言學家認可的。其中名詞、時間詞、處所詞、方位詞、數詞、量詞可以歸并為體詞(其主要語法功能是作主語、賓語),動詞、形容詞、狀態詞可以歸并為謂詞(其主要語法功能是作謂語),代詞有一部分屬于體詞(如:你、我、這兒、哪里等),又有一部分屬于謂詞(如:這樣、那么、怎么樣等)。體詞、謂詞、區別詞、副詞又合稱為實詞,而介詞、連詞、助詞、語氣詞合稱為虛詞。在實際文本中出現的詞語,除了屬于以上18個基本詞類的以外,還存在比基本詞類要大的單位,如:成 語(i) 如:空中樓閣、畫龍點睛、字字珠璣、一衣帶水習用語(l) 如:總而言之、自古以來、跑龍套、擺花架子簡稱略語(j) 如:北大、數理化、總參、三好、農牧業也存在比基本詞類更小的單位,如:前接成分(h) 如:阿(~妹)、老(~張)、偽(~指令)后接成分(k) 如:子(桌~)、兒(花~)、頭(石~)、式、員語 素 字(g) 如:碧、棉、賓、潔、農、怒非語素字(x) 如:鴛、鴦、葡、萄、咖、啡中文的標點符號(w) 如:。,《》 、!“”為了分析實際文本的需要,現代漢語詞語功能分類體系共包括了26個不同的詞語類別。現在已完成了語法詞典收錄的5萬詞語的歸類工作。2.2 語法詞典的結構與形態語法詞典采用成熟的關系數據庫技術,結合使用分類與屬性描述兩種方法,對5萬詞語建立了分級的語法屬性庫。每一個庫文件都刻劃了詞語及其屬性的二維關系。長期以來,自然語言處理技術都是應用規則系統描述語言的語法規律。這種規則系統抽象程度高,適合于描述詞類與詞類之間的組合關系。但是自然語言極其復雜,每個詞語都有自己的特性,規則系統是難以應付大范圍的實際語料的復雜性的。面向實際語料中詞與詞的同現關系的統計學研究是一個有前途的新方向,但統計的數據量非常大,需要強大的計算機系統甚至超并行計算機系統的支持。語法詞典介于上述兩種辦法之間,是在應用需求與客觀條件之間進行權衡與折衷的實際可行的策略。詞典中共有32個數據庫文件?値1個。各類詞庫24個(嘆詞、象聲詞、非語素字現未另建庫)。代詞庫下又設兩個庫,即人稱代詞、指示 / 疑問代詞分庫,動詞庫下又設體賓動詞、謂賓動詞、雙賓動詞、動結式、動趨式、離合詞等6個分庫。所有詞的共同屬性容納在總庫中,總庫中的屬性包括讀音、詞類、切分標記、姓氏標記等,共計約20項。各類詞的特有屬性填在各類詞的庫中。以動詞為例,動詞庫中列出了46項屬性,表1是動詞屬性庫中部分屬性的樣例。
表1. 動詞屬性庫中部分屬性的樣例
詞語同形義項助動外內體謂準雙賓著了過重疊VVO離合單作謂語單作補語兼類
交給體雙了
理發內了過VVO離可
會A見面體著了過VVn
會B1理解體可可
會B2可能助謂可
會C付帳體可
加強體準了
進行準了
能夠助謂可
保管1保存體著了過ABAB可
保管2擔保謂
幫幫助體雙著了過VV可q
冒險內過VVO離a
上去內了過離可可
對動詞的某些屬性(如體詞賓語、謂詞賓語的類型)還要進一步刻劃,則分別建立有關的分庫。這樣,整個信息庫形成了層次構造的體系?値炫c各類詞庫,代詞與下屬的2個分庫,動詞與下屬的6個分庫都可以進行連結(JOIN),連接條件可以用詞語、詞類、同形這些字段來表達。這樣,這32個庫文件構成有上下位繼承關系的“樹”,子結點繼承父結點的全部信息,或者說,將父結點與子結點連結起來就可以得到詞語的更全面的信息。2.3 詞語的屬性描寫分類法刻劃事物雖然簡潔、清晰、信息密度大,但屬于同一類的事物仍可能各具特點,例如“魚”和“!蓖瑢賯體名詞,因為“魚”有專用個體量詞“尾”,“牛”有專用個體量詞“頭”。但是,“魚”通常還可以與度量詞“斤,克”搭配,“牛”就不行。因此語法詞典更依靠屬性描述來刻劃每一個詞語的語法信息。如對于名詞,就詳細描述每個名詞可以搭配的各類量詞。語法詞典對每一類詞的語法屬性進行了相當充分的發掘。例如,對于作為研究重點的動詞共確定了46項屬性。這些屬性大致可歸納為7類。第一類是關于動詞本身特性的,如該動詞是不是系詞、助動詞、趨向動詞。第二類是關于動詞變化形態的,如有沒有VV、ABAB、AABB、V一V、V了V等形態。第三類描述該動詞有無名詞特性,如能否直接修飾名詞,能否直接受名詞修飾、能否作動詞“有”的賓語等。第四類反映該動詞同一些虛詞的關系,如它前面能不能受“不,沒,很”修飾,后面能不能帶“著,了,過”。第五類描述動詞在句中的功能,即該動詞在句法結構中能否單獨作主語、謂語、賓語、狀語和補語,其中能否單獨作謂語是一項很重要的屬性。第六類刻劃動詞與后繼成分的關系,即該動詞能否后接表示結果的補語,能否后接趨向動詞,能否后接時量成分,能否后接動量成分,能否帶賓語。如果能帶賓語,則進一步細分能帶什么樣的賓語:體詞,謂詞,雙賓等。第七類包含其它零散的屬性,如該動詞的主語是否必須是“復數”。3. 現代漢語語法信息詞典的設計思想3.1 通用與專用相結合,以通用為主在自然語言處理系統中,通常都有一部包括詞法、句法、語義信息的機器詞典,但由于這類詞典是服務于特定目的與特定系統的,為了把它從一個系統移植到另一個系統時需要花費很大力氣,人們往往寧愿另起爐灶。本語法詞典作為中文信息處理技術應用開發平臺的一個組成部分,是獨立于特定的處理系統的,甚至也不依賴于某個具體的計算語言學理論與算法,它反映的是現代漢語詞語的語法功能的基本事實。各個具體的應用系統可能不需要語法詞典所包含的全部知識,但都可以對它進行裁剪或從中提取出所需要的知識。語法詞典的收詞原則、各個詞的義項的選取原則以及語法屬性的確定都是面向通用的現代漢語的。但是,當將語法詞典應用于具體系統時,也可以通過詞語的選取、屬性的增刪向各個具體系統傾斜,專用的色彩就會變濃。3.2 專家知識與語料庫相結合,以專家知識為主現代漢語詞語分類體系的確立、若干詞類的子類的劃分、各類詞的共同語法屬性(總庫)與特殊屬性(分庫)的設置以及屬性值的確定主要依賴專家的知識。指導、主持與參與語法詞典開發的專家或者是造詣頗深的著名語言學家,或者是在開發具體的自然語言處理系統中積累了豐富感性知識的計算機專家,或者是基礎扎實文理結合的青年計算語言學工作者。語法詞典就是將這些專家的知識以形式化、規格化的方式存儲到計算機系統中。而且語法詞典的開發也為計算機科學與語言學的結合找到了一個合適的途徑。計算機系統可以較快地吸收語言學家的知識,語言學家也能比較容易地利用語法詞典開展語言研究與語言教學研究。在依賴專家知識的同時,我們也重視語料庫的建設。對總體組提供的3批語料,我們參與了切分與詞性標注。北大計算語言學研究所還建立了面向語法研究的語料庫,并對其中一部分(約70萬字)進行了切分與標注。利用這些語料,可對詞典內容進行比較與校對,從而大大提高了詞典內容的可信度。3.3 基礎研究與應用研究相結合,以基礎研究為主北大計算語言學研究所在八五期間始終將語法詞典的開發列為工作的重點,尤其是課題組的主要成員,更是全身心地投入了這項開發工作,以全局利益和長遠利益為重,堅持做底層的基礎的工作。北大計算語言學研究所也在另外一些項目中使用語法詞典的成果。這些項目包括獨立開發的現代漢語語料庫多級標注系統CCMP[9],也包括與其它單位合作開發的如1.中所述的應用系統。從應用中得到的反饋意見既使課題組得到鼓舞,也使課題組清醒地認識到,要使這項成果早日問世,發揮作用,尚有很多艱苦的工作要做。4. 現代漢語語法詞典應用例解語法詞典是語言信息處理的基礎,它不僅可以在語言信息處理的各個項目(如:機器翻譯,自然語言接口,文獻檢索,語音識別,語音合成,文字識別,中文鍵盤輸入,文本校對,語料庫加工等)中得到應用,而且也可以在傳統的語言學研究特別是現代漢語語法研究中得到應用。下面以實例解釋如何運用這部語法詞典。4.1 句法分析按照當前的主流技術,句法分析是機器翻譯與自然語言理解等系統的處理流程中的一個必要的環節。句法分析指的是依據某種句法分析理論提供的規則分析自然語言的句子,得到這個句子的句法樹(如上下文無關語法CFG)或以復雜特征集表示的功能結構(如詞匯功能語法LFG)。要進行這種句法分析,必須要知道每個詞的詞性(即該詞所屬的詞類, part of speech)。但僅僅依靠詞性,會產生大量的歧義結構。如: 我們 選舉 他 當 主席。 (1) 我們 認為 他 是 主席。 (2)(1)與(2)的相似是明顯的,從詞性來看,它們都有如(3)所示的同樣的詞類序列。 r v r v n (3)根據上下文無關的語法規則,這樣的詞類序列可以產生多種句法樹。從語法詞典中查“選舉”,這個動詞可以后接兼語結構,(1)的結構可以優選為圖1中的左邊的樹。從語法詞典中查“認為”,這個動詞只能帶謂詞性賓語,且這個謂詞性賓語是一個子句,(2)的結構只可能是圖1中的右邊的樹。 S SNP VP NP VP r v NP VP r v SC r v n NP VP我們 選舉 他 當 主席 r v n 我們 認為 他 是 主席圖1 句子(1)與(2)的句法樹 在機器翻譯系統中,只有得到了源語言句子的正確的句法結構,才有可能產生可信度與可讀性皆好的目標語言的句子。4.2 句子生成一般地說,在自然語言處理系統中,漢語的句子生成相對說來要簡單些,這是因為漢語的詞沒有復雜的形態變化,詞序又比較靈活。以漢語為母語的人容易從詞語、語素排列串中猜出它們要表達的意思。正因為如此,現在對漢語的句子生成投入的力量是不夠的。自然語言處理系統生成的漢語句子往往帶有“機器味兒”,不像地道的漢語。例如,機器翻譯系統給出以下兩句漢語是尋常的。 她是一個美麗姑娘。 (4) 當時敵機轟炸著這個城市。 (5) “美麗”是形容詞,“美麗”修飾“姑娘”在語義上也是適配的,但讀起來總覺得有些別扭。這是因為漢語中的形容詞,只有一部分可以直接修飾名詞,相當多的一部分需要加助詞“的”才能修飾名詞。從語法詞典的形容詞庫中,可以查到,“美麗”需加“的”,而它的同義詞“漂亮”則不需要加“的”。只要利用這些平凡的知識,則能生成更自然的句子“她是一個美麗的姑娘”或“她是一個漂亮姑娘”。對于(5),之所以覺得它不地道,是因為“轟炸”這個動詞后面不能接動態助詞“著”,為了表示進行時態,可以改為“當時敵機正在轟炸這個城市”。在語法詞典中確實包含了動詞“轟炸”不能帶“著”、可以受“正在”修飾的信息。4.3 語音識別與拼音漢字轉換語音識別通常分為兩個階段。第一階段是將無編碼的語音信號轉換為機內的漢語拼音序列,這是模式識別的任務。第二階段是分化同音字或同音詞,表現在書面上則是將拼音序列轉換為漢字序列。這是語言信息處理的任務。采用拼音方式從鍵盤上輸入中文所要解決的問題也是拼音序列到漢字序列的轉換。假定,給定拼音序列 Zhuo1zi5 shang4 you3 yi1 jin1 pi2pa5。 (6) 這里,全拼音節后的數字1,2,3,4,5分別代表陰平、陽平、上聲、去聲、輕聲。由于“pi2pa5”對應兩個同音詞“琵琶”和“枇杷”,某些系統轉換出 桌子上有一斤琵琶 。 (7) 是不足為怪的。但如果利用語法詞典,則可以查到每一個具體的名詞可能與哪些子類的量詞以及哪些具體的量詞相適配。與“琵琶”相適配的只有個體量詞“把”,而“枇杷”卻是可以與度量詞“斤”相適配的。根據語法詞典提供的這些信息,系統就可以修正(7),從而得到“桌子上有一斤枇杷”。又假定系統已確認對應“jiayi”的詞是“加以”,接著輸入“yanjiu”。沒有更多的信息,系統很難判定對應“yanjiu”的是“煙酒”還是“研究”。如果利用語法詞典,則知道“加以”是形式動詞,只能帶準謂詞性賓語,不會帶體詞性賓語,因此在“加以”的制約下,對應“yanjiu”的只能是“研究”而不會是“煙酒”。4.4 漢字識別的后校正現在脫機(off-line)漢字識別技術對“師”這個模式通常給出“師、怖、帥”等若干個候選字。如果沒有上下文,孤立地決定選取哪一個字是困難的。但如果在上下文“三個師的士兵”中,“師”的前后都是筆劃較少、較易辨認的字,并且已經唯一地確定下來了,則只有“師”這個名詞可以與個體量詞“個”相適配。在現代漢語中,“帥”與“怖”只是語素,不能獨立成詞,一般不會與“個”相適配。因此,系統就會很有信心地從3個候選字中選擇“師”。4.5 語料庫標注北大計算語言學研究所開發漢語語料庫多級加工系統CCMP的經驗表明,進行語料庫標注,采取基于規則的方法與基于統計的方法相結合的策略是恰當的,并且切分與標注同步進行是合理的[9]。在進行這種標注時,語法詞典可以發揮重要的作用。詞典中的數以萬計的詞都已經劃好了類,對標注的正確性與一致性可以起到基本的保證作用。標注程序只需集中力量解決兼類詞的歧義消解及未登錄詞的確認與詞性判定。利用純粹的統計方法進行詞類標注,也需要有人先對一部分語料進行手工標注(即對系統進行訓練)。由于存在不同的語法體系,由于不同的人會有不同的認識,即使同一個人的認識也會發展變化,所以由人直接標注語料難免出現不一致性。例如,對于主賓語位置上的謂詞(動詞、形容詞等)有可能被標為謂詞,也有可能被標為名詞。這樣就會影響自動標注的正確率。依靠這部語法詞典,就不會發生這種情況。而且,標注了詞性的語料庫與語法信息詞典相結合,可以構成立體的知識庫,即從語料中的詞/詞性入口,可以迅速檢索到該詞的諸多語法特性,從而為進一步的分析或標注提供豐富的知識。5. 后記本項研究雖然已取得了可觀的階段性成果,但要做的工作還很多。本課題組決心持之以恒,繼續推進這項研究。本項研究自始至終是在陳力為院士的關心與支持下進行的?傮w組的多位專家(如袁琦、董振東、黃昌寧等)及各合作單位都給過北大計算語言學研究所多種形式的支持與鼓勵。在此一并致以衷心的謝意。陸儉明與郭銳兩位先生起了重要的顧問作用。北大計算語言學研究所的張蕓蕓、郭濤、周強、陶曉鵬、詹衛東、周莉娜等人或者是在詞典本身的開發中或者是在詞典的應用中都為本項研究貢獻了力量。參考文獻[1] 俞士汶,中文輸入中語法分析技術的應用,《中文信息學報》,1988年,第二卷,第三期,PP20-26 [2] 俞士汶,現代漢語詞語信息庫開發工作介紹提綱,《計算機開發與應用》,1989年,第五卷第二期, PP16-18[3] 陳力為,建立應用開發平臺是中文信息處理技術的當務之急,《計算機世界》,1992年1月8日,第2期第5版[4] Zhengdong Dong , 中國中文信息處理平臺工程項目與漢語研究,Communications of COLIPS, Volume 3, Number 2, 79~88,1993. [5] 俞士汶,朱學鋒,郭銳,現代漢語語法電子詞典的概要與設計,第三屆中文信息處理國際會議論文集(ICCIP’92),PP186-191[6] 俞士汶,信息處理用現代漢語詞語分類體系介紹,計算語言學教學參考資料(北大計算語言所1993年7月編),PP35-57 ,其摘要“關于現代漢語詞語的語法功能分類”刊載于《中國計算機報》,1994年5月31日第73版至第75版[7] 王惠,朱學鋒,《現代漢語語法電子詞典》的收詞原則,《中國計算機報》,1994年5月31日第79版至第83版[8] 朱學鋒,王惠,張蕓蕓,現代漢語語法電子詞典中量詞與名詞的子類劃分,《中國計算機報》,1994年5月31日第79版[9] 周強,俞士汶,一個人機共生的漢語語料庫多級加工處理系統CCMP,《計算語言學進展與應用》,清華大學出版社,1995年11月,PP50~55本文刊登在新加坡《中文與東方語言信息處理學會通訊》,1995年第2期,PP81~86--------------------------------------------------------------------------------* 本項研究得到中國八五攻關項目與國家自然科學基金的支持論文出處(作者):
中文全文信息檢索系統中索引項技術及分詞系統的實現
現代漢語文本的詞語切分技術
【《現代漢語語法信息詞典》的開發與應用】相關文章:
談英語語法教學的幾種誤解08-22
現代漢語言文學教學探討論文(通用7篇)06-24
20世紀西方的主要語法學派的發展研究05-24
淺析電子商務時代的信息管理與信息系統06-10
論秘書的信息工作論文04-23
信息時代如何提高教師的信息素養教育論文04-13
基于信息安全的企業經濟信息管理論文06-26
信息管理系統開題報告07-20
現代信息技術開題報告08-08
計算機信息論文12-13