- 相關(guān)推薦
多民族語(yǔ)言本體知識(shí)庫(kù)構(gòu)建技術(shù)文學(xué)論文
摘 要:語(yǔ)義本體是共享概念模型的顯示的形式化規(guī)范說(shuō)明,其目標(biāo)是將雜亂無(wú)章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R(shí)源。語(yǔ)義本體知識(shí)庫(kù)的構(gòu)建是文本自動(dòng)處理的一個(gè)重要環(huán)節(jié),跨語(yǔ)言信息檢索、信息抽取、自動(dòng)翻譯等領(lǐng)域中都有廣泛的應(yīng)用。該文旨在描述統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多民族語(yǔ)言本體知識(shí)庫(kù)的創(chuàng)建思路,以及包含的若干問(wèn)題,例如:多民族語(yǔ)言中共有概念的一般表示與各民族語(yǔ)言特有的事物表達(dá)方式的規(guī)律,基于詞匯語(yǔ)義的、包括漢語(yǔ)、英語(yǔ)及少數(shù)民族語(yǔ)言在內(nèi)的多民族語(yǔ)言語(yǔ)義本體的表示理論與方法等。
關(guān)鍵詞:知識(shí)庫(kù);語(yǔ)義本體;詞典擴(kuò)充;本體學(xué)習(xí)
1 前言
我國(guó)是一個(gè)統(tǒng)一的多民族國(guó)家,55個(gè)少數(shù)民族中的53個(gè)民族都有自己的語(yǔ)言文字。這些語(yǔ)言文字與本民族生存發(fā)展息息相關(guān)。2009年國(guó)務(wù)院發(fā)表《中國(guó)的民族政策與各民族共同繁榮發(fā)展》白皮書中指出:“為了使少數(shù)民族群眾共享信息化時(shí)代的成果,國(guó)家采取各種措施促進(jìn)少數(shù)民族語(yǔ)言文字規(guī)范化、標(biāo)準(zhǔn)化和信息處理工作的健康發(fā)展!北倔w(Ontology)[1]是對(duì)共享概念的正規(guī)、明確的表述。本體始于哲學(xué)概念,90年代初被引入人工智能后,作為一種能在語(yǔ)義和知識(shí)層面上描述信息系統(tǒng)的概念模型建模工具[2]。
基于語(yǔ)義的本體庫(kù)是實(shí)現(xiàn)跨語(yǔ)言信息檢索、信息抽取、自動(dòng)翻譯等智能信息處理應(yīng)用的重要基礎(chǔ),是智能文本信息處理的重要環(huán)節(jié)。為人們所熟知的本體庫(kù)中文《知網(wǎng)》HowNet[3],是一個(gè)較為完整的以語(yǔ)言知識(shí)為基礎(chǔ)的中文本體知識(shí)庫(kù)。目前,《知網(wǎng)》已成為許多自然語(yǔ)言智能處理系統(tǒng)的基礎(chǔ)資源。
本體構(gòu)建需要描述語(yǔ)言共性和個(gè)性信息。大量的語(yǔ)言研究說(shuō)明,不同語(yǔ)言除具有個(gè)性差異外,還有共性因素。語(yǔ)言共性研究認(rèn)為,語(yǔ)言間存在某種共同的普遍規(guī)律,稱為“普遍語(yǔ)法”。為蒙、藏、維、哈、朝等民族語(yǔ)言以及漢語(yǔ)、英語(yǔ)構(gòu)建統(tǒng)一標(biāo)準(zhǔn)的本體庫(kù),對(duì)于多民族語(yǔ)言智能信息處理應(yīng)用將起到積極地推動(dòng)作用。
目前,多民族語(yǔ)言,除漢語(yǔ)外,均缺乏或沒(méi)有本體知識(shí)庫(kù)建設(shè)。進(jìn)行統(tǒng)一標(biāo)準(zhǔn)和接口的多民族語(yǔ)言語(yǔ)義本體知識(shí)庫(kù)的創(chuàng)建,意義主要表現(xiàn)在:(1)從技術(shù)方面看,將促進(jìn)民族語(yǔ)言信息處理(Ethnic Language Processing)技術(shù)的發(fā)展,探索出一套把被充分研究的語(yǔ)言的處理技術(shù)轉(zhuǎn)移到被較少研究的語(yǔ)言上移植方案,使自然語(yǔ)言處理(NaturalLanguage Processing)技術(shù)的應(yīng)用更加廣泛。
(2)從科技發(fā)展方面看,本項(xiàng)目實(shí)施為多民族語(yǔ)言的智能信息處理應(yīng)用提供重要的基礎(chǔ)支撐。
(3)從社會(huì)價(jià)值方面看,通過(guò)多民族語(yǔ)言信息技術(shù)服務(wù)于多民族的信息溝通和交流,將增強(qiáng)民族地區(qū)網(wǎng)絡(luò)信息安全,有利于促進(jìn)民族團(tuán)結(jié)、構(gòu)建多民族和諧社會(huì)。
本文首先介紹了多民族語(yǔ)義本體庫(kù)的構(gòu)建思路,創(chuàng)建方法,詳細(xì)描述多民族語(yǔ)言知識(shí)本體庫(kù)包含內(nèi)容。介紹多民族語(yǔ)言共性知識(shí)庫(kù)中詞匯語(yǔ)義知識(shí)的表示和抽取,各民族語(yǔ)言特有語(yǔ)法知識(shí)的表示和抽取等技術(shù)。
2 相關(guān)工作
20世紀(jì)90年代初期,國(guó)際計(jì)算機(jī)界舉行了多次關(guān)于本體的專題研討會(huì),本體成為包括知識(shí)工程、自然語(yǔ)言處理和知識(shí)表示在內(nèi)的諸多人工智能研究團(tuán)體的熱門課題,其主要原因在于本體使人與人、人與機(jī)器、機(jī)器與機(jī)器之間的交流建立在共識(shí)知識(shí)的基礎(chǔ)上。目前中英文自然語(yǔ)言處理領(lǐng)域,已經(jīng)有很多語(yǔ)義本體的研究成果,其中最突出的是WordNet和HowNet。
英文本體WordNet[4]的詞匯包括名詞、動(dòng)詞、形容詞、副詞和功能詞。每個(gè)詞(更確切地說(shuō)是詞的一條意項(xiàng))是一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)。節(jié)點(diǎn)之間通過(guò)“同義關(guān)系”、“反義關(guān)系”、“上位關(guān)系”、“下位關(guān)系”、“部分—整體關(guān)系”、“形態(tài)關(guān)系”等聯(lián)系在一起。目前,Word-Net已經(jīng)分別建立了名詞、動(dòng)詞、形容詞和副詞的四個(gè)相互獨(dú)立的語(yǔ)義網(wǎng)絡(luò),包括約十萬(wàn)多個(gè)詞項(xiàng)。
中文本體HowNet[3]是揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù),從1996年研發(fā)至今,已有漢語(yǔ)詞項(xiàng)96 744條,多家科研單位研發(fā)基于HowNet知識(shí)表示的信息處理技術(shù)。但目前,查新還沒(méi)有查到民族語(yǔ)言信息處理研究中,關(guān)于語(yǔ)義本體表示層面的相關(guān)研究?jī)?nèi)容;谡Z(yǔ)義的本體知識(shí)庫(kù)在文本處理、信息抽取、基于文本的數(shù)據(jù)挖掘、自動(dòng)翻譯中都有廣泛的應(yīng)用,合適的本體知識(shí)庫(kù)將成為文本自動(dòng)處理中的一個(gè)重要環(huán)節(jié)。
總結(jié)多民族語(yǔ)言中共有概念的一般表示與各民族語(yǔ)言特有的事物表達(dá)方式的規(guī)律,發(fā)現(xiàn)各民族語(yǔ)言之間的異同;研究和實(shí)現(xiàn)基于詞匯語(yǔ)義的、包括漢語(yǔ)、英語(yǔ)、及多種少數(shù)民族語(yǔ)言在內(nèi)的多民族語(yǔ)言語(yǔ)義本體的表示理論與方法,構(gòu)建統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多語(yǔ)言語(yǔ)義概念本體知識(shí)庫(kù),將會(huì)為多民族語(yǔ)言的智能信息處理應(yīng)用提供重要的基礎(chǔ)支撐,加快民族語(yǔ)言信息處理的進(jìn)程。
3 多民族語(yǔ)言知識(shí)庫(kù)構(gòu)建
本文將多語(yǔ)言知識(shí)庫(kù)的建設(shè)作為研究的重點(diǎn),為多語(yǔ)言信息處理的關(guān)鍵技術(shù)和應(yīng)用研究提供更好的支持。為了實(shí)現(xiàn)上述目標(biāo),表達(dá)各民族語(yǔ)言的語(yǔ)義知識(shí)的多語(yǔ)言語(yǔ)義本體庫(kù)和各民族語(yǔ)言語(yǔ)法知識(shí)庫(kù)都是不可缺少的,擬構(gòu)建的多民族語(yǔ)言知識(shí)庫(kù)將這兩種知識(shí)庫(kù)融合在一起。
3.1 多民族語(yǔ)言本體知識(shí)庫(kù)
與通常單語(yǔ)本體知識(shí)庫(kù)不同,由于各民族語(yǔ)言間存在著一些共性的概念,如一個(gè)漢語(yǔ)詞與其在其他語(yǔ)言中的譯文對(duì)應(yīng)同樣的語(yǔ)義概念,同一概念在不同語(yǔ)言中具有相同的語(yǔ)法功能(比如動(dòng)詞同時(shí)需要施事者和受事者,或動(dòng)詞可接雙賓語(yǔ)),且其常見(jiàn)搭配詞可以在語(yǔ)義概念上一一對(duì)應(yīng)。因此,多語(yǔ)本體知識(shí)庫(kù)需要保存各民族語(yǔ)言在語(yǔ)法和語(yǔ)義上的一些共性信息,從而體現(xiàn)各語(yǔ)言的詞匯在語(yǔ)義概念上的對(duì)應(yīng)性,各語(yǔ)義概念在不同語(yǔ)言中語(yǔ)法行為的某種相似性,以及各語(yǔ)義概念之間的關(guān)聯(lián)。這些共性知識(shí)可用于解決翻譯和跨語(yǔ)言檢索中的詞義消歧,提供翻譯模板輔助調(diào)序和目標(biāo)語(yǔ)生成等問(wèn)題。表示語(yǔ)言共性知識(shí)的本體庫(kù)使用語(yǔ)義概念作為基本詞條(在本體庫(kù)中稱為元素)。
在這一過(guò)程中,有一個(gè)反復(fù)迭代、逐步求精的過(guò)程,而這種迭代體現(xiàn)在自動(dòng)建立HowNet語(yǔ)義本體知識(shí)庫(kù)需要用到一系列不同語(yǔ)言的分詞詞性標(biāo)注工具的自動(dòng)分析結(jié)果,而使用語(yǔ)義本體知識(shí)庫(kù)和語(yǔ)義相似度分析可以解決分詞詞性標(biāo)注過(guò)程中的一些歧義消歧現(xiàn)象,提高分詞詞性標(biāo)注的性能。
多語(yǔ)言語(yǔ)義本體知識(shí)庫(kù)構(gòu)建模型見(jiàn)圖1。
3.2 語(yǔ)言本體創(chuàng)建
本體結(jié)構(gòu)(Ontology Structure)是一個(gè)四元組O:={C,R,Hc,Rel };其中C(Concept)表示概念集合,R(Relation)表示關(guān)系集合;Hc表示概念層次,即概念間的分類關(guān)系(Taxonomy Relation);Rel表示概念間的非分類關(guān)系(Non-taxonomy Relation)。
本文以概念和概念的層次分類為基礎(chǔ),適當(dāng)增加概念之間的聯(lián)系與推理,作為多民族語(yǔ)言語(yǔ)義本體的體系結(jié)構(gòu)。本文借鑒《知網(wǎng)》的知識(shí)定義,結(jié)合在多民族語(yǔ)言信息處理當(dāng)中的應(yīng)用,確定本體庫(kù)的結(jié)構(gòu)。
主要包含以下內(nèi)容:
、倩緦傩詀)語(yǔ)義編碼 b)上下位元素 c)詞類信息②概念屬性a)義原 b)搭配概念③共性語(yǔ)法信息在設(shè)計(jì)該本體庫(kù)結(jié)構(gòu)中,充分考慮了擴(kuò)展性因素,并將信息處理需要用到的信息盡量并入該本體庫(kù)當(dāng)中,作為元信息以最大化地輔助其他信息處理過(guò)程。
、苷Z(yǔ)法知識(shí)庫(kù)
各民族語(yǔ)言也具有自己的特性知識(shí),充分利用這些信息對(duì)機(jī)器翻譯調(diào)序、目標(biāo)語(yǔ)言生成和跨語(yǔ)言信息檢索都有重要意義。這部分語(yǔ)言的特性知識(shí)一般表現(xiàn)在語(yǔ)法層面,因此本體知識(shí)庫(kù)需要另一個(gè)部分———各民族語(yǔ)言特有的語(yǔ)法知識(shí)庫(kù)作為補(bǔ)充。
蒙藏維語(yǔ)和漢語(yǔ)語(yǔ)法知識(shí)庫(kù)結(jié)構(gòu):詞法信息:詞類,變格,變?cè)刃畔?時(shí)態(tài)、人稱、數(shù)等信息;
句法信息:句式或次范疇化信息,主謂賓等信息。
⑤為了自動(dòng)建設(shè)包含上述多語(yǔ)言共性知識(shí)和各民族語(yǔ)言語(yǔ)法知識(shí)的知識(shí)庫(kù),本課題還需要完成兩個(gè)任務(wù):一是為知識(shí)庫(kù)的每種詞條設(shè)計(jì)屬性結(jié)構(gòu),使每種詞條的結(jié)構(gòu)能夠充分表達(dá)其對(duì)應(yīng)的知識(shí),并使其易于應(yīng)用;二是在獲得合理的知識(shí)庫(kù)結(jié)構(gòu)的基礎(chǔ)上,從語(yǔ)料庫(kù)中通過(guò)統(tǒng)計(jì)或規(guī)則的方法學(xué)習(xí)每一詞條的各種屬性的取值。
3.3 語(yǔ)義本體概念的詞典擴(kuò)充
語(yǔ)義本體的創(chuàng)建是耗時(shí)耗力的艱苦工作,需要語(yǔ)言學(xué)家、知識(shí)工程師和信息處理人員合作完成。
目前的語(yǔ)義本體的創(chuàng)建,有手工創(chuàng)建和自動(dòng)生成兩種策略。手工創(chuàng)建本體人工工作是主體,最多增加一些本體創(chuàng)建的輔助工具,以方便和加快概念和關(guān)系獲取的過(guò)程。完全手工創(chuàng)建的本體一般規(guī)模較小,無(wú)法應(yīng)付海量的知識(shí)源。自動(dòng)策略一般采用有監(jiān)督或無(wú)監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)從文本語(yǔ)料中自動(dòng)獲取概念和關(guān)系,人工干預(yù)程度較低。
為了自動(dòng)構(gòu)建描述多民族語(yǔ)言共同特點(diǎn)的本體知識(shí)庫(kù),我們首先需要一個(gè)具有較高準(zhǔn)確率和覆蓋率的雙語(yǔ)詞典。對(duì)于一個(gè)翻譯系統(tǒng),這樣的詞典也可以有效地提高翻譯的準(zhǔn)確性。然而,當(dāng)前的民族語(yǔ)言和漢語(yǔ)之間的雙語(yǔ)詞典還不能很好地覆蓋語(yǔ)料庫(kù)中的文本。其主要原因如下:首先,這些詞典是手工建立或只在一定規(guī)模語(yǔ)料之上建立起來(lái)的,這些語(yǔ)料并不能很好地覆蓋所有的領(lǐng)域,因此有些詞(比如領(lǐng)域?qū)I(yè)術(shù)語(yǔ))不會(huì)在詞典中出現(xiàn);而且當(dāng)某個(gè)詞具有一詞多義現(xiàn)象時(shí),具有領(lǐng)域偏置的詞典可能會(huì)漏掉一些解釋。第二,未登錄詞問(wèn)題,其中有很大一部分是專有名詞,如人名、地名、機(jī)構(gòu)名、時(shí)間日期等,這些專有名詞除了時(shí)間、日期可以通過(guò)規(guī)則進(jìn)行翻譯,其他詞語(yǔ)在翻譯中往往并無(wú)直接的規(guī)律可循。還有很多新詞需要收入詞典。
解決上述問(wèn)題的一個(gè)方法是在已有詞典和語(yǔ)料的基礎(chǔ)上,進(jìn)行詞典的自動(dòng)擴(kuò)充,包括根據(jù)上下文對(duì)齊關(guān)系擴(kuò)充新詞,以及采用特定方法識(shí)別術(shù)語(yǔ)和名實(shí)體并找到其對(duì)應(yīng)的翻譯等方法。目前,關(guān)于自動(dòng)詞典擴(kuò)充的研究還不完善,且多民族語(yǔ)言的現(xiàn)有數(shù)據(jù)缺乏對(duì)齊語(yǔ)料、部分語(yǔ)言數(shù)據(jù)量很小等特點(diǎn),現(xiàn)有的方法并不符合多民族語(yǔ)言信息處理的現(xiàn)狀。因此需要提出針對(duì)多民族語(yǔ)言詞語(yǔ)級(jí)信息處理的詞典擴(kuò)充方案。為了建立一個(gè)適用于翻譯的雙語(yǔ)詞典,我們需要對(duì)以下問(wèn)題進(jìn)行研究:①在現(xiàn)有詞典的基礎(chǔ)上,根據(jù)上下文的共現(xiàn)信息進(jìn)行逐步擴(kuò)充。在詞典擴(kuò)充的過(guò)程中,可能會(huì)出現(xiàn)三種情況,第一,對(duì)應(yīng)的雙語(yǔ)端詞語(yǔ)都是新詞;第二,雙語(yǔ)端詞都在詞典中出現(xiàn),但詞典中不包含兩者的對(duì)應(yīng)關(guān)系;第三,雙語(yǔ)端有一端在詞典中出現(xiàn),另一端是新詞,如一詞多義現(xiàn)象和一詞多譯現(xiàn)象。其中第一、二種情況需要根據(jù)雙語(yǔ)上下文共現(xiàn)一致性進(jìn)行詞典擴(kuò)充,第三種情況可以利用單語(yǔ)言端上下文共現(xiàn)一致性進(jìn)行同義詞的挖掘。
、诿麑(shí)體和術(shù)語(yǔ)的翻譯往往有一定規(guī)律可循,例如命名實(shí)體等在不同語(yǔ)言表示之間具有讀音的相似性。因此,我們需要研究如何利用讀音等信息從語(yǔ)料中識(shí)別出名實(shí)體和術(shù)語(yǔ)并找到不同語(yǔ)言間的對(duì)應(yīng)翻譯。如蒙古文詞是一個(gè)人名,用漢字標(biāo)音時(shí)蒙古文中間的音節(jié)(ro)在漢字中沒(méi)有,可用近似的漢字來(lái)標(biāo)注,有三種寫法:嘎日迪、嘎?tīng)柕、嘎儒?這三種標(biāo)注都算正確。
、墼~典會(huì)隨著新語(yǔ)料的加入而不斷增長(zhǎng),且新詞當(dāng)中名實(shí)體類型出現(xiàn)的頻率最高。詞典不斷增長(zhǎng)的問(wèn)題使得詞典擴(kuò)充不可能一次性被解決,因此為了解決以上問(wèn)題,我們將采用一種在線擴(kuò)充方法,在當(dāng)前詞典的基礎(chǔ)上,不斷地從新語(yǔ)料中抽取新的對(duì)應(yīng)關(guān)系加入到詞典中,實(shí)現(xiàn)詞典的不斷更新。
4 總結(jié)
語(yǔ)義本體是共享概念模型的顯示的形式化規(guī)范說(shuō)明,其目標(biāo)是將雜亂無(wú)章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R(shí)源。本文描述了建設(shè)統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多民族語(yǔ)言本體知識(shí)庫(kù)的思路,及需要研究的若干問(wèn)題,例如:多民族語(yǔ)言中共有概念的一般表示與各民族語(yǔ)言特有的事物表達(dá)方式的規(guī)律,基于詞匯語(yǔ)義的、包括漢語(yǔ)、英語(yǔ)、及多種少數(shù)民族語(yǔ)言在內(nèi)的多民族語(yǔ)言語(yǔ)義本體的表示理論與方法等。
語(yǔ)義本體知識(shí)庫(kù)的構(gòu)建是文本自動(dòng)處理的一個(gè)重要環(huán)節(jié),跨語(yǔ)言信息檢索、信息抽取、自動(dòng)翻譯等領(lǐng)域中都有廣泛的應(yīng)用,具有極大的研究?jī)r(jià)值。
【多民族語(yǔ)言本體知識(shí)庫(kù)構(gòu)建技術(shù)文學(xué)論文】相關(guān)文章:
當(dāng)代審美實(shí)踐與文學(xué)本體論的構(gòu)建10-16
當(dāng)代審美實(shí)踐與文學(xué)本體論的構(gòu)建詳細(xì)內(nèi)容05-08
基于本體的教學(xué)知識(shí)庫(kù)系統(tǒng)分析08-31
漢語(yǔ)言文學(xué)論文05-24
漢語(yǔ)言文學(xué)論文10-23