多民族語言本體知識(shí)庫構(gòu)建技術(shù)文學(xué)論文

時(shí)間：2024-10-07 17:37:47 語言文學(xué)畢業(yè)論文我要投稿

相關(guān)推薦

　　摘要:語義本體是共享概念模型的顯示的形式化規(guī)范說明,其目標(biāo)是將雜亂無章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R(shí)源。語義本體知識(shí)庫的構(gòu)建是文本自動(dòng)處理的一個(gè)重要環(huán)節(jié),跨語言信息檢索、信息抽取、自動(dòng)翻譯等領(lǐng)域中都有廣泛的應(yīng)用。該文旨在描述統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多民族語言本體知識(shí)庫的創(chuàng)建思路,以及包含的若干問題,例如:多民族語言中共有概念的一般表示與各民族語言特有的事物表達(dá)方式的規(guī)律,基于詞匯語義的、包括漢語、英語及少數(shù)民族語言在內(nèi)的多民族語言語義本體的表示理論與方法等。

多民族語言本體知識(shí)庫構(gòu)建技術(shù)文學(xué)論文

　　關(guān)鍵詞:知識(shí)庫;語義本體;詞典擴(kuò)充;本體學(xué)習(xí)

　　1 前言

　　我國是一個(gè)統(tǒng)一的多民族國家,55個(gè)少數(shù)民族中的53個(gè)民族都有自己的語言文字。這些語言文字與本民族生存發(fā)展息息相關(guān)。2009年國務(wù)院發(fā)表《中國的民族政策與各民族共同繁榮發(fā)展》白皮書中指出:“為了使少數(shù)民族群眾共享信息化時(shí)代的成果,國家采取各種措施促進(jìn)少數(shù)民族語言文字規(guī)范化、標(biāo)準(zhǔn)化和信息處理工作的健康發(fā)展。”本體(Ontology)[1]是對共享概念的正規(guī)、明確的表述。本體始于哲學(xué)概念,90年代初被引入人工智能后,作為一種能在語義和知識(shí)層面上描述信息系統(tǒng)的概念模型建模工具[2]。

　　基于語義的本體庫是實(shí)現(xiàn)跨語言信息檢索、信息抽取、自動(dòng)翻譯等智能信息處理應(yīng)用的重要基礎(chǔ),是智能文本信息處理的重要環(huán)節(jié)。為人們所熟知的本體庫中文《知網(wǎng)》HowNet[3],是一個(gè)較為完整的以語言知識(shí)為基礎(chǔ)的中文本體知識(shí)庫。目前,《知網(wǎng)》已成為許多自然語言智能處理系統(tǒng)的基礎(chǔ)資源。

　　本體構(gòu)建需要描述語言共性和個(gè)性信息。大量的語言研究說明,不同語言除具有個(gè)性差異外,還有共性因素。語言共性研究認(rèn)為,語言間存在某種共同的普遍規(guī)律,稱為“普遍語法”。為蒙、藏、維、哈、朝等民族語言以及漢語、英語構(gòu)建統(tǒng)一標(biāo)準(zhǔn)的本體庫,對于多民族語言智能信息處理應(yīng)用將起到積極地推動(dòng)作用。

　　目前,多民族語言,除漢語外,均缺乏或沒有本體知識(shí)庫建設(shè)。進(jìn)行統(tǒng)一標(biāo)準(zhǔn)和接口的多民族語言語義本體知識(shí)庫的創(chuàng)建,意義主要表現(xiàn)在:(1)從技術(shù)方面看,將促進(jìn)民族語言信息處理(Ethnic Language Processing)技術(shù)的發(fā)展,探索出一套把被充分研究的語言的處理技術(shù)轉(zhuǎn)移到被較少研究的語言上移植方案,使自然語言處理(NaturalLanguage Processing)技術(shù)的應(yīng)用更加廣泛。

　　(2)從科技發(fā)展方面看,本項(xiàng)目實(shí)施為多民族語言的智能信息處理應(yīng)用提供重要的基礎(chǔ)支撐。

　　(3)從社會(huì)價(jià)值方面看,通過多民族語言信息技術(shù)服務(wù)于多民族的信息溝通和交流,將增強(qiáng)民族地區(qū)網(wǎng)絡(luò)信息安全,有利于促進(jìn)民族團(tuán)結(jié)、構(gòu)建多民族和諧社會(huì)。

　　本文首先介紹了多民族語義本體庫的構(gòu)建思路,創(chuàng)建方法,詳細(xì)描述多民族語言知識(shí)本體庫包含內(nèi)容。介紹多民族語言共性知識(shí)庫中詞匯語義知識(shí)的表示和抽取,各民族語言特有語法知識(shí)的表示和抽取等技術(shù)。

　　2 相關(guān)工作

　　20世紀(jì)90年代初期,國際計(jì)算機(jī)界舉行了多次關(guān)于本體的專題研討會(huì),本體成為包括知識(shí)工程、自然語言處理和知識(shí)表示在內(nèi)的諸多人工智能研究團(tuán)體的熱門課題,其主要原因在于本體使人與人、人與機(jī)器、機(jī)器與機(jī)器之間的交流建立在共識(shí)知識(shí)的基礎(chǔ)上。目前中英文自然語言處理領(lǐng)域,已經(jīng)有很多語義本體的研究成果,其中最突出的是WordNet和HowNet。

　　英文本體WordNet[4]的詞匯包括名詞、動(dòng)詞、形容詞、副詞和功能詞。每個(gè)詞(更確切地說是詞的一條意項(xiàng))是一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)。節(jié)點(diǎn)之間通過“同義關(guān)系”、“反義關(guān)系”、“上位關(guān)系”、“下位關(guān)系”、“部分—整體關(guān)系”、“形態(tài)關(guān)系”等聯(lián)系在一起。目前,Word-Net已經(jīng)分別建立了名詞、動(dòng)詞、形容詞和副詞的四個(gè)相互獨(dú)立的語義網(wǎng)絡(luò),包括約十萬多個(gè)詞項(xiàng)。

　　中文本體HowNet[3]是揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫,從1996年研發(fā)至今,已有漢語詞項(xiàng)96 744條,多家科研單位研發(fā)基于HowNet知識(shí)表示的信息處理技術(shù)。但目前,查新還沒有查到民族語言信息處理研究中,關(guān)于語義本體表示層面的相關(guān)研究內(nèi)容。基于語義的本體知識(shí)庫在文本處理、信息抽取、基于文本的數(shù)據(jù)挖掘、自動(dòng)翻譯中都有廣泛的應(yīng)用,合適的本體知識(shí)庫將成為文本自動(dòng)處理中的一個(gè)重要環(huán)節(jié)。

　　總結(jié)多民族語言中共有概念的一般表示與各民族語言特有的事物表達(dá)方式的規(guī)律,發(fā)現(xiàn)各民族語言之間的異同;研究和實(shí)現(xiàn)基于詞匯語義的、包括漢語、英語、及多種少數(shù)民族語言在內(nèi)的多民族語言語義本體的表示理論與方法,構(gòu)建統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多語言語義概念本體知識(shí)庫,將會(huì)為多民族語言的智能信息處理應(yīng)用提供重要的基礎(chǔ)支撐,加快民族語言信息處理的進(jìn)程。

　　3 多民族語言知識(shí)庫構(gòu)建

　　本文將多語言知識(shí)庫的建設(shè)作為研究的重點(diǎn),為多語言信息處理的關(guān)鍵技術(shù)和應(yīng)用研究提供更好的支持。為了實(shí)現(xiàn)上述目標(biāo),表達(dá)各民族語言的語義知識(shí)的多語言語義本體庫和各民族語言語法知識(shí)庫都是不可缺少的,擬構(gòu)建的多民族語言知識(shí)庫將這兩種知識(shí)庫融合在一起。

　　3.1 多民族語言本體知識(shí)庫

　　與通常單語本體知識(shí)庫不同,由于各民族語言間存在著一些共性的概念,如一個(gè)漢語詞與其在其他語言中的譯文對應(yīng)同樣的語義概念,同一概念在不同語言中具有相同的語法功能(比如動(dòng)詞同時(shí)需要施事者和受事者,或動(dòng)詞可接雙賓語),且其常見搭配詞可以在語義概念上一一對應(yīng)。因此,多語本體知識(shí)庫需要保存各民族語言在語法和語義上的一些共性信息,從而體現(xiàn)各語言的詞匯在語義概念上的對應(yīng)性,各語義概念在不同語言中語法行為的某種相似性,以及各語義概念之間的關(guān)聯(lián)。這些共性知識(shí)可用于解決翻譯和跨語言檢索中的詞義消歧,提供翻譯模板輔助調(diào)序和目標(biāo)語生成等問題。表示語言共性知識(shí)的本體庫使用語義概念作為基本詞條(在本體庫中稱為元素)。

　　在這一過程中,有一個(gè)反復(fù)迭代、逐步求精的過程,而這種迭代體現(xiàn)在自動(dòng)建立HowNet語義本體知識(shí)庫需要用到一系列不同語言的分詞詞性標(biāo)注工具的自動(dòng)分析結(jié)果,而使用語義本體知識(shí)庫和語義相似度分析可以解決分詞詞性標(biāo)注過程中的一些歧義消歧現(xiàn)象,提高分詞詞性標(biāo)注的性能。

　　多語言語義本體知識(shí)庫構(gòu)建模型見圖1。

　　3.2 語言本體創(chuàng)建

　　本體結(jié)構(gòu)(Ontology Structure)是一個(gè)四元組O:={C,R,Hc,Rel };其中C(Concept)表示概念集合,R(Relation)表示關(guān)系集合;Hc表示概念層次,即概念間的分類關(guān)系(Taxonomy Relation);Rel表示概念間的非分類關(guān)系(Non-taxonomy Relation)。

　　本文以概念和概念的層次分類為基礎(chǔ),適當(dāng)增加概念之間的聯(lián)系與推理,作為多民族語言語義本體的體系結(jié)構(gòu)。本文借鑒《知網(wǎng)》的知識(shí)定義,結(jié)合在多民族語言信息處理當(dāng)中的應(yīng)用,確定本體庫的結(jié)構(gòu)。

　　主要包含以下內(nèi)容:

　　①基本屬性a)語義編碼 b)上下位元素 c)詞類信息②概念屬性a)義原 b)搭配概念③共性語法信息在設(shè)計(jì)該本體庫結(jié)構(gòu)中,充分考慮了擴(kuò)展性因素,并將信息處理需要用到的信息盡量并入該本體庫當(dāng)中,作為元信息以最大化地輔助其他信息處理過程。

　　④語法知識(shí)庫

　　各民族語言也具有自己的特性知識(shí),充分利用這些信息對機(jī)器翻譯調(diào)序、目標(biāo)語言生成和跨語言信息檢索都有重要意義。這部分語言的特性知識(shí)一般表現(xiàn)在語法層面,因此本體知識(shí)庫需要另一個(gè)部分———各民族語言特有的語法知識(shí)庫作為補(bǔ)充。

　　蒙藏維語和漢語語法知識(shí)庫結(jié)構(gòu):詞法信息:詞類,變格,變元等信息,時(shí)態(tài)、人稱、數(shù)等信息;

　　句法信息:句式或次范疇化信息,主謂賓等信息。

　　⑤為了自動(dòng)建設(shè)包含上述多語言共性知識(shí)和各民族語言語法知識(shí)的知識(shí)庫,本課題還需要完成兩個(gè)任務(wù):一是為知識(shí)庫的每種詞條設(shè)計(jì)屬性結(jié)構(gòu),使每種詞條的結(jié)構(gòu)能夠充分表達(dá)其對應(yīng)的知識(shí),并使其易于應(yīng)用;二是在獲得合理的知識(shí)庫結(jié)構(gòu)的基礎(chǔ)上,從語料庫中通過統(tǒng)計(jì)或規(guī)則的方法學(xué)習(xí)每一詞條的各種屬性的取值。

　　3.3 語義本體概念的詞典擴(kuò)充

　　語義本體的創(chuàng)建是耗時(shí)耗力的艱苦工作,需要語言學(xué)家、知識(shí)工程師和信息處理人員合作完成。

　　目前的語義本體的創(chuàng)建,有手工創(chuàng)建和自動(dòng)生成兩種策略。手工創(chuàng)建本體人工工作是主體,最多增加一些本體創(chuàng)建的輔助工具,以方便和加快概念和關(guān)系獲取的過程。完全手工創(chuàng)建的本體一般規(guī)模較小,無法應(yīng)付海量的知識(shí)源。自動(dòng)策略一般采用有監(jiān)督或無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)從文本語料中自動(dòng)獲取概念和關(guān)系,人工干預(yù)程度較低。

　　為了自動(dòng)構(gòu)建描述多民族語言共同特點(diǎn)的本體知識(shí)庫,我們首先需要一個(gè)具有較高準(zhǔn)確率和覆蓋率的雙語詞典。對于一個(gè)翻譯系統(tǒng),這樣的詞典也可以有效地提高翻譯的準(zhǔn)確性。然而,當(dāng)前的民族語言和漢語之間的雙語詞典還不能很好地覆蓋語料庫中的文本。其主要原因如下:首先,這些詞典是手工建立或只在一定規(guī)模語料之上建立起來的,這些語料并不能很好地覆蓋所有的領(lǐng)域,因此有些詞(比如領(lǐng)域?qū)I(yè)術(shù)語)不會(huì)在詞典中出現(xiàn);而且當(dāng)某個(gè)詞具有一詞多義現(xiàn)象時(shí),具有領(lǐng)域偏置的詞典可能會(huì)漏掉一些解釋。第二,未登錄詞問題,其中有很大一部分是專有名詞,如人名、地名、機(jī)構(gòu)名、時(shí)間日期等,這些專有名詞除了時(shí)間、日期可以通過規(guī)則進(jìn)行翻譯,其他詞語在翻譯中往往并無直接的規(guī)律可循。還有很多新詞需要收入詞典。

　　解決上述問題的一個(gè)方法是在已有詞典和語料的基礎(chǔ)上,進(jìn)行詞典的自動(dòng)擴(kuò)充,包括根據(jù)上下文對齊關(guān)系擴(kuò)充新詞,以及采用特定方法識(shí)別術(shù)語和名實(shí)體并找到其對應(yīng)的翻譯等方法。目前,關(guān)于自動(dòng)詞典擴(kuò)充的研究還不完善,且多民族語言的現(xiàn)有數(shù)據(jù)缺乏對齊語料、部分語言數(shù)據(jù)量很小等特點(diǎn),現(xiàn)有的方法并不符合多民族語言信息處理的現(xiàn)狀。因此需要提出針對多民族語言詞語級信息處理的詞典擴(kuò)充方案。為了建立一個(gè)適用于翻譯的雙語詞典,我們需要對以下問題進(jìn)行研究:①在現(xiàn)有詞典的基礎(chǔ)上,根據(jù)上下文的共現(xiàn)信息進(jìn)行逐步擴(kuò)充。在詞典擴(kuò)充的過程中,可能會(huì)出現(xiàn)三種情況,第一,對應(yīng)的雙語端詞語都是新詞;第二,雙語端詞都在詞典中出現(xiàn),但詞典中不包含兩者的對應(yīng)關(guān)系;第三,雙語端有一端在詞典中出現(xiàn),另一端是新詞,如一詞多義現(xiàn)象和一詞多譯現(xiàn)象。其中第一、二種情況需要根據(jù)雙語上下文共現(xiàn)一致性進(jìn)行詞典擴(kuò)充,第三種情況可以利用單語言端上下文共現(xiàn)一致性進(jìn)行同義詞的挖掘。

　　②命名實(shí)體和術(shù)語的翻譯往往有一定規(guī)律可循,例如命名實(shí)體等在不同語言表示之間具有讀音的相似性。因此,我們需要研究如何利用讀音等信息從語料中識(shí)別出名實(shí)體和術(shù)語并找到不同語言間的對應(yīng)翻譯。如蒙古文詞是一個(gè)人名,用漢字標(biāo)音時(shí)蒙古文中間的音節(jié)(ro)在漢字中沒有,可用近似的漢字來標(biāo)注,有三種寫法:嘎日迪、嘎爾迪、嘎儒迪,這三種標(biāo)注都算正確。

　　③詞典會(huì)隨著新語料的加入而不斷增長,且新詞當(dāng)中名實(shí)體類型出現(xiàn)的頻率最高。詞典不斷增長的問題使得詞典擴(kuò)充不可能一次性被解決,因此為了解決以上問題,我們將采用一種在線擴(kuò)充方法,在當(dāng)前詞典的基礎(chǔ)上,不斷地從新語料中抽取新的對應(yīng)關(guān)系加入到詞典中,實(shí)現(xiàn)詞典的不斷更新。

　　4 總結(jié)

　　語義本體是共享概念模型的顯示的形式化規(guī)范說明,其目標(biāo)是將雜亂無章的信息源轉(zhuǎn)變?yōu)橛行蛞子玫闹R(shí)源。本文描述了建設(shè)統(tǒng)一標(biāo)準(zhǔn)、統(tǒng)一接口的多民族語言本體知識(shí)庫的思路,及需要研究的若干問題,例如:多民族語言中共有概念的一般表示與各民族語言特有的事物表達(dá)方式的規(guī)律,基于詞匯語義的、包括漢語、英語、及多種少數(shù)民族語言在內(nèi)的多民族語言語義本體的表示理論與方法等。

　　語義本體知識(shí)庫的構(gòu)建是文本自動(dòng)處理的一個(gè)重要環(huán)節(jié),跨語言信息檢索、信息抽取、自動(dòng)翻譯等領(lǐng)域中都有廣泛的應(yīng)用,具有極大的研究價(jià)值。

【多民族語言本體知識(shí)庫構(gòu)建技術(shù)文學(xué)論文】相關(guān)文章：

當(dāng)代審美實(shí)踐與文學(xué)本體論的構(gòu)建10-16

當(dāng)代審美實(shí)踐與文學(xué)本體論的構(gòu)建詳細(xì)內(nèi)容05-08

基于本體的教學(xué)知識(shí)庫系統(tǒng)分析08-31

綠色建筑技術(shù)體系構(gòu)建論文10-28

漢語言文學(xué)論文05-24

漢語言文學(xué)論文10-23

語言文學(xué)畢業(yè)論文精選10-24

語言文學(xué)畢業(yè)論文07-06

電影語言與文學(xué)語言的比較研究論文08-17

構(gòu)建高職漢語言文學(xué)專業(yè)課程人才培養(yǎng)模式論文07-10