1. <tt id="5hhch"><source id="5hhch"></source></tt>
    1. <xmp id="5hhch"></xmp>

  2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

    <rp id="5hhch"></rp>
        <dfn id="5hhch"></dfn>

      1. 多民族語言本體知識庫構建技術文學論文

        時間:2024-10-07 17:37:47 語言文學畢業論文 我要投稿
        • 相關推薦

        多民族語言本體知識庫構建技術文學論文

          摘 要:語義本體是共享概念模型的顯示的形式化規范說明,其目標是將雜亂無章的信息源轉變為有序易用的知識源。語義本體知識庫的構建是文本自動處理的一個重要環節,跨語言信息檢索、信息抽取、自動翻譯等領域中都有廣泛的應用。該文旨在描述統一標準、統一接口的多民族語言本體知識庫的創建思路,以及包含的若干問題,例如:多民族語言中共有概念的一般表示與各民族語言特有的事物表達方式的規律,基于詞匯語義的、包括漢語、英語及少數民族語言在內的多民族語言語義本體的表示理論與方法等。

        多民族語言本體知識庫構建技術文學論文

          關鍵詞:知識庫;語義本體;詞典擴充;本體學習

          1 前言

          我國是一個統一的多民族國家,55個少數民族中的53個民族都有自己的語言文字。這些語言文字與本民族生存發展息息相關。2009年國務院發表《中國的民族政策與各民族共同繁榮發展》白皮書中指出:“為了使少數民族群眾共享信息化時代的成果,國家采取各種措施促進少數民族語言文字規范化、標準化和信息處理工作的健康發展!北倔w(Ontology)[1]是對共享概念的正規、明確的表述。本體始于哲學概念,90年代初被引入人工智能后,作為一種能在語義和知識層面上描述信息系統的概念模型建模工具[2]。

          基于語義的本體庫是實現跨語言信息檢索、信息抽取、自動翻譯等智能信息處理應用的重要基礎,是智能文本信息處理的重要環節。為人們所熟知的本體庫中文《知網》HowNet[3],是一個較為完整的以語言知識為基礎的中文本體知識庫。目前,《知網》已成為許多自然語言智能處理系統的基礎資源。

          本體構建需要描述語言共性和個性信息。大量的語言研究說明,不同語言除具有個性差異外,還有共性因素。語言共性研究認為,語言間存在某種共同的普遍規律,稱為“普遍語法”。為蒙、藏、維、哈、朝等民族語言以及漢語、英語構建統一標準的本體庫,對于多民族語言智能信息處理應用將起到積極地推動作用。

          目前,多民族語言,除漢語外,均缺乏或沒有本體知識庫建設。進行統一標準和接口的多民族語言語義本體知識庫的創建,意義主要表現在:(1)從技術方面看,將促進民族語言信息處理(Ethnic Language Processing)技術的發展,探索出一套把被充分研究的語言的處理技術轉移到被較少研究的語言上移植方案,使自然語言處理(NaturalLanguage Processing)技術的應用更加廣泛。

          (2)從科技發展方面看,本項目實施為多民族語言的智能信息處理應用提供重要的基礎支撐。

          (3)從社會價值方面看,通過多民族語言信息技術服務于多民族的信息溝通和交流,將增強民族地區網絡信息安全,有利于促進民族團結、構建多民族和諧社會。

          本文首先介紹了多民族語義本體庫的構建思路,創建方法,詳細描述多民族語言知識本體庫包含內容。介紹多民族語言共性知識庫中詞匯語義知識的表示和抽取,各民族語言特有語法知識的表示和抽取等技術。

          2 相關工作

          20世紀90年代初期,國際計算機界舉行了多次關于本體的專題研討會,本體成為包括知識工程、自然語言處理和知識表示在內的諸多人工智能研究團體的熱門課題,其主要原因在于本體使人與人、人與機器、機器與機器之間的交流建立在共識知識的基礎上。目前中英文自然語言處理領域,已經有很多語義本體的研究成果,其中最突出的是WordNet和HowNet。

          英文本體WordNet[4]的詞匯包括名詞、動詞、形容詞、副詞和功能詞。每個詞(更確切地說是詞的一條意項)是一個網絡節點。節點之間通過“同義關系”、“反義關系”、“上位關系”、“下位關系”、“部分—整體關系”、“形態關系”等聯系在一起。目前,Word-Net已經分別建立了名詞、動詞、形容詞和副詞的四個相互獨立的語義網絡,包括約十萬多個詞項。

          中文本體HowNet[3]是揭示概念與概念之間以及概念所具有屬性之間的關系為基本內容的常識知識庫,從1996年研發至今,已有漢語詞項96 744條,多家科研單位研發基于HowNet知識表示的信息處理技術。但目前,查新還沒有查到民族語言信息處理研究中,關于語義本體表示層面的相關研究內容;谡Z義的本體知識庫在文本處理、信息抽取、基于文本的數據挖掘、自動翻譯中都有廣泛的應用,合適的本體知識庫將成為文本自動處理中的一個重要環節。

          總結多民族語言中共有概念的一般表示與各民族語言特有的事物表達方式的規律,發現各民族語言之間的異同;研究和實現基于詞匯語義的、包括漢語、英語、及多種少數民族語言在內的多民族語言語義本體的表示理論與方法,構建統一標準、統一接口的多語言語義概念本體知識庫,將會為多民族語言的智能信息處理應用提供重要的基礎支撐,加快民族語言信息處理的進程。

          3 多民族語言知識庫構建

          本文將多語言知識庫的建設作為研究的重點,為多語言信息處理的關鍵技術和應用研究提供更好的支持。為了實現上述目標,表達各民族語言的語義知識的多語言語義本體庫和各民族語言語法知識庫都是不可缺少的,擬構建的多民族語言知識庫將這兩種知識庫融合在一起。

          3.1 多民族語言本體知識庫

          與通常單語本體知識庫不同,由于各民族語言間存在著一些共性的概念,如一個漢語詞與其在其他語言中的譯文對應同樣的語義概念,同一概念在不同語言中具有相同的語法功能(比如動詞同時需要施事者和受事者,或動詞可接雙賓語),且其常見搭配詞可以在語義概念上一一對應。因此,多語本體知識庫需要保存各民族語言在語法和語義上的一些共性信息,從而體現各語言的詞匯在語義概念上的對應性,各語義概念在不同語言中語法行為的某種相似性,以及各語義概念之間的關聯。這些共性知識可用于解決翻譯和跨語言檢索中的詞義消歧,提供翻譯模板輔助調序和目標語生成等問題。表示語言共性知識的本體庫使用語義概念作為基本詞條(在本體庫中稱為元素)。

          在這一過程中,有一個反復迭代、逐步求精的過程,而這種迭代體現在自動建立HowNet語義本體知識庫需要用到一系列不同語言的分詞詞性標注工具的自動分析結果,而使用語義本體知識庫和語義相似度分析可以解決分詞詞性標注過程中的一些歧義消歧現象,提高分詞詞性標注的性能。

          多語言語義本體知識庫構建模型見圖1。

          3.2 語言本體創建

          本體結構(Ontology Structure)是一個四元組O:={C,R,Hc,Rel };其中C(Concept)表示概念集合,R(Relation)表示關系集合;Hc表示概念層次,即概念間的分類關系(Taxonomy Relation);Rel表示概念間的非分類關系(Non-taxonomy Relation)。

          本文以概念和概念的層次分類為基礎,適當增加概念之間的聯系與推理,作為多民族語言語義本體的體系結構。本文借鑒《知網》的知識定義,結合在多民族語言信息處理當中的應用,確定本體庫的結構。

          主要包含以下內容:

         、倩緦傩詀)語義編碼 b)上下位元素 c)詞類信息②概念屬性a)義原 b)搭配概念③共性語法信息在設計該本體庫結構中,充分考慮了擴展性因素,并將信息處理需要用到的信息盡量并入該本體庫當中,作為元信息以最大化地輔助其他信息處理過程。

         、苷Z法知識庫

          各民族語言也具有自己的特性知識,充分利用這些信息對機器翻譯調序、目標語言生成和跨語言信息檢索都有重要意義。這部分語言的特性知識一般表現在語法層面,因此本體知識庫需要另一個部分———各民族語言特有的語法知識庫作為補充。

          蒙藏維語和漢語語法知識庫結構:詞法信息:詞類,變格,變元等信息,時態、人稱、數等信息;

          句法信息:句式或次范疇化信息,主謂賓等信息。

         、轂榱俗詣咏ㄔO包含上述多語言共性知識和各民族語言語法知識的知識庫,本課題還需要完成兩個任務:一是為知識庫的每種詞條設計屬性結構,使每種詞條的結構能夠充分表達其對應的知識,并使其易于應用;二是在獲得合理的知識庫結構的基礎上,從語料庫中通過統計或規則的方法學習每一詞條的各種屬性的取值。

          3.3 語義本體概念的詞典擴充

          語義本體的創建是耗時耗力的艱苦工作,需要語言學家、知識工程師和信息處理人員合作完成。

          目前的語義本體的創建,有手工創建和自動生成兩種策略。手工創建本體人工工作是主體,最多增加一些本體創建的輔助工具,以方便和加快概念和關系獲取的過程。完全手工創建的本體一般規模較小,無法應付海量的知識源。自動策略一般采用有監督或無監督的機器學習技術從文本語料中自動獲取概念和關系,人工干預程度較低。

          為了自動構建描述多民族語言共同特點的本體知識庫,我們首先需要一個具有較高準確率和覆蓋率的雙語詞典。對于一個翻譯系統,這樣的詞典也可以有效地提高翻譯的準確性。然而,當前的民族語言和漢語之間的雙語詞典還不能很好地覆蓋語料庫中的文本。其主要原因如下:首先,這些詞典是手工建立或只在一定規模語料之上建立起來的,這些語料并不能很好地覆蓋所有的領域,因此有些詞(比如領域專業術語)不會在詞典中出現;而且當某個詞具有一詞多義現象時,具有領域偏置的詞典可能會漏掉一些解釋。第二,未登錄詞問題,其中有很大一部分是專有名詞,如人名、地名、機構名、時間日期等,這些專有名詞除了時間、日期可以通過規則進行翻譯,其他詞語在翻譯中往往并無直接的規律可循。還有很多新詞需要收入詞典。

          解決上述問題的一個方法是在已有詞典和語料的基礎上,進行詞典的自動擴充,包括根據上下文對齊關系擴充新詞,以及采用特定方法識別術語和名實體并找到其對應的翻譯等方法。目前,關于自動詞典擴充的研究還不完善,且多民族語言的現有數據缺乏對齊語料、部分語言數據量很小等特點,現有的方法并不符合多民族語言信息處理的現狀。因此需要提出針對多民族語言詞語級信息處理的詞典擴充方案。為了建立一個適用于翻譯的雙語詞典,我們需要對以下問題進行研究:①在現有詞典的基礎上,根據上下文的共現信息進行逐步擴充。在詞典擴充的過程中,可能會出現三種情況,第一,對應的雙語端詞語都是新詞;第二,雙語端詞都在詞典中出現,但詞典中不包含兩者的對應關系;第三,雙語端有一端在詞典中出現,另一端是新詞,如一詞多義現象和一詞多譯現象。其中第一、二種情況需要根據雙語上下文共現一致性進行詞典擴充,第三種情況可以利用單語言端上下文共現一致性進行同義詞的挖掘。

         、诿麑嶓w和術語的翻譯往往有一定規律可循,例如命名實體等在不同語言表示之間具有讀音的相似性。因此,我們需要研究如何利用讀音等信息從語料中識別出名實體和術語并找到不同語言間的對應翻譯。如蒙古文詞是一個人名,用漢字標音時蒙古文中間的音節(ro)在漢字中沒有,可用近似的漢字來標注,有三種寫法:嘎日迪、嘎爾迪、嘎儒迪,這三種標注都算正確。

          ③詞典會隨著新語料的加入而不斷增長,且新詞當中名實體類型出現的頻率最高。詞典不斷增長的問題使得詞典擴充不可能一次性被解決,因此為了解決以上問題,我們將采用一種在線擴充方法,在當前詞典的基礎上,不斷地從新語料中抽取新的對應關系加入到詞典中,實現詞典的不斷更新。

          4 總結

          語義本體是共享概念模型的顯示的形式化規范說明,其目標是將雜亂無章的信息源轉變為有序易用的知識源。本文描述了建設統一標準、統一接口的多民族語言本體知識庫的思路,及需要研究的若干問題,例如:多民族語言中共有概念的一般表示與各民族語言特有的事物表達方式的規律,基于詞匯語義的、包括漢語、英語、及多種少數民族語言在內的多民族語言語義本體的表示理論與方法等。

          語義本體知識庫的構建是文本自動處理的一個重要環節,跨語言信息檢索、信息抽取、自動翻譯等領域中都有廣泛的應用,具有極大的研究價值。

        【多民族語言本體知識庫構建技術文學論文】相關文章:

        當代審美實踐與文學本體論的構建10-16

        當代審美實踐與文學本體論的構建詳細內容05-08

        基于本體的教學知識庫系統分析08-31

        綠色建筑技術體系構建論文10-28

        漢語言文學論文05-24

        漢語言文學論文10-23

        語言文學畢業論文精選10-24

        語言文學畢業論文07-06

        電影語言與文學語言的比較研究論文08-17

        構建高職漢語言文學專業課程人才培養模式論文07-10

        国产高潮无套免费视频_久久九九兔免费精品6_99精品热6080YY久久_国产91久久久久久无码

        1. <tt id="5hhch"><source id="5hhch"></source></tt>
          1. <xmp id="5hhch"></xmp>

        2. <xmp id="5hhch"><rt id="5hhch"></rt></xmp>

          <rp id="5hhch"></rp>
              <dfn id="5hhch"></dfn>