漢語分詞在中文軟件中的廣泛應用

時間：2024-06-29 22:18:54 計算機應用畢業論文我要投稿

相關推薦

漢語分詞在中文軟件中的廣泛應用

摘要
中文軟件需要具有對中文文本的輸入、顯示、編輯、輸出等基本功能，而且隨著計算機技術的發展，對于計算機的文本處理能力提出了更高的要求，諸如智能拼音語句輸入、手寫和語音自動識別輸入；文章的校對；簡體和繁體中文的自動轉換；信息檢索和信息摘錄；文本分類和自動文摘；語音合成；自然語言的理解和自動翻譯；自然語言接口等。而所有這些中文處理功能都要建立在對漢語文本的分詞處理這一基本功能之上。因而，漢語分詞是中文信息處理的基礎，在中文信息處理系統中具有廣泛的應用前景。一、為什么需要漢語分詞我們知道，漢語的中文信息處理就是要“用計算機對漢語的音、形、義進行處理。” [1]，我們還知道，“詞是最小的能夠獨立活動的有意義的語言成分。”[2] 然而，漢語文本中詞與詞之間卻沒有明確的分隔標記，而是連續的漢字串。顯而易見，自動識別詞邊界，將漢字串切分為正確的詞串的漢語分詞問題無疑是實現中文信息處理的各項任務的首要問題。以拼音輸入中的同音詞自動辨識為例，據我們統計，漢語單字同音現象是非常嚴重的。以6763個漢字為例，沒有同音字的漢字只有16個。其他漢字都有同音字。其中最多的有116個同音字。而漢語詞的同音現象則有很大的改善。以52505的詞表為例，其中35942個詞語沒有同音詞。因此，大多數同音字可以依靠詞來確定。例如：”yi”對應的同音字“以，一，易，已，意”, 分別可以在“以為，一定，容易，已經，意義”中來確定。對于詞語（包括單字詞）的同音現象，則需要運用詞語之間的合理搭配以及詞語在句子中的合法運用來確定。比如“一枝可愛的玫瑰花”，”Zhi”的同音字有：“只，之，直，支，枝．．．．．”等。但是這里“枝”是和“花”的合理搭配。也就是說”一枝可愛的玫瑰花”是合理的搭配。由此不難看出，分詞對于同音詞自動辨識的作用。而同音詞的自動辨識也是語音自動識別所要解決的重要問題。除了同音詞的自動辨識，漢語的多音字自動辨識仍然需要分詞的幫助。例如：“校、行、重、樂、率”等都是多音字。無論是拼音自動標注還是語音合成都需要識別出正確的拼音。而多音字的辨識可以利用詞以及句子中前后詞語境，即上下文來實現。如以上幾個多音字都可以在以下幾組詞中得以定音：學校（xiao）/ 校（jiao）對、行(hang)列/行(xing)進、重(zhong)量/重(chong)新、快樂(le)/音樂(yue)、率(shuai)領/效率(lv)。漢字的簡體/繁體轉換、信息檢索和信息摘錄、自然語言理解、文本分類、機器翻譯、文本校對等中文信息處理系統同樣都首先需要分詞作為其最基本的模塊。二、漢語分詞所面臨的關鍵問題及分詞算法漢語分詞是由計算機自動識別文本中的詞邊界的過程。從計算機處理過程上看，分詞系統的輸入是連續的字符串（C1C2C3……Cn），輸出是漢語的詞串（W1W2W3……Wm）, 這里，Wi　可以是單字詞也可以是多字詞。那么，在這個過程中，我們所要解決的關鍵問題是什么，我們又有什么樣的解決方案哪？

交集型歧義字段，據統計，這種歧義字段占全部歧義字段的８５％以上。［4］所以這也是分詞系統所要重點解決的問題。在字段ABC中，這里，A,B,C分別代表有一個或多個漢字組成的字串。A,AB,BC,C分別都是詞表中的詞，則稱該字段為交集型歧義字段。如：“中國/人”，“中/國人”兩種切分結果。組合型歧義在字段ABC中， A,B,AB 分別都是詞表中的詞，則稱該字段為交集型歧義字段。如：他/具有/非凡/的/才能/。/ 只有/他/才/能/舉起/這/個/重物/。/

基于詞表的分詞-最大匹配（MM）這是一種有著廣泛應用的機械分詞方法，該方法依據一個分詞詞表和一個基本的切分評估原則，即“長詞優先”原則，來進行分詞。這種評估原則雖然在大多數情況下是合理的，但也會引發一些切分錯誤。根據我們小規模測試的結果，其正確率為95.422%，速度為65,000字/分鐘。這種切分方法，需要最少的語言資源（僅需一個詞表，不需要任何詞法、句法、語義知識），程序實現簡單，開發周期短，是一個簡單實用的方法。基于統計的分詞這種方法首先切分出與詞表匹配的所有可能的詞，這種切分方法稱為“全切分”，運用統計語言模型和決策算法決定最優的切分結果。這種方法的優點是可以發現所有的切分歧義，但是解決歧義的方法很大程度上取決于統計語言模型的精度和決策算法。需要大量的標注語料，并且分詞速度也因搜索空間的增大而有所緩慢。根據我們小規模測試的結果，其正確率為96.252%。分詞速度為：40,000字/分鐘。基于規則和基于統計相結合這種方法首先運用最大匹配作為一種初步切分，再對切分的邊界處進行歧義探測，發現歧義。再運用統計和規則結合的方法來判別正確的切分，運用不同的規則解決人名、地名、機構名識別，運用詞法結構規則來生成復合詞和衍生詞。目前這種方法可以解決漢語中最常見的歧義類型：單字交集型歧義。并對人名、地名、機構名、后綴、動詞/形容詞重疊、衍生詞等詞法結構進行識別的處理，基本解決了分詞所面臨的最關鍵的問題。而且由于優秀的辭典結構和算法設計，分詞速度非常快。根據我們小規模測試的結果，其正確率為97.948%。分詞速度為：200,000字/分鐘。但是,目前這個分詞系統對于組合歧義的處理還沒有涉及。這一分詞系統我們稱之為：WB2000, 它作為Office2000中文版中的一個基本模塊被許多中文功能所運用。

三、漢語分詞系統WB2000以及在中文Office2000中的應用舉例這里，我們就WB2000在Office2000中文版中的具體應用實例進行簡單介紹，從這些具體的應用實例中，我們可以對中文分詞的廣泛應用有進一步深入的了解。

詞表的可擴充性，分詞用詞表可以支持批量追加適合于各種應用的詞匯。功能的可組合型，可以根據不同應用的需要，通過以上分詞功能的不同組合，來調整不同的“分詞單位”。接口的可共享型，分詞系統的統一接口設計，使得不同的應用可以共享同一分詞系統。