- 相關推薦
面向Ontology適應性的知識發現模型研究
【內容提要】文章從Ontology和文獻知識發現出發,在整理現有Ontology系統的基礎上,分析了其存在的問題,針對問題中關鍵的適應性問題,提出了分層的面向Ontology的知識發現模型。該模型將整個Ontology系統分成5個層次,以適應不停變化的世界需要。文章最后提出了與模型相關的尚未進行研究的問題。
【摘 要 題】信息化與網絡化建設
【關 鍵 詞】本體/知識發現/適應性/Ontology/模型
【正 文】
Gruber提出“Ontology是概念化的1個形式化的規格說明”。所謂概念化可以理解為1組概念(如實體、屬性、過程)及其定義和相互關系。[1]Borst在Gruber定義基礎上引入了共享概念,認為Ontology是被共享的概念化的1個形式化的規格說明。[2]
在目前的知識發現領域中,知識之間的語義關系得到了重視,很多研究人員都將語義網的概念引入到知識發現過程中。各領域的Ontology被開發,各專業的概念以及概念之間的關系被揭示出來,并且被投入到知識發現過程當中去,對知識發現過程起到了至關重要的作用,但也存在不適應變化等諸多問題。本文嘗試從目前生物信息學和商業領域知識發現系統入手,分析Ontology應用于這些系統時所存在的問題,并針對這些問題提出1個適應變化的基于Ontology的知識發現模型。
1 Ontology在知識發現領域中的應用
目前Ontology應用廣泛,本文僅從生物信息學和商業領域對基于Ontology的知識發現系統進行研究,并提出應用中存在的問題。
1.1 Padmini Srinivasan的基于文獻的知識發現方法
基于文獻的知識發現方法最早是由Swanson提出,其目標是通過挖掘文獻數據庫(如MEDLINE)發現概念和概念之間新的、潛在的、有意義的關系。[3]
Padmini Srinivasan在Swanson的基礎上將基于文獻的知識發現的算法進行了改進。[4]他們使用了超越簡單詞頻統計范圍的詞頻權重,并且采用了基于 UMLS語義過濾篩選機制,他們的研究算法還利用了文獻的元數據來代表文獻的主題。由于元數據是概念集合,所以可以利用元數據將非結構化的文本生成結構化的數據,對非結構化文本的復雜挖掘方法就簡化為對結構化文本的知識挖掘。
圖1 面向ontology適應性的知識發現模型
1.2 IBM MedTAKMI的知識發現
IBM開發的用于挖掘生物醫學知識的軟件Med TAKMI利用醫學Ontology對生物醫學文獻數據庫進行動態和交互式挖掘。[5]它使用自然語言處理技術抽取深層次的生物醫學概念,對生物醫學概念(基因、蛋白質、疾。┑某槿∈悄壳盎谖墨I的知識發現領域中研究活躍的領域之1,在MedTAKMI系統中實現知識挖掘功能的主要為信息抽取和實體/關系挖掘這兩個部分,其中實體抽取是對生物醫學文獻中基因、蛋白質、化學物質名稱的識別;關系抽取是抽取這些實體之間的關系。
1.3 GenesTrace基于整合Ontology的知識發現
GenesTrace系統充分利用了UMLS、Gene Ontology (GO)、Gene Ontology相關數據庫(GODB)所提供的知識資源,將UMLS中的疾病概念與GO相關數據庫 (GODB)中的基因產品相關聯起來,其中對UMLS和 Gene Ontology的整合是非常重要的1部分。[6]Genes Tace的知識發現主要是借助整合的Ontology,并根據概念之間的共性關系,挖掘出新的知識。
1.4 UNSPESC中的知識發現
Ding Ying利用UNSPSC(The United Nations Standard Products and Services Code)對非結構化的文本數據進行挖掘。[7]當然,在獲取商業知識的過程中,僅僅使用 UNSPSC是完全不夠的,必須根據不同的需求,重用UNSPSC開發、界定適合各自需求的詞表、屬性和關聯規則,構建面向應用的商業Ontology。
2 存在的主要問題
以上這些Ontology用不同的語言和系統開發,概念的定義缺乏統1性,概念的等級關系也存在著混亂性,例如在生物醫學領域中,UMLS的基因類目和Gene Ontology就存在著很大的不同。另外在競爭情報領域,有專門的進行網絡信息搜集的公司,信息被保存在專業的市場行情數據庫中,這些公司也為用戶提供各種知識挖掘的服務,為了有效地進行知識發現,他們也開發了適合競爭情報服務的Ontology來幫助確定不同公司之間的關系。目前在挖掘不同領域的知識的時候,出現了許多問題,主要表現在以下兩個方面:
(1)現有的Ontology的整合方法并不完善。在前面介紹的Ontology在知識發現中的應用中,可以看出研究人員已經開始了進行Ontology的整合,現有Ontology的整合方式主要是將其它的Ontology直接按照某種規則移植進到1個相對全面的Ontology中,如Gene Ontology與UMLS之間的整合。經過整合后的中間集合的Ontology在語法、句法和各種規則上是相容的,各個Ontology之間是保持相對獨立的,對這些不兼容的Ontology采用不同的語言、不同的句法、不同的表現方式。生物醫學在知識發現方面,是1個特殊的領域,由美國國家醫學圖書館開發的UMLS包含了幾10個專業的詞表,并建立了各種概念之間的映射關系,是1個比較全面的Ontology,在生物醫學領域已經被當作公認的Ontology,但是在其他領域,如商業領域同樣也包含了大量的面向不同應用的Ontology,對這些Ontology的整合成為商業知識挖掘領域亟待解決的問題。Chimaera在這方面提供了1些有效的解決方案。[8]。
(2)Ontology缺乏適應性。隨著科學技術的快速發展,在各個領域產生了大量的新概念,那么為了充分挖掘各個領域的新知識,必須及時掌握各個領域的新的概念。現有的大部分Ontology都沒有適應環境變化的要求對詞表和詞間的關系進行及時的更新。雖然UMLS現在已經出版了幾版,但是這種更新速度是無法滿足各領域知識發掘的需要,所以Ontology的動態更新是進行知識發現的必要條件。另外1方面也表現出了On tology缺乏穩定性,過于頻繁的變化也會影響Ontology在知識發現中的應用,從發展的角度衡量動態性和穩定性也是Ontology發展過程中急需重視的問題之1。
3 面向Ontology適應性的知識發現模型構建
為了適應“變化”的需要,需要用1個能隨時改變業務流程和Ontology實體內容的模型。本文嘗試就適應性問題提出1個分層解決方案。如圖1所示,該圖展示了1種面向Ontology適應性的知識發現模型。
在該模型中,最高層為知識發現表示層,該層將知識發現以1定的方式表示,該表示應為該模型系統可讀的。第2層為規則層或者知識發現過程層,在該層將知識發現的過程分解為各個活動,各個活動通過與Ontology實體層的互動來實現活動的功能,知識發現的完成依賴于全部活動的完成。針對不同的需求,通過重組活動,可以獲得不同的知識發現過程以適應不同的實際需要。
Ontology實體單獨成為1個層,該層通過接口與規則層和實現層實現訪問和調用。Ontology實體層可以實現對Ontology實體的即使插拔操作,只要按照規定好的接口描述Ontology實體,就可以將Ontology實體加入到以該模型為實現基礎的系統中,這樣可以方便地對Ontology實體進行增、刪、改操作,以適應Ontology不斷變化的實際情況。
實現層為Ontology實體和活動提供具體的實現支持,該層可以通過調用已存在的對象來簡化實現,可以用不同的實現方式來實現同1功能。表示與實現的分開,可以在實現細節需要改變時無需更動系統框架,在不影響系統運行的情況下實現改變。
對象層存放各個領域已開發的成熟對象、免費對象或自主開發的對象,該層主要對實現層進行對象調用的支持。
在以上分層知識發現模型中,適應變化是其1個最重要的特征,當知識發現過程、Ontology實體、實現或對象發生變化時,無需對整個系統進行更改,只需要在不影響整個系統的情況下對各個單獨的層進行相應的更改即可。該適應性也很好地體現了系統的可擴展性,新的需求可以很方便地增加到系統中。
4 總結
基于文獻的知識發現方法從20世紀80年代被Swanson提出之后,很多研究人員都投身到知識發現領域中,并對Swanson的知識發現方法進行了改進。但各個領域的基于Ontology的文獻知識發現系統也存在不少問題,文本僅嘗試對系統的適應性問題提出1個可能的解決模型,在該方案中,尚未對知識發現表示的方法、統1Ontology接口描述等問題進行研究,這些問題有待于進1步研究。
【參考文獻】
[1] Thomas R Gruber. Ontolingua: A Translation Approach to Potable Ontology Specification. Knowledge Acquisition, 1993,5(2): 199-200
[2] Bomt W N. Construction of Engineering Ontofogies for Knowledge Sharing and Reuse. PhD Thesis, Enschede: University of Twente, 1997
[3] Swanson D R. Fish oil, Raynaud's syndrome, and undiscovered public knowledge. Perspectives in Biology and Medline, 1986,30 (1):18
[4] Padmini Srinivasan. Text Mining: Generating Hypotheses From MEDLINE. JASIST, 2004, 55(5): 396-413
[5] N Uramoto. A Text-mining System for Knowledge Discovery from Biomedical Documents. IBM SYSTEMS JOURNAL, 2004,43 (3):516-533
[6] Anand Kumar, Barry Smith. The Unified Medical Language System and the Gene Ontology: Some Critical Reflections[OL]. [2006- 06-20]. http://Ontology.buffalo.edu/medo/UMLS-GO.pdf
[7] http://homepage. uibk. ac. at/~ c703205/download/01jis01final-revision. pdf[2006-06-20]
[8] http://www.ksl.stanford.edu/software/chimaera/[2006-06-25]
【面向Ontology適應性的知識發現模型研究】相關文章:
面向農業領域的敏捷知識管理系統研究08-04
基于供應鏈管理的知識轉移模型研究09-06
關于企業組織文化與知識治理模型整合的研究06-21
知識型員工的混合股式激勵模型研究10-08
教育培訓行業知識員工勝任力模型研究論文07-29
戰略整合模型研究10-13