長足寄蠅生物信息綜合數(shù)據(jù)庫的搭建
分類分析是基于事先創(chuàng)建的分類模型,實現(xiàn)某個未知的數(shù)據(jù)項到數(shù)據(jù)庫中已知類的映射,下面是小編為大家搜集整理的一篇相關論文范文,歡迎閱讀借鑒。
引言
現(xiàn)今生物信息技術尤其是在昆蟲學領域,迫切需要將生物學基礎研究全過程的信息通過計算機技術和手段進行綜合存儲,同時將生物形態(tài)學與分子生物學數(shù)據(jù)結合起來,根據(jù)研究領域的特點和科研成果交流需要,實現(xiàn)信息交流與共享、多格式信息存儲、生物信息決策與KDD應用等方面信息.
1、設計背景
本文以"中國長足寄蠅亞科的系統(tǒng)分類研究"的需求為出發(fā)點,以全面合理的存儲寄蠅數(shù)據(jù)、提升現(xiàn)有寄蠅研究成果和數(shù)據(jù)共享性為目的,力求實現(xiàn)通過計算機手段對國內(nèi)外寄蠅研究的現(xiàn)有成果進行總結與分類,實現(xiàn)寄蠅信息的高效管理等而搭建長足寄蠅生物信息綜合數(shù)據(jù)庫.
相比較常見的單一數(shù)據(jù)庫模式,該系統(tǒng)的數(shù)據(jù)倉庫由關系數(shù)據(jù)庫和多維數(shù)據(jù)庫共同組建.數(shù)據(jù)展現(xiàn)平臺用Java基于MVC設計模式實現(xiàn),并將該平臺分為Web層、服務層和數(shù)據(jù)訪問層.訪問關系數(shù)據(jù)庫數(shù)據(jù)采用開源的Ibatis框架,將各種SQL語句存放在配置文件中進行統(tǒng)一維護通過JDBCDAO訪問關系數(shù)據(jù)庫;同時,對多維數(shù)據(jù)集訪問的腳本語言的也具備Java接口用最實用的'C語言.用C后對多維數(shù)據(jù)庫的訪問速度則明顯改進.
數(shù)據(jù)存儲方面,該系統(tǒng)兼容并濟,采用關系模式ROLAP和多維模式MOLAP相結合,即混合模式HOLAP.數(shù)據(jù)檢索方面,針對唯一索引、主鍵索引和聚集索引3種任取其一均不能滿足生物系統(tǒng)海量信息檢索的復雜性和高效行,在該系統(tǒng)中采取了唯一索引、主鍵索引及聚集索引相結合的方式.
2、數(shù)據(jù)存儲與檢索
系統(tǒng)模型是統(tǒng)一業(yè)務系統(tǒng)的核心,模型設計的好壞直接關系到系統(tǒng)建設的成敗.在建模時需要將寄蠅亞科研究的現(xiàn)有成果進行存儲,并對其進行全面總結、分類和分析.
2.1元數(shù)據(jù)設計
系統(tǒng)形態(tài)學、分子生物學、物種形態(tài)信息標準、分類研究歷史和生物綜合防治和科學考察全過程信息采集等信息按照生物信息化元數(shù)據(jù)標準建設.包括生物本體53類元數(shù)據(jù)信息,共515個元數(shù)據(jù)屬性.寄蠅科、亞科、族、屬、種的基本研究成果和分類檢索成果、物種基本信息和研究歷史.包括:模式標本,鑒定和訂正已知種、發(fā)現(xiàn)和記述新種、新紀錄種外部形態(tài)、繪制頭部與外生殖器結構特征圖;補充未記載雌性或雄性標本.
27種形態(tài)分類描述屬性、分子生物學研究的成果和實驗過程.包括:DNA、引物PCR反應圖片、測序線粒體COI和28SrRNA基因片斷成果與數(shù)據(jù)、同源分析比對和分子系統(tǒng)樹成果等.檢視標本采集過程信息、標本管理信息、保存和儲存狀態(tài)和標本分類研究信息和生物形態(tài)/生境信息.系統(tǒng)形態(tài)分類研究.包括:板圖、頭胸、腹尾器.其他信息包括寄蠅進化、生態(tài)利用和害蟲生物控制依據(jù)和解決對策、生境特征、科學考察信息、生物地理、自然地理情況(經(jīng)緯度、行政區(qū)位置、海拔、自然區(qū)劃、地貌、國內(nèi)/外分布)和研究程度和研究文獻等基礎生物本體信息.
2.2信息存儲類型
信息存儲類型有簡單文本屬性信息、板圖圖片、實驗圖片、科考圖片、系統(tǒng)發(fā)育樹研究成果信息對象、基因分子數(shù)據(jù)大對象格式、統(tǒng)計與熱點圖形、自定義、共享格式數(shù)據(jù)、各類格式研究與交流文檔對象等.
生物信息化數(shù)據(jù)庫建庫、元數(shù)據(jù)與采集標準建立.包括中國寄蠅科寄蠅信息數(shù)據(jù)庫元數(shù)據(jù)標準和生物信息數(shù)據(jù)采集工作標準與指導方法及野外科學考察研究描述信息.
2.3數(shù)據(jù)設計與挖掘
系統(tǒng)一共包括53個表,包括5種信息、族屬代碼、人員權限、公共代碼等相關表格.圖1所示是族屬E-R圖,該模型主要描述了物種的分族、分屬情況,以及其國內(nèi)外分布情況.
圖2所示是物種信息E-R圖,該模型以物種無主題,主要描述了和物種信息有關的地域、地貌、生物地理分布等有關信息.
3、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提示出隱藏的、未知的事物的特性或是規(guī)律,根據(jù)這些規(guī)律制定出合適的算法,然后根據(jù)算法進行數(shù)據(jù)的檢索.數(shù)據(jù)挖掘的功能主要是描述和預測2方面,包括概念描述、關聯(lián)、分類、聚類、演變分析等.以上功能也是現(xiàn)今應用于生物信息數(shù)據(jù)挖掘的幾個主要方面.本系統(tǒng)建設中主要應用聚類、分類和關聯(lián)分析算法.
3.1聚類分析
本系統(tǒng)使用聚類的目標是:通過聚類分析實現(xiàn)寄蠅分類,進而推斷出系統(tǒng)發(fā)育樹.根據(jù)實際情況和需求,因為寄蠅亞科各族屬種之間的進化關系本身就是模糊的,相較于劃分法、層次法等傳統(tǒng)聚類非此即彼的"硬劃分",模糊聚類的"軟劃分"顯然更適用寄蠅信息數(shù)據(jù)庫.系統(tǒng)聚類的實現(xiàn)決定采用基于模糊等價關系建立系統(tǒng)發(fā)育樹,從而實現(xiàn)對寄蠅實體族屬種等的分類,通過建立系統(tǒng)發(fā)育樹一目了然的展現(xiàn)分類效果.
1)動態(tài)聚類方法的流程(如圖3所示).通過對比發(fā)現(xiàn),系統(tǒng)聚類是一次形成分類結果,對分類方法的要求很高,相應的計算量也很大.理所當然的,該系統(tǒng)選用動態(tài)聚類方法.
2)模糊等價關系的采用.從數(shù)學上講,一個確切的分類通常是由一個明確的等價關系確定.類似的,一個模糊的分類,也可以利用一個模糊的等價關系實現(xiàn).
3)基于模糊等價關系的動態(tài)聚類的優(yōu)化.通過優(yōu)化、動態(tài)聚類過程、獲取樣本向量和構造模糊相似矩陣,建立模糊等價關系矩陣,最后對模糊等價關系矩陣執(zhí)行動態(tài)聚類的算法,得出最后分類,聚類過程結束.依據(jù)得出的分類,即可以推斷出系統(tǒng)發(fā)育樹.實踐證明,基于模糊等價關系的動態(tài)聚類建立的系統(tǒng)發(fā)育樹是值得信賴的.
3.2分類分析
分類分析是基于事先創(chuàng)建的分類模型,實現(xiàn)某個未知的數(shù)據(jù)項到數(shù)據(jù)庫中已知類的映射.顯然,人們不可能把每一個寄蠅實體的每一個屬性值都通過生物實驗來獲取.利用已知寄蠅實體的相關屬性值,通過分類挖掘,便可以對一個蠅類樣本的特定屬性值進行預測,從而解決實驗過程不能解決的問題,是本系統(tǒng)使用分類分析的主要目標.從預測準確率、速度、健壯性和可伸縮性等全方位衡量的話,沒有一種算法是完全優(yōu)秀的.
實際上,在本系統(tǒng)中用到的分類分析算法是微軟決策樹算法.該算法由SQLServer2008中的analysisservice組件提供.實踐證明,微軟決策樹算法對離散的和連續(xù)的屬性預測表現(xiàn)均出色.足以應付該系統(tǒng)中的分類挖掘問題.在此不做詳細介紹.
4、結語
本系統(tǒng)以國家自然科學基金"中國長足寄蠅亞科的系統(tǒng)分類研究"的需求為出發(fā)點,以對寄蠅生物研究過程中產(chǎn)生的海量數(shù)據(jù)處理為主要任務,通過計算機手段實現(xiàn)了寄蠅數(shù)據(jù)的生物信息化.
參考文獻:
[1]陸舟.Struts2技術內(nèi)幕:深入解析Struts架構設計與實現(xiàn)原理[M].北京:機械工業(yè)出版社,2012:80-256.
[2]李剛.輕量級JavaEE企業(yè)應用實戰(zhàn)Struts2+Spring3+Hibernate整合開發(fā)[M].北京:電子工業(yè)出版社,2011:30-236.
[3]甘文麗,劉為超.基于Struts2和Ajax的企業(yè)級Web應用開發(fā)[J].工礦自動化,2013(2):23-26.
[4]常革新,任永昌.Struts2框架校驗文件自動生成技術[J].計算機技術與發(fā)展,2013(1):305-321.
[5]薛峰,梁鋒,徐書勛,等.基于SpringMVC框架的Web研究與應用[J].合肥工業(yè)大學學報:自然科學版,2012,35(3):337-340.
[6]廖福保.擴展SpringMVC模塊的Web應用[J].實驗室研究與探索,2012(10):70-73.
[7]嚴厲,俞永強.ThespringpredictionbarrierinENSOhindcastexperimentsusingtheFGOALS-gmodel[J].中國海洋湖沼學報:英文版,2012(6):1093-1104.
[8]ZHANGChaolei,LIUYazheng,ZHOULeyu,etal.Secondaryhardening,austenitegraincoarseningandsurfacedecarburizationphenomenoninNb-bearingspringsteel[J].鋼鐵研究學報:英文版,2012(3):47-51.
[9]ZHANGChaolei,ZHOULeyu,LIUYazheng.HeredityintheMicrostructureandMechanicalPropertiesofHot-rolledSpringSteelWire60Si2MnAduringHeatTreatmentProcess[J].材料科學技術:英文版,2013(1):82-88.
[10]張春田,陳小琳.中國長足寄蠅亞科的系統(tǒng)分類研究[J].沈陽師范大學學報:自然科學版,2008,26(4):封二.
[11]徐海根.中國生物多樣性元數(shù)據(jù)庫的研究與開發(fā)[J].蘭州大學學報:自然科學版,1999,35(4):103-108.
[12]徐海根,包浩生.中國生物多樣性核心元數(shù)據(jù)標準的探討[J].中國環(huán)境科學,2000,20(2):106-110.
[13]吳善杰.關于模糊聚類分析方法的進一步思考[J].華北科技學院學報,2008,5(1):108-111.
[14]李剛成,劉贊波,曾慶光.一種基于模糊聚類的構造進化樹方法[J].計算機應用,2009,29(3):836-838.
[15]劉星毅.一種新的決策樹分裂屬性選擇方法[J].計算機技術與發(fā)展,2008,18(5):70-72.
【長足寄蠅生物信息綜合數(shù)據(jù)庫的搭建】相關文章: