- 相關(guān)推薦
基于時間序列理論方法的生物序列特征分析
論文簡介:生物信息學(xué)的主要研究對象是DNA、RNA和蛋白質(zhì)分子,因為這些生物大分子包含了遺傳及物種進化的所有信息,隨著DNA和蛋白質(zhì)被測序,如何從這些DNA和蛋白質(zhì)序列中獲得更多的生物信息是具有挑戰(zhàn)性的問題.隨著堿基和氨基酸在基因數(shù)據(jù)庫中的規(guī)模呈指數(shù)增長,利用新的理論方法去研究DNA和蛋白質(zhì)序列就變得越來越重要.許多生物學(xué)家、物理學(xué)家、數(shù)學(xué)家和計算機專家都被吸引到這個研究領(lǐng)域中來。 @@ 在介紹了生物信息學(xué)的研究背景之后,本文首先介紹了研究生物序列特性的時間序列理論方法,對本文要用到的短記憶ARMA模型和長記憶ARFIMA模型作了詳細的闡述,為研究DNA序列、蛋白質(zhì)序列特性做了理論上的準備工作。 @@ 混沌游走表示(Chaos Game Representation,簡記為CGR)是一種迭代映射技術(shù),它可以把序列中的每一個單元,如DNA序列中的核苷酸,蛋白質(zhì)序列中的氨基酸,映射到一個連續(xù)的坐標空間中去.我們基于CGR坐標提出了一種將DNA序列轉(zhuǎn)換成一個時間序列(CGR-游走序列)的方法,并引入長記憶ARFIMA(p,d,q)模型來分析,我們分析了十條DNA序列的CGR-游走序列,發(fā)現(xiàn)都能用長記憶ARFIMA(p,d,q)模型高度顯著地擬合.作為一個具有完善算法的經(jīng)典時間序列模型,ARFIMA模型能幫助我們挖掘DNA序列中未知的特性, @@ 因為合適的ARFIMA模型在模型選擇時成功率較低,且在參數(shù)估計中最大似然計算量較大,用短記憶模型去近似長記憶模型是研究者們感興趣的問題,我們考慮利用短記憶ARMA(1,1)過程去近似長記憶ARFIMA(p,d,q)過程,證明了這種適應(yīng)性方法的均方誤差準則,并引入DNA序列的十條CGR-游走序列用以分析,驗證了這種近似方法的有效性,為長記憶DNA序列找到了一個算法更為簡單的近似模型。 @@ 在此基礎(chǔ)上,我們還考慮利用ARMA(2,2)模型去逼近ARFIMA(O,d,O)模型,基于ARMA(2,2)模型和ARMA(1,1)模型有效性損失率的比較可知,ARMA(2,2)近似模型優(yōu)于ARMA(1,1)近似模型.為驗證此結(jié)論,還引入了服從ARFIMA(O,d O)模型的CGR-游走序列用以分析,比較了ARMA(1,1)和ARMA(2,2)這兩個模型近似ARFIMA(O,d,O)模型的有效性,根據(jù)殘差標準差的結(jié)果可得ARMA(2,2)近似模型優(yōu)于ARMA(1,1)近似模型, @@ 我們修改了Kalman濾波遞推公式,解決了長記憶ARFIMA模型的缺失數(shù)據(jù)問題,并利用DNA序列的CGR-游走序列驗證了此方法的有效性, @@ 基于已建立的DNA序列的CGR-游走模型,我們建立了一個類似的基于詳細HP模型的連接蛋白質(zhì)序列的CGR-游走模型,并引入長記憶ARFIMA(p,d,q)模型來分析,發(fā)現(xiàn)來自12條細菌全基因組的連接蛋白質(zhì)序列的CGR-游走序列能用長記憶ARFIMA(p,d,q)模型顯著地擬合。 @@關(guān)鍵詞:混沌游走表示(CGR)-游走模型;DNA序列;蛋白質(zhì)序列;短記憶ARMA模型;長記憶ARFIMA模型;均方誤差準則;最大似然估計:狀態(tài)空間模型
請繼續(xù)閱讀相關(guān)推薦:畢業(yè)論文 應(yīng)屆生求職
畢業(yè)論文范文查看下載 查看的論文開題報告 查閱參考論文提綱
查閱更多的畢業(yè)論文致謝 相關(guān)畢業(yè)論文格式 查閱更多論文答辯
【基于時間序列理論方法的生物序列特征分析】相關(guān)文章:
直接序列擴頻的分層級聯(lián)隨機共振接的問題和方式論文04-26
嚴格責任理論分析08-28
基于體育教學(xué)中教與學(xué)的互動分析06-10
分析基于現(xiàn)網(wǎng)的OTN技術(shù)應(yīng)用06-11
基于遺忘理論的英語移動學(xué)習(xí)模型探究的論文05-20
教育理論與教育實踐的關(guān)系分析04-28
淺談基于學(xué)習(xí)對象理論的教學(xué)資源庫研究的論文06-22