基于時間序列理論方法的生物序列特征分析

時間：2024-10-27 09:21:53 論文提綱我要投稿

基于時間序列理論方法的生物序列特征分析

論文簡介：生物信息學的主要研究對象是DNA、RNA和蛋白質分子，因為這些生物大分子包含了遺傳及物種進化的所有信息，隨著DNA和蛋白質被測序，如何從這些DNA和蛋白質序列中獲得更多的生物信息是具有挑戰性的問題.隨著堿基和氨基酸在基因數據庫中的規模呈指數增長，利用新的理論方法去研究DNA和蛋白質序列就變得越來越重要.許多生物學家、物理學家、數學家和計算機專家都被吸引到這個研究領域中來。 @@ 在介紹了生物信息學的研究背景之后，本文首先介紹了研究生物序列特性的時間序列理論方法，對本文要用到的短記憶ARMA模型和長記憶ARFIMA模型作了詳細的闡述，為研究DNA序列、蛋白質序列特性做了理論上的準備工作。 @@ 混沌游走表示(Chaos Game Representation，簡記為CGR)是一種迭代映射技術，它可以把序列中的每一個單元，如DNA序列中的核苷酸，蛋白質序列中的氨基酸，映射到一個連續的坐標空間中去.我們基于CGR坐標提出了一種將DNA序列轉換成一個時間序列(CGR-游走序列)的方法，并引入長記憶ARFIMA(p，d，q)模型來分析，我們分析了十條DNA序列的CGR-游走序列，發現都能用長記憶ARFIMA(p，d，q)模型高度顯著地擬合.作為一個具有完善算法的經典時間序列模型，ARFIMA模型能幫助我們挖掘DNA序列中未知的特性， @@ 因為合適的ARFIMA模型在模型選擇時成功率較低，且在參數估計中最大似然計算量較大，用短記憶模型去近似長記憶模型是研究者們感興趣的問題，我們考慮利用短記憶ARMA(1，1)過程去近似長記憶ARFIMA(p，d，q)過程，證明了這種適應性方法的均方誤差準則，并引入DNA序列的十條CGR-游走序列用以分析，驗證了這種近似方法的有效性，為長記憶DNA序列找到了一個算法更為簡單的近似模型。 @@ 在此基礎上，我們還考慮利用ARMA(2，2)模型去逼近ARFIMA(O，d，O)模型，基于ARMA(2，2)模型和ARMA(1，1)模型有效性損失率的比較可知，ARMA(2，2)近似模型優于ARMA(1，1)近似模型.為驗證此結論，還引入了服從ARFIMA(O，d O)模型的CGR-游走序列用以分析，比較了ARMA(1，1)和ARMA(2，2)這兩個模型近似ARFIMA(O，d，O)模型的有效性，根據殘差標準差的結果可得ARMA(2，2)近似模型優于ARMA(1，1)近似模型， @@ 我們修改了Kalman濾波遞推公式，解決了長記憶ARFIMA模型的缺失數據問題，并利用DNA序列的CGR-游走序列驗證了此方法的有效性， @@ 基于已建立的DNA序列的CGR-游走模型，我們建立了一個類似的基于詳細HP模型的連接蛋白質序列的CGR-游走模型，并引入長記憶ARFIMA(p，d，q)模型來分析，發現來自12條細菌全基因組的連接蛋白質序列的CGR-游走序列能用長記憶ARFIMA(p，d，q)模型顯著地擬合。 @@關鍵詞：混沌游走表示(CGR)-游走模型；DNA序列；蛋白質序列；短記憶ARMA模型；長記憶ARFIMA模型；均方誤差準則；最大似然估計：狀態空間模型

基于時間序列理論方法的生物序列特征分析

請繼續閱讀相關推薦：畢業論文應屆生求職

畢業論文范文查看下載查看的論文開題報告查閱參考論文提綱

查閱更多的畢業論文致謝相關畢業論文格式查閱更多論文答辯

【基于時間序列理論方法的生物序列特征分析】相關文章：

SAS統計軟件在《時間序列分析》課程中輔助教論文03-08

時間序列數據挖掘研究論文提綱03-27

SAS統計軟件在《時間序列分析》課程中輔助教學的探討11-25

蛋白質序列的并行分類方法研究論文提綱11-20

基于Copula理論的股市風險分析提綱12-02

基于鏈接結構理論的句群結構類型的分析11-28

淺論新媒體視覺傳達的特征理論分析12-06

基于模糊灰色理論紡織廠火災風險分析12-06

基于激勵理論模式下的ERP團隊激勵方法探討11-25

相關推薦