- 相關推薦
預測蛋白質二級結構的快速方法
蛋白質二級結構預測方法是首先預測蛋白質的結構類型,下面是小編搜集整理的預測蛋白質二級結構的快速方法的內容,歡迎閱讀參考。
預測蛋白質二級結構的快速方法 篇1
1、研究背景及意義
蛋白質二級結構的預測是生物、數學與計算機交叉領域的課題,進行二級結構預測對于理解蛋白質結構與功能的關系,以及分子設計、生物制藥等領域都有重要的現實。隨著人類基因組計劃的順利實施,已知氨基酸序列的蛋白質數量成級數增長,目前試驗手段主要依靠X射線晶體衍射與核磁共振方法測定蛋白質二級結構,但測定周期較長,導致已測定二級結構的蛋白質數量與已知氨基酸序列的蛋白質數量差距越來越大,要求有一種快速簡潔而適用性強的預測蛋白質二級結構的方法。而蛋白質的氨基酸排列順序決定了它的空間結構,空間結構體現了蛋白質的生理功能,那么就可以從已知序列和結構的蛋白質出發,挖掘出其中的關系,就可以預測出其他已知序列的蛋白質的二級結構。如果準確率達到要求則對于了解生命現象的本質,解釋疾病的發生機制,診斷、治療疾病、設計新藥、通過不同生物蛋白質結構研究生物進化、利用其他生物為人類服務等都有著非常重要的.意義。綜上,蛋白質結構的預測對于蛋白質的研究與應用領域具有很好的推動作用。
2、預測方法
二級結構預測一直都是學者喜歡研究的問題,研究時間長,目前預測二級結構預測的方法已經有很多,但是在準確率上都達不到所希望的要求,因此無數的人依然為此努力著。
(1)經驗參數法。
經驗參數法是一種基于單個氨基酸殘基統計的經驗預測方法。通過統計分析,獲得的每個殘基出現于特定二級結構構象的傾向性因子,進而利用這些傾向性因子預測蛋白質的二級結構。1970年由PeterY.Chou和GeraldD.Fasman提出Chou-Fasman方法是預測蛋白質二級結構的經驗方法。這種方法基于每個氨基酸在α螺旋的相對頻率,測試表,和通過X射線晶體學已知的蛋白質結構。從這些頻率、概率參數,可知道每個氨基酸在各個二級結構類型的外觀,而這些參數是用來預測某一氨基酸序列將形成一個螺旋,一個測試鏈,或一個又一個蛋白質的概率的。該方法在確定正確的二級結構準確性約50-60%,這明顯比現代機器學習技術的準確性要低。
(2)GOR方法。
GOR方法是一種基于信息論和貝葉斯統計學的方法,是統計算法中理論基礎最好的。GOR將蛋白質序列當作一連串的信息值來處理,基本原理是將蛋白質的一級結構和二級結構看成一個轉化過程的兩個相互聯系的信息;GOR方法不僅考慮被預測位置本身氨基酸殘基種類的影響,而且考慮相鄰殘基種類對該位置構象的影響。為了避免大量的實驗數據,GOR將信息函數分為多項式和的形式。
(3)Lim方法-立體化學方法。
氨基酸的理化性質對二級結構影響較大,在進行結構預測時考慮氨基酸殘基的物理化學性質。立體化學是從三維空間揭示分子的結構和性能。手性分子是立體化學中極其重要的部分之一。同分異構在有機化學中是極為普遍的現象。立體異構是指分子中的原子或基團在空間的排列不同步產生的異構現象。利用不同氨基酸家族的性質差異來進行二級預測。
(4)同源分析法。
同源分析法是將待預測的片段與數據庫中已知二級結構的片段進行相似性比較,利用打分矩陣計算出相似性得分,根據相似性得分以及數據庫中的構象態,構建出待預測片段的二級結構。該方法對數據庫中同源序列的存在非常敏感,若數據庫中有相似性大于30%的序列,則預測準確率可大大上升。
(5)BP神經網絡算法。
在生物信息學研究中,應用得最多的神經網絡模型是多層前饋網絡模型,這種模型使用最廣泛的算法是BP算法,即反向傳播算法。它屬于有導師學習的算法。這種模型也叫BP神經網絡。網絡通過對已有氨基酸編碼建立序列到結構,結構到結構的兩層網絡進行學習,預測的準確性上有極大的提高。
3、方法分析
蛋白質二級結構預測方法是首先預測蛋白質的結構類型,然后再預測二級結構。通過對各個方法的比較可以得到:
(1)與傳統經典方法相比,利用特征信息提取方法可涵蓋序列統計特征、氨基酸物理化學特征、氨基酸片段位置分布三方面的信息,此方法可以較為全面地反映出蛋白質序列中有代表性的特征信息。
(2)通過采用有效的特征挑選算法以及分類算法,既有效減少了信息的冗余,又提高了結構類預測模型的準確率。
綜上,本研究從信息學角度出發,系統地解決蛋白質信息提取、多特征信息組合及結構類預測等信息處理問題,有助于蛋白質的結構及功能研究,同時也對蛋白質序列分析、機器學習領域的發展有很大的幫助。
(3)目前普遍使用的,考慮多條序列的方法,運用長程信息和蛋白質序列的進化信息,準確度有了比較大的提高。
4、結語
由上述的各種方法可以看出有很多方面的因素會影響蛋白質二級結構的預測,如目前已知的蛋白質太少,大部分處于未知階段。
針對目前的蛋白質數據庫資源的貧乏性特點,如何選擇適當的預測方法和評估準則將決定蛋白質預測的準確率的高低。因此在選擇時應該多種方法綜合利用,不僅包括各種預測方法的綜合,而且也包括結構實驗結果、序列對比結果、蛋白質結構分類預測結果等信息的綜合。多個程序同時預測,綜合評判得到一致結果;序列比對與二級結構預測;雙重預測。對模型進行反復優化,以提高預測的準確率和實際價值。
參考文獻:
[1]閆平凡,張長水.人工神經網絡語模擬退火計算[M].北京:清華大學出版社,2000.
[2]沈世鎰,神經網絡系統理論及其應用[M].科學出版社,2000.
[3]唐媛李,春花,蛋白質二級結構的研究進展[J].現代生物醫學進展,2013.
[4]楊存榮,孫之榮,模式識別方法預測蛋白質二級結構的研究[N].清華大學學報(自然科學版),第32卷,第1期,1992.
[5]王勇獻,蛋白質二級結構預測的模型與方法研究[D].工學博士學位論文.
預測蛋白質二級結構的快速方法 篇2
摘要:
基于空間約束的蛋白質結構預測方法是一種以已知結構為模板預測蛋白質結構的方法。其中,它提取了模板結構中的同源約束,結合力場中的立體化學約束,作為優化初始結構的條件,從而對初始結構進行調整,最終得到模型。本文主要綜述了基于空間約束的蛋白質結構預測方法的原理,所涉及的空間約束,以及應用與軟件。
關鍵詞:
蛋白質結構預測;空間約束;同源模建
近些年來,基因組計劃為我們提供了大量的蛋白質序列。我們只有理解了新蛋白質的功能,基因組計劃才能真正實現它的意義。為了描述,理解和操控蛋白質的功能,就必須首先確定蛋白質的結構。然而,實驗方法測定蛋白質結構代價很高且費時費力。由于實驗方法確定蛋白質結構存在缺陷和不足,蛋白質結構確定的速度跟不上序列測定的速度,且差距在不斷擴大。因此,完全依靠實驗方法確定蛋白質結構已經不能滿足現實的需求[1]。上世紀70年代,人們發現蛋白質三級結構是由其一級序列決定的,這也就意味著可以從蛋白質序列中獲取蛋白質三級結構的信息。這一發現為計算機預測蛋白質結構提供了理論依據。經過了40余年的發展,計算機預測蛋白質結構的技術日趨成熟。其中,同源模建方法是一種以已知結構的蛋白質為模板預測目標蛋白質結構的方法。因為一級序列的相似性越高,兩個蛋白質的三級結構的相似性也越高。
同源模建方法是從模板序列和目標序列的比對開始的。合適的模板是同源模建得到好模型的基礎。同源模建方法一般分為四個步驟:序列比對,模建結構,結構優化和結構評估[2]。
不同的同源模建方法的區別主要體現在第二步模建目標模型上。最傳統的也是使用最廣泛的模建方法是剛體裝配法。此方法使用從已知結構中獲得的剛體結構信息組裝模型。基于這類同源模建方法的程序有COMPOSER。另一類方法就是片段匹配法。片段匹配法,又稱坐標重建法,是基于發現大部分的蛋白質結構片段都是聚類到大約100個結構分組中。搜索并確定其余原子坐標的方法一般是搜索所有已知結構或者是基于能量函數的構象搜索。第三類同源模建方法是基于空間約束的同源模建方法。由于這種基于約束的模建方法可以使用關于目標序列的各種不同的信息,所以它是所有同源模建方法中最有前途的[3]。
1.基于空間約束的同源模建方法
基于空間約束的同源模建方法通過目標序列與模板序列的比對結果,得到目標序列結構上的許多約束或者限制。這些約束通常是通過假設目標序列和模板序列上的相對應的距離和角度是相似的得到的?臻g約束除了這些同源約束還包括:立體化學約束。然后使用空間約束來優化模型的初始結構,使模型結構對這些空間約束的違背最小,從而得到最終的模型結構。模型的初始結構可以通過距離幾何法或真實空間優化法來實現。然后空間約束和力場數據項都被整合到一個客觀函數中去。最后,在笛卡爾坐標系中當客觀函數的函數值最小時,得到模型的最終結構;诳臻g約束的同源模建方法的優勢之一是不同來源的約束和限制都很容易被添加到同源約束中去。同樣,基于空間約束的同源模建方法的進一步的發展也是因為各種約束的加入,使得這種方法更加完善。當然,好的優化算法的選擇也是改善這種方法的途徑[4]。
1.1距離約束和距離幾何法 最早的基于約束的蛋白質結構預測方法使用的約束一般都是距離約束,這些距離約束數據都是來自實驗檢測結果。PerJ Kraulis等人[5]提出了一種使用核磁共振數據確定蛋白質結構的方法,其中使用了蛋白質原子間的距離數據。Hiroshi Wako等人[6]應用距離約束法預測了牛胰蛋白酶抑制劑的三級結構。其中,他們考慮了氨基酸殘基的親疏水性,并且設定了螺旋與延伸結構和片層結構中的平均距離,合并了特定的半胱氨酸殘基之間的二硫鍵的位置信息和五個特殊的殘基對之間的確切距離信息。他們定義了一個客觀函數,通過使用這一系列的距離約束數據,使客觀函數最小化,從而確定目標蛋白質的.最終結構。其中使用的距離約束數據都是通過對14個已知結構的蛋白質的距離數據的統計分析總結得到的。
距離約束數據方便使用分子內部坐標表示,分子內部坐標僅僅體現保守結構特征的相對位置,而忽略分子的位置和方向。其他模建研究表明使用距離坐標系統處理分子內部結構約束問題非常有用。因為歐幾里得變換群中的每一個幾何特征不變量都可以用距離來表示,所以距離坐標系統可以替代笛卡爾坐標。笛卡爾坐標可以通過程序重新恢復。Havel TF等人[7]結合使用核磁共振數據和距離幾何法確定了胰蛋白酶抑制劑的結構,并證明了使用該方法計算蛋白質的完整結構是可行的。使用距離幾何法解決同源模建問題,就是一個確定具有同源性的蛋白質中結構相似的原子的分子內距離的過程。Andras Aszodi等人[8]設計了一種基于距離幾何法的同源模建方法,這種方法能在相對較短的時間內得到大量的低分辨率的片段,它是通過一系列的嵌入折疊整個簡化的模型,也就是把結構投射到逐漸減小的維度的歐幾里德空間中去。
1.2空間約束和真實空間優化法 基于空間約束的同源模建方法逐漸被人們認可,越來越多的其他類型的約束信息被添加到方法中來。這也使得這種方法越來越完善。Andrej Sali等人[9]開發了一種整合了多種空間約束的同源模建方法,其中包含的空間約束有Cα原子之間的距離約束,NO原子之間的距離約束,立體化學約束,主鏈二面角約束以及側鏈二面角約束。這種方法的基本步驟是,首先,根據模板序列與目標序列的比對結果,從模板結構中提取相對應的同源約束,這些約束的展現形式都是概率密度函數,也就是每一個同源約束就產生一個概率密度函數;然后通過多目標函數法和共軛梯度算法來對得到的概率密度函數進行優化,得到最優解,即模型結構信息。
Cα原子之間的距離約束,也就是約束目標蛋白質中兩個不同氨基酸殘基的Cα原子之間的距離的概率密度函數。這個概率密度函數也就是一個高斯分布,其中高斯分布的平均值是模板結構中對應殘基的Cα原子之間的距離,標準差是通過已知結構中Cα原子之間的距離;兩個比對序列的部分同源性;已知結構中這段距離兩端的殘基的部分溶劑親和性;距離兩端的殘基離空位的平均距離四個參數根據相應的計算公式得到的。立體化學約束是根據標準力場數據對目標蛋白質中的原子位置的約束。其中涉及了原子距離,角度,二面角,所以立體化學約束函數也有很多種,比如高斯函數,余弦函數等等。構建這些約束函數所需要的參數也是來源于力場數據。蛋白質中主鏈骨架原子之間的鍵形成的二面角稱為主鏈二面角。根據組成二面角的原子類別的不同,可以將主鏈二面角分為三類。其中,由于二面角位置的特殊性,第三類主鏈二面角的變化比較單一。正是這樣,前兩類二面角的變化就成了討論主鏈二面角的關鍵。根據前兩類主鏈二面角的變化,主鏈構象分為A,B,P,G,L和E六個類別。并且,每個主鏈二面角構象類別中的二面角分布都是一個高斯分布,這樣每一個分布都可以用一個概率密度函數表示出來。在考慮目標序列中固定部位的主鏈構象的約束時,就使用六個類別的概率密度函數的一個加權和來表示。其中,每一個類別高斯函數的平均值,標準差和權重都是通過統計分析得到的。Andrej Sali等人[10]使用了一個含有1000個蛋白質的數據集,統計分析了不同殘基類型情況下的主鏈二面角的類別分布,得到了每一個主鏈構象類別的高斯函數的平均值,標準差和權重三個參數的數據。
1.3其他約束 同源模建方法得到的模型的可靠性很大程度上依賴于目標序列與模板序列的序列一致性。蛋白質超家族成員之間存在的結構差異不僅體現在空位區域上而且還體現在二級結構位置的移位。這就造成了同源模建方法的一個內在局限性。Saikat Chakrabarti等人[11]添加遠距離模板中的保守片段作為額外的空間約束,在一定程度上改善了基于空間約束的同源模建方法的這一問題。他們使用主流的結構化片段的數據庫SMoS,這個數據庫整個了許多高保守結構的殘基片段。他們利用了數據庫中的殘基片段的結構信息,將這些結構信息作為額外約束信息添加到同源模建方法中去。BooJALA V B Reddy等人[12]將二級結構信息和氨基酸長距離接觸圖添加到基于空間約束的蛋白質結構預測的方法中,改善了含有高比例螺旋或折疊結構的蛋白質的預測精度。
2.軟件與應用
MODELLER是一款同源模建軟件[13]。其中,使用的原理就是基于空間約束的蛋白質結構預測。簡而言之,軟件的輸入項是模板序列與目標序列的比對結果,模板序列的結構文件和腳本文件。然后,MODELLER就能自動計算出目標序列中所有非氫原子的坐標。MODELLER軟件中涉及到的空間約束包括:同源約束,立體化學約束,統計約束和其他額外添加的約束。軟件沒有界面交互系統,只能通過腳本進行使用。
MODWEB是一種自動同源模建的網上服務器[14]。它接收一條以上的FASTA序列,然后在PDB數據庫中搜索最可行的模板,并計算出提交的目標序列的模型。MODWEB使用的原理與MODELLER類似,只是在兩個步驟進行了改進。它使用的模板搜索方法是序列結構比對,搜索使用的模板也不止一個。對于單個提交序列,MODWEB是通過郵件的形式返回結果。如果提交的序列不止一條或者包含結構時,返回的結果將被作為一個單獨的數據集添加到蛋白質模型的相關數據集中。
3.展望
隨著越來越多的蛋白質序列的三級結構被測定,同源模建的使用范圍也不斷擴大。其中,基于空間約束的同源模建方法是在所有同源模建方法中表現最好的方法。目前,對基于空間約束的同源模建方法的研究也越來越深入。許多額外的實驗數據約束被添加到方法中來,比如,核磁共振數據,交聯試驗數據,熒光光譜實驗數據,微電子圖像重建實驗數據和定點突變實驗數據。實驗數據約束的添加使基于空間約束的同源模建方法的預測結果更加的合理。
總之,基于空間約束的同源模建方法具有能添加多種來源的數據約束的特點,是同源模建方法中與實驗數據聯系最深的方法,也意味著是最有潛力的方法。
參考文獻:
[1] Yang Z, Jeffrey S. The protein structure prediction problem could be solved using the current PDB library[J].Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(4):1029-1034.
[2] Bino, John, Andrej, Sali. Comparative protein structure modeling by iterative alignment, model building and model assessment[J].Nucleic Acids Research, 2003, 31(14):3982-3992.
[3] Martí-Renom M A, Stuart A C, Fiser A, et al. Comparative protein structure modeling of genes and genomes[J].Annual Review of Biophysics & Biomolecular Structure, 2000, 29(29):27-30.
[4] Sánchez R, 07ali A. Comparative protein structure modeling as an optimization problem[J]. Journal of Molecular Structure Theochem, 1997:489-496.
[5] Krauli P J, Jones T A. Determination of three-dimensional protein structures from nuclear magnetic resonance data using fragments of known structures[J]. Proteins Structure Function & Bioinformatics, 1987, 2(3):188-201.
[6] Wako H, Scheraga H A. Distance-constraint approach to protein folding. I. Statistical analysis of protein conformations in terms of distances between residues[J]. Journal of Protein Chemistry, 1982, 1(1):5-45.
[7] Havel T F, Wüthrich K. An evaluation of the combined use of nuclear magnetic resonance and distance geometry for the determination of protein conformations in solution[J]. Journal of Molecular Biology, 1985, 182(2):281-294.
[8] András Aszódi, Robin EJ Munro, William R Taylor. Distance geometry based comparative modelling[J]. Fold Des, 1997, 2(3):S3-S6.
[9] Andrej Sali, Blundell T L. Comparative protein modelling by satisfaction of spatial restraints[J]. Journal of Molecular Biology, 1993, 234(3):779-815.
[10] ?Ali, Andrej, Overington J P. Derivation of rules for comparative protein modeling from a database of protein structure alignments[J]. Protein Science A Publication of the Protein Society, 1994, 3(9):1582-1596.
[11] Chakrabarti S, John J, Sowdhamini R. Improvement of comparative modeling by the application of conserved motifs amongst distantly related proteins as additional restraints[J]. Journal of Molecular Modeling, 2004, 10(1):69-75.
[12] Reddy B V B, Kaznessis Y N. Use of secondary structural information and C α -C α distance restraints to model protein structures with MODELLER[J]. Journal of Biosciences, 2007, 32(1 Supplement):929-936.
[13] Eswar N, Eramian D, Webb B, et al. Protein Structure Modeling with MODELLER[M].Structural ProteomicsHumana Press, 2008:145-159.
[14] Eswar N. Tools for comparative protein structure modeling and analysis[J]. Nucleic Acids Research, 2003, 31(13):3375-3380.
【預測蛋白質二級結構的快速方法】相關文章:
課題開題報告基本結構及寫作方法05-25
蛋白質的理化性質08-15
自制快速干手器05-11
網購快速發展的隱憂05-14
學位論文的結構要件04-26
結構方面的毛病05-08
淺談德國的教育結構06-19
公路粉噴樁復合地基沉降預測淺論05-11
論文的結構和排版格式07-25