淺析現階段高通量測序中的拼接問題論文

時間：2022-04-28 00:46:19 其他類論文我要投稿

相關推薦

淺析現階段高通量測序中的拼接問題論文

　　摘要：近年來，隨著第二代測序技術的普及和第三代測序技術的逐步發展，高通量測序技術在實際研究中的應用越來越廣泛。高速率、高性價比是其主要優點。相對于傳統的桑格（Sanger）法測序來言，高通量測序得到的片段長度較為短小，故如何拼接得到完整的序列一直是炙手可熱的研究方向。本文總結了現階段高通量測序中拼接問題的研究結果，針對現在流行的各種算法進行了簡單介紹。

淺析現階段高通量測序中的拼接問題論文

　　關鍵詞：高通量測序；reads 拼接；contigs 組裝；OLC、De brujin 圖

　　一、測序技術的發展過程和現狀[1]

　　（一）桑格法

　　桑格法又叫做雙脫氧鏈終止法，由Sanger在1977年提出。通過加入帶有放射標記的dd NTP（雙脫氧核苷酸）使DNA合成終止。再通過電泳，并使用放射自顯影技術讀出堿基。此方法得到的片段較長，能達到1000bp左右。

　　（二）第二代測序技術

　　隨著科學技術的發展，傳統的桑格法已經不能滿足研究的需要。科學家們需要更快的速度、更高的通量以及更低廉的價格，于是第二代測序技術應運而生。其核心思想是邊合成邊測序。現在主要有454 GS FLX、SOLi D和Illumina/Solexa GenomeAnalyzer三個平臺。第二代測序是現階段測序技術的主流，也是高通量測序的開始。

　　（三）第三代測序技術

　　第三代測序技術是指單分子測序技術。不需要經過PCR的過程即可測序，速度可以達到每秒十個堿基。通量更大，讀長更短，是現階段測序技術的發展方向。

　　二、高通量測序中的拼接工作

　　（一）高通量測序所得片段的特點

　　高通量測序之后所得到的序列片段稱為reads（讀取），其主要特點兩點。一是長度短，一般在200bp以下，最長的454平臺能達到的長度也不過1000bp,因此需要進行大量的拼接才能得到整條DNA序列。二是有部分重疊，由于測序位置具有隨機性，故各reads總會有一定的重疊，這些重疊是拼接工作的關鍵。

　　（二）拼接過程

　　整個拼接過程分為兩步。第一步，考察reads的重復序列，并拼接成更長的片段，稱為contigs（重疊群），這一步稱為reads的拼接；第二步，確定contigs之間的順序關系，并按此排列，形成稱為scaffolds的序列，這一步叫做contigs的組裝。

　　三、Reads的拼接

　　（一）拼接過程的難點

　　reads拼接過程中要克服的難點主要有兩點，一是高通量測序得到的reads長度較短，故內含信息較少，不易確認相對順序。二是遠程連接信息（Long-range linking information）的不可靠性。 2這兩點制約著reads拼接過程的準確率。

　　（二）方法[3]

　　reads拼接過程中算法的基本要求是de novo（從頭測序），即不需要任何序列信息即可對原料進行測序。由此衍生出兩種主流的算法：

　　1.OLC

　　OLC,即交疊-排列-共有序列算法（Overlap-layout-consensus），是一個比較傳統的算法，其基本思想為根據reads間的重復部分，確定可能性的reads連接順序。

　　其步驟為：構建交疊圖：對每兩個reads進行比對，計算它們的重疊度---排列reads:將reads進行排列，確定它們之間的相對位置，建立overlap圖---生成共有序列：通過多序列比對等方法，確立最后的contig.

　　OLC算法的計算量主要體現在交疊圖的構建，而高通量測序得到的海量短序列有大量的交疊，往往需要大量的運算時間。故OLC算法并不適合現在高通量測序的發展趨勢。現在某些拼接軟件，如Shorty、CABOG等仍在使用基于此的算法。雖然這些軟件針對OLC算法有一定的改進和優化，但其拼接速度和準確性仍受到限制。

　　2.De brujin圖

　　基于De brujin圖（DBG）的算法是現在最流行的算法，許多常用的拼接軟件如Velvet、ABy SS等都在使用這種算法。其特點為把基因序列的拼接問題轉化為了數學上的圖論問題，大大提高了拼接效率。

　　（1）基本思想

　　reads中連續的k個堿基稱為k -mer,作為DBG的節點，兩個k-mer如果在同一read中相鄰，則形成一條邊。故每個read都會對一些邊加權，最后形成一個含有節點、有權值的邊的DBG,由此生成最佳的contig.

　　（2）步驟

　　篩選reads:對reads進行檢測，去除掉可能錯誤的reads---確定k值：k的值直接影響速度和精度。 K值較大時，精度有所提高，但更容易受覆蓋率的影響。故應該根據覆蓋率、reads長度等確定合適的k值---處理DBG:根據確定的k值，做出DBG,同時完成化簡和修正---根據DBG,拼接成contig.

　　（3）優缺點

　　DBG算法在處理海量短reads的時候效果優秀，與現在測序技術的發展趨勢相匹配。然而，由于k-mer的長度較短，此方法受重復序列、測序錯誤的影響較大。

　　（三）不同拼接軟件的效果差異

　　不同的拼接軟件在reads拼接過程中表現為三點：一是比起軟件來說，reads質量對拼接結果影響更大；二是與標準序列的接近度隨reads和拼接軟件的不同有很大改變；三是各軟件拼接的正確率差別很大，但與接近度的結果不一致。

　　四、Contigs的組裝

　　與reads的拼接相比，contigs的組裝的難度相對較小。這是因為contigs的長度較reads長很多，所含信息較多。故可以較為準確的組裝成scaffold

　　（一）組裝過程的難點[4]

　　Contigs組裝過程中的難點主要有二。一是contigs中含有大量的重復序列，不易確定contigs之間的相對順序；二是由于contigs由reads拼接而成，其中不免會有一些錯誤，這些錯誤也會對contigs的組裝產生干擾。

　　（二）方法

　　Contigs組裝的方法較reads拼接而言較多，一般常用的有圖論法和光學圖譜法（Optical mapping）兩種。

　　1.圖論法[5]

　　圖論法是比較傳統的方法，與reads拼接有相似的地方。它以contigs作為節點，由相連的讀取對（Linking reads pair）作為邊，由此形成算圖。

　　其一般步驟為：庫的構建：構建出含有所有reads的庫---計算相連讀取對之間的距離，并由此計算gap的長度---把長度放在邊上，作為算圖的數據。

　　其理想的輸出結果是一條scaffold序列，對應一條染色體，包含以正確順序排列的contigs和contigs之間gap的長度。

　　2.光學圖譜法[6]

　　光學圖譜法是一種較為新穎的方法。通過內切酶將DNA切斷，此時DNA的片段的譜表現出一種特殊的指紋或是識別碼的性質。利用光學方法追蹤此信息得到相對位置，由此組裝成正確的scaffold.

　　主要步驟為：將contigs放置在光學圖譜上---修正光學圖譜---做出contigs的連接圖，由此決定最佳的contigs連接順序。

　　光學圖譜法的組裝結果有著很高的覆蓋率，巧妙運用光學圖譜法可以獲得很高的成本效益。

　　有研究表明，當與454平臺獲得的實驗結果相結合的時候，光學圖譜法可以迅速、價廉的得到排列好的定向的contigs組，由此可以產生一個將近完整的基因組。

　　（三）發展方向

　　Contigs組裝過程的關鍵點在于如何得到正確的連接順序。現階段此方面研究多集中在這一方向。

　　五、前景與展望

　　隨著生物學研究向微觀、向基因領域逐步延伸，高通量測序作為獲得基因序列的主要方法，越來越受到重視，拼接技術也在不斷發展。高通量測序的基因片段會變得海量且短小，應對此變化，拼接技術也會由確定“唯一的基因序列”向確定“最可能的基因序列”完成轉變。因此，新一代的拼接技術會在準確率、覆蓋率和速度上，作出超于現在拼接技術的改進。

　　參考文獻：

　　[1]Anderson MW, Schrijver I. Next Generation DNASequencing and the Future of Genomic Medicine.?Genes.2010;1（1）：38-69. doi:10.3390/genes1010038.

　　[2]Salzberg SL, Phillippy AM, Zimin A, et al. GAGE: Acritical evaluation of genome assemblies and assemblyalgorithms.Genome Research. 2012;22 （3）：557 -567. doi:10.1101/gr.131383.111.

　　[3]Deng X, Naccache SN, Ng T, et al. An ensemble strategythat significantly improves de novo assembly of microbialgenomes from metagenomic next -generation sequencingdata.Nucleic Acids Research. 2015;43 （7）：e46. doi:10.1093/nar/gkv002.

　　[4]Latreille P, Norton S, Goldman BS, et al. Opticalmapping as a routine tool for bacterial genome sequencefinishing.BMC Genomics. 2007;8:321. doi:10.1186/1471 -2164-8-321.

　　[5]Hunt M, Newbold C, Berriman M, Otto TD. Acomprehensive evaluation of assembly scaffolding tools.Genome Biology. 2014;15 （3）：R42. doi:10.1186/gb -2014 -15-3-r42.

　　[6]Nagarajan N, Read TD, Pop M. Scaffolding andvalidation of bacterial genome assemblies using opticalrestriction maps.Bioinformatics. 2008;24 （10）：1229 -1235.doi:10.1093/bioinformatics/btn102.

【淺析現階段高通量測序中的拼接問題論文】相關文章：

公路工程審計過程中問題淺析論文04-24

淺析體育社會問題的理論研究論文04-24

電力工程審計問題與解決對策淺析論文04-21

淺析郭沫若《女神》中的積極浪漫主義論文04-01

淺析現代教育資源在體育教學中的應用論文01-15

淺析營銷稽查在電力營銷管理中的運用論文04-01

淺析農業推廣的信息化問題及應對策略論文03-06

淺析數學語言在教學中的作用論文（通用12篇）12-19

畢業論文答辯中的常見問題04-27

項目成本管理中存在的問題及對策論文03-24