最新消息


APBC 2015 Call for Papers
第十三屆亞太生物資訊國際研討會(Asia-Pacific Bioinformatics Conference,APBC 2015) 將於 2015/01/21-2015/01/23 於新竹交通大學舉行。大會自即日起至2014/7/30止徵求生物資訊相關領域之論文,歡迎踴躍投稿!研討會網站及投稿方式請見:http://apbc2015.mbc.nctu.edu.tw/




次世代基因體定序資料分析之序列組裝整合工具
CISA: Contig Integrator for Sequence Assembly of Bacterial Genomes


● 次世代基因體定序資料組裝

次世代基因體定序 (Next Generation Sequencing, NGS) 技術所產出的高通量之短序列,可加速全新 (de novo) 物種基因體序列之完成;目前已有許多序列組裝工具,但基因體組裝的結果卻不盡相同,E2 TBI(Taiwan Bioinformatics Institute)台灣生物資訊核心設施熊昭所長所帶領的團隊當中,由廖玉潔博士所發展的序列組裝整合工具"CISA: Contig Integrator for Sequence Assembly of Bacterial Genomes",目的在整合各種不同組裝工具所產出的序列,找出相互吻合的序列片段,同時排除歧異度過高的序列,最後提供一組整合後的基因體序列;經過嚴謹地驗證程序檢驗,本團隊所開發之工具確實能夠有效地整合並提升細菌基因體序列的完整性。


序列組裝整合工具CISA將依序進行四個步驟 (圖 1)
1. 找出並延伸代表基因片段組 (representative contig): 使用三組以上,由不同組裝工具,或相同組裝工具使用不同參數,所得到的連續基因片段組 (assemblies);依序選出當中最長的代表片段,並做可能的延伸。
2. 偵測出連續基因片段中可能組裝錯誤 (misassembled) 的序列,並將之移除
3. 將末端重疊30%以上的基因片段相互連接,此步驟重複執行直至無法再進行片段連接。
4. 進行末端連結時同時估計基因片段組中重複性序列 (repetitive regions) 的最大長度,再利用此長度為依據進行後續末端連結與否的判斷條件,此步驟重複執行直至無法再進行片段連接。

 

E2 TBI核心所開發之工具CISA,分別針對三種物種E. coli、S. aureus以及H. volcanni之次世代序列資料進行分析,整合序列組裝工具包括Abyss、Edena、SOAPdenovo,以及Velvet等所產出的結果,再與每個單一組裝工具所產出的連續基因片段組做比較,結果皆顯示出CISA不但能夠有效地提高基因體的完整度 (較高的N50以及較少的連續基因片段數),同時還能維持基因體組裝的正確度 (具有較多的完整編碼序列 intact coding sequence),此外,CISA藉由同時分析多組之連續基因片段組以產出整合的基因體序列 (圖2A) 的方式,與一次只能整合兩組基因體序列的工具,例如minimus2以疊代方式所產生之整合結果 (圖2B) 比較,顯示出使用CISA能夠確保提供完整之基因體序列。此項研究工作已發表於PLoS ONE期刊 (PLoS ONE 8(3): e60843)。
CISA 網址為: http://sb.nhri.org.tw/CISA/


圖 1:CISA使用三組以上的連續基因片段組進行四階段的序列組裝整合程序


圖2:針對藉由序列組裝工具Abyss、CLC、 Edena、 SOAPdenovo,以及Velvet所產出的五組連續基因片段組,分別利用 (A) CISA一次進行四階段的整合,以及 (B) 使用minimus2進行兩兩連續基因片段組整合的方式。

● 基因體組裝服務

目前已有多個物種使用CISA進行基因體序列組裝並發表於國際期刊, 包括Pseudomonas sp. Strain CMAA 1215, Rhodococcus erythropolis strain P27, Asaia sp. strain SF2.1, Bacillus thuringiensis strain BrMgv02-JM63。同時,E2 TBI核心也使用CISA搭配一系列相關的分析套件與流程(如圖3),協助疾管署組裝帶有NDM-1抗藥基因之克雷伯氏肺炎桿菌的基因體序列。由於帶有NDM-1的菌株具有多重抗藥的特性,因此對公共衛生安全造成很大的威脅,組裝出此菌株之基因體,將有助於開啟對此抗藥菌株的相關研究,結果發表於Genome Announc. 2013, 1(6): e01069-13。

為進一步提高細菌基因體組裝之完成度與正確率,目前已針對次世代與第三代兩種不同定序技術所產出之不同長度之序列資料,將兩種不同型態資料的優勢結合,填補單一技術可能造成的基因片段組之間的空隙以及定序錯誤之處,以期提高細菌基因體組裝(如圖4)。


圖3:CISA組裝基因體定序資料之客製化服務流程。


圖4:CISA 搭配PacBio流程,可進一步提高基因體組裝之完成度與正確率。