Submitting your microbial genome sequence to the GenBank

如何提交基因體序列到GenBank是在基因體組裝完成後最常面臨的課題,數據該如何整理,格式該怎麼準備,若上傳過程中遇到錯誤訊息該如何解決? E2生技醫藥生物資訊核心設施呂平江教授團隊中的劉益忠博士在近期的8/10(成大場)和8/31(清大場)兩次生物資訊研討會中講解如何應用NCBI所提供的上傳方式,逐步將序列資料完整的上傳到NCBI,最後取得Accession number。

首先要註冊並登入NCBI,點選首頁的Submit,進入後選擇”Check the Status of Your Submissions”,可以看到My Submissions狀態,點選Start a new submission/ Genome進入上傳頁面,在進行序列上傳前, 建議先申請BioProject與BioSample的編號,
NCBI目前使用的Genomes submission portal上傳方式,提供了清楚的說明與步驟流程,你可以依照指示填寫相關資訊,流程如下圖標籤顯示,每個步驟在按Submit送出前都可以再次點選進入修改,
其中,在第7項Files for submission可選擇上傳FASTA或是ASN.1 (.sqn)格式的檔案,建議直接上傳FASTA,若是有GAP則需要加上Ns,至於ASN.1 (.sqn)格式的檔案的製作需要一些轉換的過程,我們在後續會有說明。送出後會收到NCBI回覆的信件與詢問相關資料,若一切順利的話,很快即可審核完成,收到Accession number。
取得Accession number後,即可投稿公告,一般都是簡短報告的形式,註明相關基本資訊,例如可投Genome Announcements (http://genomea.asm.org/)。
最後,我們針對ASN.1 (.sqn)格式的檔案製作做說明,可利用NCBI提供的小工具tbl2asn來完成, 基本需要準備下列3個檔案:

  1. Template file containing a text ASN.1 Submit-block object (suffix .sbt).
  2. Nucleotide sequence data in FASTA format (suffix .fsa).
  3. Feature Table (suffix .tbl).

其中在準備Feature Table的過程,我們是利用FASTA format file經由BASys (https://www.basys.ca/)轉換成Genbank file (.gbk),再利用Sanger的Artemis程式(http://www.sanger.ac.uk/science/tools/artemis)轉換成Feature table (.tbl) 。接著,將上面3個檔案與tbl2asn程式放在同一個資料夾,以windows的命令處理程式cmd.exe執行下列程式得到 .sqn檔案,即可大功告成。

(tbl2asn的參數設定可參考網頁: https://www.ncbi.nlm.nih.gov/genbank/tbl2asn2/)