E2
Taiwan Bioinformatics Institute

  GCG常問問題 -> MSF
List File 和 MSF File 的 用 法

List File
 

list file 通 常 是 指 Blast, Fasta, StingSearch, LookUP 等 序 列 搜 程 式 執 行 完 畢 後 所 得 的 結 果 的 檔 案 類 型 , 在 這 類 檔 案 中 會 含 有 多 條 序 列 的 檔 名 , 但 不 含 序 列 本 身 。

例 如 Blast 的 output 檔 案 test.blastn 其 中 藍 色 的 部 分 就 是 真 正 的 List file 的 部 分 , 其 餘 則 為 註 解 性 質 , 在 使 用 這 個 list file 做 為 其 他 程 式 的 input 檔 案 時 , 是 不 會 使 用 到 的 。

 

Sequences producing significant alignments: (bits) Value ..
GB_HTG_NEW:AF191252 Begin: 130331 End: 130354
! AF191252 Homo sapiens chromosome 8 clone BA... 40 0.30
GB_HTG_NEW:AC011739 Begin: 97751 End: 97770 Strand:-
! AC011739 Homo sapiens chromosome unknown cl... 40 0.30
GB_HTG_NEW:AC012540 Begin: 123666 End: 123683 Strand:-
! AC012540 Mus musculus clone 101_N_20, WORKI... 36 4.7
\\End of List

也 就 是 , 如 上 所 示 , 在 ..\\End of List 之 間 為 真 正 的 序 列 檔 的 部 份 , 而 前 面 列 有 ! 的 這 一 行, 則 是 每 個 序 列 檔 的 註 解 部 分 , 是 可 以 去 掉 的 。

所 以 , 上 面 的 List File 可 簡 化 如 下 :

GB_HTG_NEW:AF191252 Begin: 130331 End: 130354
GB_HTG_NEW:AC011739 Begin: 97751 End: 97770 Strand:-
GB_HTG_NEW:AC012540 Begin: 123666 End: 123683 Strand:-

這 個 List File 中 除 了 指 定 三 條 Genbank 資 料 庫 中 的 序 列 之 外 , 同 時 也 指 定 了 使 用 該 序 列 來 分 析 時 應 由 第 幾 個 base pair 開 始 , 第 幾 個 base pair 結 束 , 使 用 時 要 用 正 股 或 反 股。

所 以 如 果 今 天 想 將 test.blastn 裏 的 這 些 序 列 去 做 PileUp 時 , 只 要 以 test.blastn 這 個 檔 案 直 接 做 為 PileUp 的 input file 就 可 以 了 , 執 行 時 的 用 法 是 input file 為 @test.blastn

如 果 今 天 想 要 自 己 製 作 一 個 List File , 做 法 是 直 接 以 Windows 中 的 記 事 本 , 或 Unix 中 的 vi , 將 所 需 的 序 列 檔 名 , 以 一 個 序 列 檔 名 一 行 的 方 式 寫 成 一 個 純 文 字 檔 就 可 以 了 , 這 些 序 列 檔 的 來 源 , 可 以 是 由 資 料 庫 中 直 接 指 定 ( 如 上 例 ) , 也 可 以 是 自 己 定 序 而 得 的 序 列 。 如 果 是 以 記 事 本 寫 的 , 就 以 FTP 上 傳 至 GCG 中 , 不 需 reformat 就 可 以 使 用 了 。

要 注 意 的 是 , 由 資 料 庫 中 指 定 , 習 慣 的 寫 法 是 database:accession number , 如 genbank:z18854sw:capa_caeel 。 ( 如 下 例 , file name 為 capb.txt) , 當 然 , 您 也 可 以 像 上 面 的 例 子 一 樣 , 指 定 比 對 分 析 的 開 始 與 結 束 處 。

file name : capb.txt     sw:capa_caeel
  sw:capa_dicdi
  sw:capa_schpo
  sw:capa_yeast
  my_protein.pro

也 就 是 說 , 在 List File 中 , 除 了 可 以 指 定 資 料 庫 中 的 序 列 外 , 也 可 以 加 入 自 己 所 定 序 而 得 的 序 列 ( 如 my_protein.pro ) , 但 要 記 得 , 這 個 序 列 必 須 為 GCG Format , 而 且 如 果 您 不 會 指 定 子 目 錄 的 話 , 最 好 將 這 個 序 列 檔 和 您 的 List File 放 在 同 一 個 子 目 錄 中 。 假 設 全 部 都 是 自 己 的 序 列 時 , 也 是 比 照 這 個 方 法 。 使 用 時 還 是 一 樣 , input file 為 @capb.txt

 

MSF File
  MSF File 通 常 是 指 PileUp 的 output file , 因 為 在 GCG 中 有 很 多 程 式 必 須 以 PileUp 的 output file ( 也 就 是 MSF file ) 做 為 程 式 的 input file ( 如 Pretty, Prettybox...等 ) , 才 能 做 出 正 確 的 結 果 。此外, 有 需 要 時 , 也 可 以 把 它 當 做 和 list file 一 樣 , 做 為 一 次 輸 入 多 條 序 列 的 程 式 的 input file 。

MSF File 的 內 容 和 List File 的 最 大 差 別 是 , MSF file 不 只 含 序 列 檔 名 , 它 也 含 序 列 本 身 ( 如 下 例 ) , 而 且 是 經 過 pileup 後 的 結 果 。

file name : capb.msf     sw:capa_caeel
  sw:capa_dicdi
  sw:capa_schpo
  sw:capa_yeast
  my_protein.pro
RIASDFIKHA PPGEFNEVFN
QIATNFLLNA PPCEFMEVVS
EAIYKLIRES PPGEVNQVVH
EVINKIINDS PPGELREVYD
RIASDFIKHA PPGEFNEVFN

所 以 在 使 用 時 , 不 管 是 否 內 含 自 己 的 序 列 , 都 不 需 去 考 慮 MSF file 和 序 列 檔 本 身 是 否 在 同 一 子 目 錄 中 , 因 為 程 式 會 直 接 使 用 MSF file 中 的 序 列 去 進 行 分 析 。 使 用 時 的 指 定 方 式 是 capb.msf{*}

問題諮詢:
  請洽 NHRI 生醫資源中心 (電話:037-206166#33621)