E2
Taiwan Bioinformatics Institute

  GCG常問問題 -> Refseq
在NCBI的Entrez或BLAST所找到的序列GCG 裏卻找不到 ?
  出 現 這 種 情 形 有 可 能 是 得 到 的 序 列 太 新 或 是 比 對 到 的 是 NCBI 特 有 的 資 料 庫 的 序 列 , 例 如 RefSeq 資 料 庫。
  RefSeq Database
    RefSeq 資 料 庫 是 NCBI 將 GenBank 的 序 列 再 做 詳 細 整 理 的 non-redundent 序 列 資 料 庫 , 它 的 序 列 格 式 和 GenBank 幾 乎 完 全 相 同 , 但 因 為 是 完 全 不 同 的 獨 立 資 料 庫 , 為 與 GenBank 區 別 , RefSeq 的Accession Number 格 式 和 GenBank 不 同 , 會 是 :
NT_123456   constructed genomic contigs
NM_123456   mRNAs
NP_123456   proteins
NC_123456   chromosome

假 使 得 到 的 output file 中 有 ref , 就 代 表 所 找 到 的 是 RefSeq 資 料 庫 的 序 列 :

   ref|NM_00014|A2M| Homo sapiens alpha-2-ma....

   gi|4557284|ref|NM_00646.1|[4557284]

因 為 NCBI 的 EntrezBLAST 都 放 入 了 這 個 資 料 庫 , 但 現 在 GCG 並 沒 有 加 入 這 個 資 料 庫 , 所 以 會 有 找 不 到 的 情 形 。

     
  解 決 方 法
   

不 管 是 何 種 原 因 , 解 決 的 方 法 就 是 利 用 NetFetch將 這 個 序 列 拷 貝 一 份 回 來 , 但 是 這 個 檔 案 GCG 無 法 直 接 讀 取 , 要 將 它 Reformat 後 才 能 用 , reformat 時 請 記 得 在 這 個 NetFetch 回 來 的 rsf 檔 後 面 加 上 {*}。請 參 考 下 列 例 子 :

gcg2 1%netfetch NM_000014

NetFetch retrieves sequences from NCBI listed in a NetBLAST output file. You can also use it to retrieve sequences individually by sequence name or accession number. The output of NetFetch is an RSF file.

  What should I call the RSF output file (* nm_000014.rsf *) ?

  NETFETCH complete with:

   Output: nm_000014.rsf
Server: www.ncbi.nlm.nih.gov
Requested: 1
Returned: 1

gcg2 2% reformat nm_000014.rsf{*}

Reformat rewrites sequence file(s), scoring matrix file(s), or enzyme data file(s) so that they can be read by GCG programs.

   nm_000014.seq   length: 4577 bp

     
  其 他 用 法
    若 是 使 用 了 GCG 中 的 NetBlast , 也 可 以 上 述 方 式 將 所 要 的 序 列 拷 貝 一 份 回 來 , 而 且 可 以 NetBlast 的 output 直 接 做 為 NetFetch 的 input, Reformat 後 會 自 動 解 開 成 多 個 序 列 檔 。

NetFetch 因 為 是 利 用 了 NCBI 中 的 Entrez 來 取 得 序 列 , 所 以 若 是 NetBLAST 所 得 的 序 列 不 在 Entrez 中 就 有 可 能 還 是 找 不 到 , 例 如 Alu Datebase 中 的 序 列 。

問題諮詢:
  請洽 NHRI 生醫資源中心 (電話:037-206166#33621)