E2
Taiwan Bioinformatics Institute
GCG常問問題 -> Refseq |
|
 |
在NCBI的Entrez或BLAST所找到的序列GCG 裏卻找不到 ? |
|
出 現 這 種 情 形 有 可 能 是 得 到 的 序 列 太 新 或 是 比 對 到 的 是 NCBI 特 有 的 資 料 庫 的 序 列 , 例 如 RefSeq 資 料 庫。 |
|
 |
RefSeq Database |
|
|
|
|
RefSeq 資 料 庫 是 NCBI 將 GenBank 的 序 列 再 做 詳 細 整 理 的 non-redundent 序 列 資 料 庫 , 它 的 序 列 格 式 和 GenBank 幾 乎 完 全 相 同 , 但 因 為 是 完 全 不 同 的 獨 立 資 料 庫 , 為 與 GenBank 區 別 , RefSeq 的Accession Number 格 式 和 GenBank 不 同 , 會 是 :
NT_123456 |
constructed genomic contigs |
NM_123456 |
mRNAs |
NP_123456 |
proteins |
NC_123456 |
chromosome |
假 使 得 到 的 output file 中 有 ref , 就 代 表 所 找 到 的 是 RefSeq 資 料 庫 的 序 列 :
ref|NM_00014|A2M| Homo sapiens alpha-2-ma....
gi|4557284|ref|NM_00646.1|[4557284]
因 為 NCBI 的 Entrez 和 BLAST 都 放 入 了 這 個 資 料 庫 , 但 現 在 GCG 並 沒 有 加 入 這 個 資 料 庫 , 所 以 會 有 找 不 到 的 情 形 。 |
|
|
|
|
 |
解 決 方 法 |
|
|
|
|
不 管 是 何 種 原 因 , 解 決 的 方 法 就 是 利 用 NetFetch將 這 個 序 列 拷 貝 一 份 回 來 , 但 是 這 個 檔 案 GCG 無 法 直 接 讀 取 , 要 將 它 Reformat 後 才 能 用 , reformat 時 請 記 得 在 這 個 NetFetch 回 來 的 rsf 檔 後 面 加 上 {*}。請 參 考 下 列 例 子 :
gcg2 1%netfetch NM_000014
NetFetch retrieves sequences from NCBI listed in a NetBLAST output file. You can also use it to retrieve sequences individually by sequence name or accession number. The output of NetFetch is an RSF file.
What should I call the RSF output file (* nm_000014.rsf *) ?
NETFETCH complete with:
Output: nm_000014.rsf
Server: www.ncbi.nlm.nih.gov
Requested: 1
Returned: 1
gcg2 2% reformat nm_000014.rsf{*}
Reformat rewrites sequence file(s), scoring matrix file(s), or enzyme data file(s) so that they can be read by GCG programs.
nm_000014.seq length: 4577 bp
|
|
|
|
|
 |
其 他 用 法 |
|
|
|
|
若 是 使 用 了 GCG 中 的 NetBlast , 也 可 以 上 述 方 式 將 所 要 的 序 列 拷 貝 一 份 回 來 , 而 且 可 以 NetBlast 的 output 直 接 做 為 NetFetch 的 input, Reformat 後 會 自 動 解 開 成 多 個 序 列 檔 。
NetFetch 因 為 是 利 用 了 NCBI 中 的 Entrez 來 取 得 序 列 , 所 以 若 是 NetBLAST 所 得 的 序 列 不 在 Entrez 中 就 有 可 能 還 是 找 不 到 , 例 如 Alu Datebase 中 的 序 列 。 |
|
|
|
問題諮詢: |
|
請洽 NHRI 生醫資源中心 (電話:037-206166#33621) |
|
Top