8/19/2011

RefSeq

RefSeq和LocusLink是基於NCBI和其他組織合作的校正的資料庫。兩者都使用由人類基因命名委員會定義的術語,並且包括了官方的基因符號和可選的符號。

GenBank是一個公共可獲得的序列記錄備份,由資料發現者提供,它不是一個校正的資料庫。GenBank記錄提交者保有對他們記錄的編輯權並可以決定使用那個基因符號。有些作者同相關物種命名委員會討論,從那裡得到他們測序基因的那個物種的官方基因符號。其他作者可能沒有那麼做。因此,有可能一個基因的GenBank記錄會使用不同的基因符號。
RefSeq NM_xxxxxx和GenBank Afxxxxxx看起來是重複的,但RefSeq和GenBank是分開的資料庫,而且兩者都是可以通過在Entrez nucleotide中輸入各自的ACCESSION獲得。開始時,臨時的RefSeq記錄與GenBank記錄非常相似。但是,當RefSeq記錄被專家review以後,新增的序列資料、生物學注解、和參考文獻常被加入。那時,RefSeq條目(即序列)代表一個來自不同實驗室的綜合資訊,這時二者可以非常不同。
GenBank是一個多種序列的存儲池,對每個基因都含有許多序列。而RefSeq資料庫被設計成每個人類位點挑出一個代表序列來減少重複,是NCBI提供的校正的序列資料和相關的資訊。資料庫包括構建的基因組contig、mRNA、蛋白和整個染色體。
RefSeq記錄是有三種可以獲得的狀態:預測的,臨時的和檢查過的(reviewd)。檢查過的記錄代表了目前關於一個基因和它的轉錄子的知識的彙編。它們很多都來自於GenBank記錄、人類基因組命名委員會、和OMIM。RefSeq標準為人類基因組的功能注解提供一個基礎。
RefSeq記錄通過以下步驟創建:
1、確定代表不同基因的序列
2、建立正確的基因名字到登錄號的聯繫
3、確定完整範圍的可以獲得的序列資料
4、創建一個新的處於三種狀態之一的參考序列(RefSeq)記錄
為什麼RefSeq記錄中的基因符號(symbol)有時和相關的GenBank中的不一樣?RefSeq全部使用官方基因符號。而GenBank是一個公共的序列備份庫,由資料發現者提供。有的作者會向相關的物種命名委員會取得官方基因符號,但有的作者沒有,所以有時會產生別名。GenBank與Pubmed相同,通過display可以選擇顯示格式,常用的有GenBank和FASTA兩種格式。如果要對基因序列作進一步分析,FASTA格式是很好的選擇。FASTA格式僅包括該序列的簡要特徵,並以ATGC4種堿基列出核苷酸序列,簡單明瞭。而GenBank格式可顯示較完整的基因序列記錄,反映核苷酸序列的詳細資訊。
簡而言之RefSeq 資 料 庫 是 NCBI 將 GenBank 的 序 列 再 做 詳 細 整 理 的 non-redundent 序 列 資 料 庫 , 它 的 序 列 格 式 和 GenBank 幾 乎 完 全 相 同 , 但 因 為 是 完 全 不 同 的 獨 立 資 料 庫 , 為 與 GenBank 區 別 , RefSeq 的Accession Number 格 式 和 GenBank 不 同 , 會 是 :
NT_123456  constructed genomic contigs
NM_123456  mRNAs
NP_123456  proteins
NC_123456  chromosome


假 使 得 到 的 output file 中 有 ref , 就 代 表 所 找 到 的 是 RefSeq 資 料 庫 的 序 列 :
ref|NM_00014|A2M| Homo sapiens alpha-2-ma....
gi|4557284|ref|NM_00646.1|[4557284]
ps: Gi “GenBank Identifier”,或序列ID號。“gi|”表示這個序列ID是一個唯一的號碼。任何對這個序列的改變將導致一個新的gi號碼。
RefSeq代碼所代表的意義:
分子 登錄格式 基因組
Complete Genome NC_###### Archaea, Bacterial, Organelle, Virus, Viroid
Genomic Contig     NT_###### Homo sapiens
mRNA NM_###### Limited Vertebrate,Homo sapiens,Musmusculus,Rattus norvegicus
Protein NP_######  All of the above
.
NVBI FTP server
NM_*和NP_*記錄是在/refseq目錄下;對人類的NT_*記錄可以按染色體數位從/genbank/genomes/H_sapiens/*目 錄下下載,當第一次的完整版本建立後還將加到refseq目錄下。將來NC_*記錄將被加入。參考FTP README檔獲得更多的資訊。
NT_######記錄只有在人類基因組測序頁面上通過BLAST查詢可以被圖形的看到,下載,或查詢。
 
 
 
 
參考來源:
http://bioinfo.nhri.org.tw/faq/refseq.htm
http://zhidao.baidu.com/question/50393566
http://www.biosino.org/pages/ncbi-10.htm

No comments: