8/19/2011

GenBank

GenBank是一個有來自於70,000多種生物的核苷酸序列的資料庫。每條紀錄都有編碼區(CDS)特徵的注釋,還包括氨基酸的翻譯。GenBank屬於一個序列資料庫的國際合作組織,包括EMBL和DDBJ。
完整的GenBank資料庫包括序列檔,索引檔以及其它有關檔。索引檔是根據資料庫中作者、參考文獻等建立的,用於資料庫查詢。GenPept是由GenBank中的核酸序列翻譯而得到的蛋白質序列資料庫,其資料格式為FastA。

GenBank中最常用的是序列檔。序列檔的基本單位是序列條目,包括核苷酸堿基排列順序和注釋兩部分。目前,許多生物資訊資源中心通過電腦網路提供該資料庫檔。GenBank序列檔由單個的序列條目組成。序列條目由欄位組成,每個欄位由關鍵字起始,後面為該欄位的具體說明。有些欄位又分若干次子欄位,以次要索引機碼或特性表說明符開始。每個序列條目以雙斜杠“//”作結束標記。序列條目的格式非常重要,關鍵字從第一列開始,次要索引機碼從第三列開始,特性表說明符從第五列開始。每個欄位可以占一行,也可以占若干行。若一行中寫不下時,繼續行以空格開始。序列條目的關鍵字包括LOCUS (代碼),DEFINITION (說明),ACCESSION (編號),NID符(核酸標識),KEYWORDS (關鍵字),SOURCE (資料來源),REFERENCE (文獻),FEATURES (特性表),BASE COUNT (堿基組成)及ORIGIN (堿基排列順序)。
先版的核酸序列資料庫將引入新的關鍵字SV (序列版本號),用“編號.版本號”表示,並取代關鍵字NID。
  1. LOCUS (代碼):是該序列條目的標記,或者說識別字,蘊涵這個序列的功能。該欄位還包括其它相關內容,如序列長度、類型、種屬來源以及錄入日期等。說明欄位是有關這一序列的簡單描述。
    • 以GAPDH為例
    • LOCUS       NC_000012               3880 bp    DNA     linear   CON 29-JUL-2011
  2. ACCESSION (編號):具有唯一性和永久性,在文獻中引用這個序列時,應該以此編號為准。
  3. KEYWORDS (關鍵字)欄位:由該序列的提交者提供,包括該序列的基因產物以及其它相關資訊。
  4. SOURCE (資料來源)欄位:說明該序列是從什麼生物體、什麼組織得到的,如本例中人臍帶血(umbilical vein)。次要索引機碼ORGANISM (種屬)指出該生物體的分類學地位,如本例人、真核生物等等。
    • SOURCE      Homo sapiens (human)
  5. REFERENCE (文獻)欄位:說明該序列中的相關文獻,包括AUTHORS (作者),TITLE (題目)及JOURNAL (雜誌名)等,以次關鍵字列出。該欄位中還列出醫學文獻摘要資料庫MEDLINE的代碼。該代碼實際上是個超文字連結,點擊它可以直接調用上述文獻摘要。一個序列可以有多篇文獻,以不同序號表示,並給出該序列中的哪一部分與文獻有關。
  6. FEATURES (特性表):具有特定的格式,用來詳細描述序列特性。特性表中帶有‘/db-xref/’標誌的字元可以連接到其它資料庫。序列中各部分的位置都在表中標明,5’非編碼區(1-97),編碼區(98-1912),3’非編碼區(1913-3387),多聚腺苷酸重複區域(3367-3374),等等。翻譯所得信號肽以及最終蛋白質產物也都有所說明。當然,這個例子只是特性表的部分注釋資訊,但已經足以說明其詳細程度。接下來是堿基含量欄位,給出序列中的堿組成,如本例中1010個A,712個C,633個G,1032個T。ORIGIN行是序列的引導行,接下來便是堿基序列,以雙斜杠行“//”結束。
參考網址:
http://baike.baidu.com/view/923000.html
http://www.cbi.pku.edu.cn/chinese/documents/bioinfor/overview/web5/3.html

No comments: