Genbank庫包含了所有已知的核酸序列和蛋白質序列,以及與它們相關的文獻著作和生物學注釋。它是由美國國立生物技術信息中心(NCBI)建立和維護的。它的數據直接來源于測序工作者提交的序列;由測序中心提交的大量EST序列和其它測序數據;以及與其它數據機構協作交換數據而來。Genbank每天都會與歐洲分子生物學實驗室(EMBL)的數據庫,和日本的DNA數據庫(DDBJ)交換數據,使這三個數據庫的數據同步。到1999年8月,Genbank中收集的序列數量達到460萬條,34億個堿基,而且數據增長的速度還在不斷加快。Genbank的數據可以從NCBI的FTP服務器上免費下載完整的庫,或下載積累的新數據。NCBI還提供廣泛的數據查詢、序列相似性搜索以及其它分析服務,用戶可以從NCBI的主頁上找到這些服務。
Genbank庫里的數據按來源于約55,000個物種,其中56%是人類的基因組序列(所有序列中的34%是人類的EST序列)。每條Genbank數據記錄包含了對序列的簡要描述,它的科學命名,物種分類名稱,參考文獻,序列特征表,以及序列本身。序列特征表里包含對序列生物學特征注釋如:編碼區、轉錄單元、重復區域、突變位點或修飾位點等。所有數據記錄被劃分在若干個文件里,如細菌類、病毒類、靈長類、嚙齒類,以及EST數據、基因組測序數據、大規模基因組序列數據等16類,其中EST數據等又被各自分成若干個文件。
(1)Genbank數據檢索
NCBI的數據庫檢索查詢系統是Entrez。Entrez是基于Web界面的綜合生物信息數據庫檢索系統。利用Entrez系統,用戶不僅可以方便地檢索Genbank的核酸數據,還可以檢索來自Genbank和其它數據庫的蛋白質序列數據、基因組圖譜數據、來自分子模型數據庫(MMDB)的蛋白質三維結構數據、種群序列數據集、以及由PubMed獲得Medline的文獻數據。
Entrez提供了方便實用的檢索服務,所有操作都可以在網絡瀏覽器上完成。用戶可以利用Entrez界面上提供的限制條件(Limits)、索引(Index)、檢索歷史(History)和剪貼板(Clipboard)等功能來實現復雜的檢索查詢工作。對于檢索獲得的記錄,用戶可以選擇需要顯示的數據,保存查詢結果,甚至以圖形方式觀看檢索獲得的序列。更詳細的Entrez使用說明可以在該主頁上獲得。
(2)向Genbank提交序列數據
測序工作者可以把自己工作中獲得的新序列提交給NCBI,添加到Genbank數據庫。這個任務可以由基于Web界面的BankIt或獨立程序Sequin來完成。
BankIt是一系列表單,包括聯絡信息、發布要求、引用參考信息、序列來源信息、以及序列本身的信息等。用戶提交序列后,會從電子郵件收到自動生成的數據條目,Genbank的新序列編號,以及完成注釋后的完整的數據記錄。用戶還可以在BankIt頁面下修改已經發布序列的信息。BankIt適合于獨立測序工作者提交少量序列,而不適合大量序列的提交,也不適合提交很長的序列,EST序列和GSS序列也不應用BankIt提交。BankIt使用說明和對序列的要求可詳見其主頁面。
大量的序列提交可以由Sequin程序完成。Sequin程序能方便的編輯和處理復雜注釋,并包含一系列內建的檢查函數來提高序列的質量保證。它還被設計用于提交來自系統進化、種群和突變研究的序列,可以加入比對的數據。Sequin除了用于編輯和修改序列數據記錄,還可以用于序列的分析,任何以FASTA或ASN.1格式序列為輸入數據的序列分析程序都可以整合到Sequin程序下。在不同操作系統下運行的Sequin程序都可以在下找到,Sequin的使用說明可詳見其網頁。