分子克隆技術通常特指基因克隆(gene cloning)或DNA重組技術(recombinant DNA technology)。基因克隆主要包括:①連接外源基因和克隆載體,構建重組DNA分子,②將重組DNA分子轉入受體細胞,使外源基因隨受體細胞分裂而得以復制、繁殖。
一個典型的基因克隆實驗,主要有以下操作和結果:
(1)包括有目的基因在內的DNA片斷插入另一個DNA分子(克隆載體,通常是環狀的),形成重組DNA分子。
(2)重組DNA分子通過轉化或其他類似的方法被導入受體細胞。大腸桿菌是使用較多的受體細胞。
(3)在受體細胞中,克隆載體指導重組DNA分子復制,產生許多完全相同的拷貝。
(4)當受體細胞分裂時,重組DNA分子的拷貝進入子細胞,克隆載體的復制將在子細胞中繼續。
(5)大量分裂的受體細胞形成克隆:一個細胞群體,其中每個細胞都含有許多重組DNA分子的拷貝。
顯而易見,基因克隆是一個比較直觀而簡單的操作程序。它之所以具有非常重要的生物學意義,是因為這一技術可以為我們提供一個純粹的基因標本。通常,一個基因總是和細胞里其他基因同在。基因克隆技術誕生之前,我們根本無法純化單個基因,這意味著我們只能對基因群、而不是特定基因的結構與功能進行研究和開發利用。
構建重組DNA分子是基因克隆實驗的第一步,亦即,把環狀的載體在指定部位切斷,然后把含目的基因的DNA分子插入其中,再將兩者連接起來。這一過程需要兩種DNA操作酶:限制性內切酶(restriction endonucleases)和連接酶(ligases)。
限制性內切酶能夠識別DNA分子上的特定核苷酸序列,并在該處特異性切斷DNA分子。例如,PvuI(細菌Proteus vulgaris分離)只識別和切斷6核苷酸序列CGATCG;從相同細菌分離的PvuII,卻只識別并切斷CAGCTG。許多限制性內切酶的識別位點是6個核苷酸,但是,也有識別4個或5個、甚至8個核苷酸順序的限制性內切酶。此外,有些限制性內切酶的識別順序可能不是唯一的,例如,HinfI可以識別并切斷GAATC、GATTC,GAGTC和GACTC。因此,通常也將HinfI的識別位點記為GANTC,N代表A、T、G和C中的任意一種核苷酸。
經限制性內切酶處理后的DNA分子斷端有兩種:平端和粘端,它們的性質對基因克隆的實驗設計有重要影響。其中,具有不同識別位點的限制性內切酶可以產生相同的粘端。例如,BglII(AGATCT)和BamHI(GGATCC)產生與Sau3A相同的GATC粘端。顯然,經上述三種酶處理的DNA分子片斷之間均可以在相應的斷端形成互補雙鏈。
DNA分子片斷通過粘端形成的堿基互補并不能使之相互連接,后一過程需要連接酶的催化作用。所有生物細胞中都產生連接酶,但是,基因克隆中最常用的是T4噬菌體的連接酶。連接酶催化相鄰核苷酸之間形成磷酸二酯鍵。由于平端不能使DNA片斷保持相互接近的位置,因而,和粘端相比,連接酶對平端DNA分子之間連接反應的催化效率較差。
載體是克隆基因的關鍵組分,載體使重組DNA分子能夠在受體細胞中復制。質粒和噬菌體是兩種天然的DNA載體。目前,能在不同受體細胞中使用的載體有數百種,其中,可以在大腸桿菌中使用的載體數目最多。
質粒pBR322是一種典型的大腸桿菌克隆載體,它全長僅為4.3kb(通常,我們很難完整地分離和純化長度超過50kb的DNA大分子)。pBR322帶有兩種抗生素抗性基因:b -內酰胺酶基因和四環素抗性基因,前者修飾并消除氨芐青霉素對大腸桿菌的毒性。通常,目的基因插入載體質粒將破壞四環素抗性功能。因此,使用含有氨芐青霉素和四環素的培養基,我們可以鑒別大腸桿菌的轉化細胞:帶有重組質粒的轉化細胞只能在含氨芐青霉素、不含四環素的培養基上生長;另一方面,原受體細胞不能在含有氨芐青霉素和四環素的培養基上生長;而有載體質粒但沒有目的基因的轉化細胞能在含有氨芐青霉素和四環素的培養基上生長。另外,pBR322是一種松弛型質粒,在培養液中加入氯霉素可以使轉化細胞中的質粒拷貝數由通常的15個增至1000-3000個,此間,大腸桿菌的染色體并不復制。
實際上,現在經常使用的許多質粒載體不同于pBR322,除抗生素抗性基因之外,這些質粒中的其他基因也可以作為選擇基因。例如,pUC8帶有氨芐青霉素抗性基因和LacZ/基因。由于目的基因的插入部位位于LacZ/基因之內,所以,甄別轉化細胞的操作變得更加直觀和簡單。質粒能使轉化細胞在含有氨芐青霉素的培養基上生長,并且,如果同時添加LacZ/基因表達誘導物質IPTG和LacZ/酶(b-半乳糖苷酶)的底物X-gal,那么,帶有目的基因的轉化細胞菌落呈現藍色,不含目的基因的轉化細胞菌落呈現白色。
在細菌中,噬菌體載體是另外一類常用的克隆載體。和質粒不同的是,噬菌體載體通過感染過程即轉導進入宿主大腸桿菌細胞。通常,作為克隆載體的噬菌體,都經過一定的突變和缺失處理。因此,這類噬菌體進入大腸桿菌細胞之后,并不像一般噬菌體那樣在宿主染色體上整合,而是直接進入裂解周期:大量復制噬菌體、裂解宿主細胞,最終在培養基上形成含有大量噬菌體拷貝的噬菌斑。
篩選帶有目的基因的噬菌體的方法多種多樣,例如,使用有LacZ/基因的噬菌體載體時,可以通過X-gal培養基上形成噬菌斑的顏色,區別帶有目的基因的重組噬菌體(重組子)和沒有目的基因的載體。有時,也可以簡單地通過轉導前后所形成的噬菌斑形態鑒別重組子。
和質粒載體相比,噬菌體載體能夠克隆更長的DNA片斷。例如,pBR322及pUC8的質粒中可以插入最長8kb的DNA片斷,載體等噬菌體則能克隆長達25kb的DNA片斷。
通常,大腸桿菌及其質粒或噬菌體載體可以充分滿足分離和純化某些實驗用基因的目的。但是,我們有時需要用真核生物細胞而不是大腸桿菌細胞作為受體,例如,利用基因克隆控制和促進重要代謝產物(胰島素等)的合成、改變受體生物的特定性狀(將抗蟲特性導入糧食作物等),等等。這時,我們必須選擇適合于真核細胞的克隆載體。
酵母是基因克隆實驗中常用的真核生物受體細胞,培養酵母菌和培養大腸桿菌一樣方便。酵母克隆載體的種類也很多。其中,游離型質粒YEps(yeast episomal plasmids)、整合型載體YIps(Integrative yeast vectors)和人工染色體YACs(yeast artificial chromosomes)是三種最具代表性的酵母克隆載體。YEps是一種罕見的真核細胞質粒,大小2mm、長約6kb。YEps在細胞內的拷貝數為70-200個。YEps的性質和細菌質粒載體非常相似,唯一不同的是轉化細胞的篩選方法。使用YEps時,主要通過受體細胞營養要求的變化鑒別轉化細胞與受體細胞。由于利用YEps克隆的基因容易在細胞繼代過程中丟失,因而,人們常用YIps替代YEps。不過,作為酵母菌的克隆載體,YIps的轉化頻率很低。另一方面,典型的YACs包括一個著絲點、兩個端粒、一個復制起點和幾個選擇標記基因,是一個微型染色體。YACs主要用于克隆長基因或包括數個基因序列的基因組DNA片斷。許多重要的動物基因往往含有多個內含子、占據相當長的DNA區域,而使用普通載體通常難以獲得完整的基因序列克隆。
在某些特殊的情形中,我們還需要選用動物或植物細胞作為克隆的受體細胞。例如,把克隆的基因導入糧食作物以改善其營養質量等。常用的植物克隆載體主要是Ti質粒及其衍生物;常用的哺乳動物克隆載體主要是一些由大腸桿菌質粒或哺乳類病毒改建的載體。
基因文庫(genomic library)是一套包含特定生物體所有基因的DNA序列,其中,不同的DNA序列片段分別被克隆在適當的載體上。例如,人類基因文庫是一群帶有人類基因克隆的大腸桿菌細胞,我們可以從這個文庫中篩選、鑒定和研究任何人類基因。基因文庫包括由基因組DNA構成的基因組文庫和由與mRNA互補的DNA構成的cDNA文庫。cDNA文庫不含非轉錄的基因組序列(重復序列等)。從基因組文庫中篩選和鑒定目的基因主要方法是利用各種分子探針手段和DNA側序儀。
構建基因文庫的基本方法是:(1)將特定生物體的基因組DNA或互補DNA分解成適當長度的DNA片段,然后分別與克隆載體連接;(2)通過轉化或轉導的方法將帶有不同DNA片段的重組DNA分子導入受體細胞,獲得一套包含特定生物體所有DNA序列的克隆。成功構建基因文庫的關鍵是選擇合適的純化、切斷DNA的方法和克隆載體,使所獲得的一套DNA序列克隆具有代表性、即不短缺任何DNA片段。例如,在構建基因組文庫的過程中,如果某一段基因組DNA序列沒能被克隆,那么,該基因組文庫便不具有代表性。相似地,如果所建文庫中沒有足夠數量的克隆,那么,肯定會有某些基因缺失。當然,一個完整的cDNA文庫也只包括那些與mRNA互補的DNA序列,缺乏不轉錄的DNA序列。
分離和純化真核生物基因組DNA時,通常采用蛋白酶分解和相抽提的方法除掉蛋白質及脂類等其他大分子。基因組DNA片段化則主要采用物理剪切法和限制性內切酶法。其中,用攪拌及超聲波等物理剪切法處理基因組DNA后,可獲得大量較短的DNA隨機斷片。另一方面,由于各種識別位點在基因組DNA上是非隨機分布的,使用不同的限制性內切酶,可以獲得具有不同長度分布特征的DNA片段。常用的限制性內切酶有Sau3A等。
構建基因文庫中常用的載體有質粒、噬菌體、粘粒(cosmid)以及YAC。這些載體可以克隆的DNA片段長度上限分別約為10、23、45和1000kb。選擇載體的主要參數是基因組大小,即基因組DNA序列的長短。例如,構建大腸桿菌(4.6´ 106kb)等基因組較小生物的基因組文庫時,采用質粒作為載體便可得到滿意的結果:按每個DNA片段平均長5kb計算,一個包括5000個DNA片段克隆的基因文庫就能夠代表一個完整的大腸桿菌基因組序列。構建較大基因組的文庫時,噬菌體、粘粒以及YAC常被選作克隆載體。其中,EMBL3和lDASH等噬菌體的衍生物是構建基因組文庫中使用最多的載體。
目前,有很多方法能夠幫助我們從基因文庫的眾多克隆中篩選和鑒定帶有特定基因的克隆,這些方法大多是以雜交探查技術(hybridization probing)為基礎的。雜交探測是一種利用能和目的基因序列互補的DNA或RNA片段為探針,通過分子雜交的手段找出帶有目的基因的DNA片段的實驗方法。
通常,為了從基因文庫中篩選出帶有目的基因的克隆,首先,需要將含有基因組DNA或cDNA克隆的菌落或噬菌斑轉移到硝酸纖維膜或尼龍膜等支撐物上。進一步,除去DNA以外的其他雜物,同時使DNA分子變性(雙鏈變為單鏈)并固定在支撐膜上。最后,標記擬使用的探針,并使探針與支撐膜上的單鏈DNA分子雜交。通過檢測雜交膜上的探針信號,我們可以確定帶有目的基因的細菌或噬菌體的位置,最終選出相應的基因克隆。
作為探針的DNA或RNA分子大多是根據已知的有關目的基因的某些信息(部分DNA序列或蛋白質產物等)化學合成的寡核苷酸。另外,標記探針的方法也很多,例如,放射性元素標記、熒光色素標記以及酶標記等等。
測定DNA序列是決定基因精確結構的唯一方法。DNA測序法主要有鏈末端終止法(chain termination method)和化學降解法(chemical degradation method)兩類。其中,鏈末端終止法目前使用得最為普遍。
由于DNA測序儀一次只能確定長500-1000bp的核苷酸順序,因此,通常需要在測序之前,對擬用于序列分析的基因克隆進行亞克隆制備(subcloning)和限制性內切酶圖譜繪制工作:把從基因文庫中分離的帶有目的基因的DNA片段分成若干個小片段,分別克隆后再行測序;根據限制性內切酶圖譜確定各個亞克隆DNA片段之間的關系,最終獲得完整的基因一級結構信息。
國際DNA數據庫始建于20年前,主要負責收集、整理和交流各種已知DNA序列。近年來,特別是病毒、細菌、昆蟲以及人等多種生物的基因組計劃實施以來,大量的DNA序列數據正以前所未有的速度不斷積累和增多。
目前,國際DNA數據庫主要包括由歐洲生物信息研究所(EBI:European Bioinformatics Institute,英國劍橋)、美國國立生物技術信息中心(NCBI:National Center for Biotechnology Information,美國馬里蘭)和日本國立遺傳學研究所(NIG:National Institute of Genetics,日本靜岡)分別運營的EMBL數據庫、GenBank數據庫和DDBJ數據庫組成。它們共同制定和采用相同的數據庫管理程序,分別收集、整理并隨時交換最新DNA序列信息,定期公布這些信息。此外,所有生物學國際權威性學術刊物都要求投稿者事先在國際DNA數據庫登記擬發表的DNA、RNA或蛋白質氨基酸序列,據1999年3月DDBJ的統計數據(表5-1),國際DNA數據庫紀錄的DNA數據總量已由1967年的121個堿基對躍升為1999年的23億個堿基對。
表5-1國際DNA數據庫(1999年3月)序列分類統計
序列分類
|
序列數目
|
堿基總數
|
人類
|
91,121
|
358,634,878
|
靈長類(人類除外)
|
4,977
|
3,800,669
|
嚙齒類
|
45,407
|
64,541,563
|
哺乳類(靈長類、嚙齒類除外)
|
17,687
|
16,485,760
|
脊椎動物(靈長類、嚙齒類和哺乳類除外)
|
26,047
|
25,252,856
|
無脊椎動物
|
41,925
|
158.325,369
|
植物
|
68,570
|
155,968,956
|
細菌
|
54,199
|
133,124,032
|
噬菌體
|
1,394
|
3,033,907
|
病毒
|
65,827
|
59,257,968
|
EST(Expressed Sequence Tag)
|
2,167,017
|
835,111,766
|
STS(Sequence-Tagged Site)
|
64,115
|
22,573,045
|
RNA
|
4,883
|
2,480,449
|
專利數據
|
134,612
|
42,349,047
|
其他
|
523,846
|
494,321,686
|
合計
|
3,311,627
|
2,375,261,951
|
按照生物進化的觀點,所有基因都是進化的產物。在不同生物種中,具有相同功能的基因通常來源于同一祖先基因。因此,這些基因(orthologous genes)彼此結構相似。顯然,比較功能未知的基因和DNA數據庫中功能已知基因的序列相似性,我們有可能預測某些基因的功能。
目前,許多研究人員正在DNA數據庫的基礎上開發新的DNA信息庫及其利用系統。例如,NCBI的同源基因信息庫COG(clusters of orthologous groups)可以為人們提供詳細的同源基因分類和相應的DNA順序特征;日本的反應途徑信息庫KEGG(Kyoto encyclopedia of genes and genomes)則提供了一套能夠自動比較和預測基因在細胞中的功能的系統。
在依據DNA一級結構預測基因功能方面,DNA數據庫的作用日益重要。