在基因表達研究中,研究者比較注意選擇合適的表達載體和宿主系統,而往往忽視基因本身是否與載體和宿主系統為最佳匹配這樣一個實質性問題;虻淖罴鸦磉_可以通過對基因的重新設計和合成來實現,如消除稀有密碼子而利用最佳化密碼子,二級結構最小化,調整GC含量等。以下就密碼子最佳化、翻譯終止效率和真核細胞中異源蛋白表達的問題加以說明。
密碼子最佳化(codon optimization)
遺傳密碼有64種,但是絕大多數生物傾向于利用這些密碼子中的一部分。那些被最頻繁利用的稱為最佳密碼子(optimal codons),那些不被經常利用的稱為稀有或利用率低的密碼子(rare or low-usage codons)。實際上用做蛋白表達或生產的每種生物(包括大腸桿菌,酵母,哺乳動物細胞,Pichia,植物細胞和昆蟲細胞)都表現出某種程度的密碼子利用的差異或偏愛。大腸桿菌、酵母、果蠅、靈長類等每種生物都有獨特的8個密碼子極少被利用。有趣的是,靈長類和酵母有6個同樣的利用率低的密碼子。大腸桿菌、酵母和果蠅中編碼豐度高的蛋白質的基因明顯避免低利用率的密碼子。因此,重組蛋白的表達可能受密碼子利用的影響(尤其在異源表達系統中)的事實并不很奇怪。你的基因利用的密碼子可能不是你正在利用的蛋白生產系統進行高水平表達所偏愛的密碼子,這種情況是可能的。利用偏愛密碼子(preferred codons)并避免利用率低的或稀有的密碼子可以合成基因,基因的這種重新設計叫密碼子最佳化。
在同源表達系統中,同較低水平表達的基因相比,較高表達的基因可能有很不同的密碼子偏愛。通過對密碼子利用的歸類分析,人們可以真正預測任何基因在酵母中的表達水平。在諸如Zea mays的其他生物中,大量高表達基因強烈偏愛以G或C結尾的密碼子。而且,在Dictyostelium中,同低水平表達的基因比較,高表達基因有較大數目的偏愛密碼子。
在大腸桿菌中表達哺乳動物基因是不可預測和具有挑戰的。例如直到最近才實現了人血紅蛋白的過表達。為了達到血紅蛋白的好的表達水平,Alpha-球蛋白cDNA不得不用大腸桿菌偏愛的密碼子進行重新合成。在異源宿主中實現象血紅蛋白這樣復雜的蛋白質的過表達可能需要最佳化密碼子,這些研究者為此提供了令人信服的資料。成簇的低利用率的密碼子抑制了核糖體的運動,這是基因不能以合適水平表達的一個明顯機制。核糖體翻譯由九個密碼子組成的信使(含幾個低利用率密碼子或全部為低利用率密碼子)時的運動速度要比翻譯不含低利用率密碼子的同樣長的信使的速度慢。即使低利用率密碼子簇位于3'端,信使最后也會被核糖體”擁擠”而損害,核糖體又回到5'端。3'端低利用率密碼子簇的抑制效應可以和全部信使都由低利用率密碼子組成的抑制效應一樣大。如果低利用率密碼子簇位于5'端,其效應是起始核糖體數目的全面減少,導致蛋白合成中信使的低效率。散在分布的稀有密碼子對翻譯的效應還未很好地研究,但是有證據表明這種情況的確對翻譯效率有負面效應。
其他因素也可以影響蛋白表達,包括使mRNA去穩定的序列。重新設計合成基因可以去除或改變這些序列,導致高水平表達。消除稀有密碼子、去除任何去穩定序列和利用最佳密碼子的基因的重新設計都可能增加蛋白產量,使的蛋白生產更有效和經濟。
翻譯終止效率
蛋白表達水平受許多不同因素和過程影響。蛋白穩定性、mRNA穩定性和翻譯效率在蛋白生產和積累中起主要作用。翻譯過程分為起始、延伸和終止三個期。對于翻譯的起始,原核mRNA需要5'端非翻譯前導序列中有一段叫Shine-Dalgarno序列的特異核糖體結合序列。在真核細胞,有效的起始依賴于圍繞在起始密碼子ATG上下游的一段叫Kozak序列的序列。密碼子利用或偏愛對延伸有深刻的影響。例如,如果mRNA有很多成簇的稀有密碼子,這可能對核糖體的運動速度造成負面影響,大大減低了蛋白表達水平。翻譯終止是蛋白生產必須的一步,但其對蛋白表達水平的影響還沒有被研究清楚。但是最近的科學研究表明終止對蛋白表達水平有很大的影響?偟膩碚f,更有效的翻譯終止導致更好的蛋白表達。
絕大多數生物都有偏愛的圍繞終止密碼子的序列框架。酵母和哺乳動物偏愛的終止密碼子分別是UAA和UGA。單子葉植物最常利用UGA,而昆蟲和大腸桿菌傾向于用UAA。翻譯終止效率可能受緊接著終止密碼子的下游堿基和緊靠終止密碼子的上游序列影響。在酵母中通過改變圍繞終止密碼子的局部序列框架,翻譯終止效率可能被減低幾個100倍。對于UGA和UAA,緊接著終止密碼子的下游堿基對有效終止的影響力大小次序為G>U,A>C;對于UAG是U、A>C>G。
對于大腸桿菌,翻譯終止效率可因終止密碼子及臨近的下游堿基的不同而顯著不同,從80%(UAAU)到7%(UGAC)。對于UAAN和UAGN系列,終止密碼子下游堿基對翻譯的有效終止的影響力大小次序為U>G>A、C。UAG極少被大腸桿菌利用,相比UAAN和UGAN,UAG表現了有效的終止,但其后的堿基對有效終止的影響力為G>U,A>C。對于哺乳動物,偏愛的終止密碼子為UGA,其后的堿基可以對in vivo翻譯終止有8倍的影響(A、G>>C、U)。對于UAAN系列,in vivo終止效率可以有70倍的差別,UGAN系列為8倍。如果終止密碼子附近序列沒有最佳化,可能發生明顯增加的翻譯通讀,因此減少了蛋白表達。例如,在兔網狀細胞無細胞翻譯系統里,UGAC的翻譯通讀可以高達10%,而第四個堿基如果為A,G或C,翻譯通讀為<1%。
總的來說,翻譯起始框架、翻譯終止序列框架和密碼子利用應該仔細選擇,以利于蛋白的最高水平表達。翻譯終止序列框架能幾倍地改變蛋白生產水平。
真核細胞中的異源蛋白表達
異源蛋白質在細菌中表達是目前使用的主要的蛋白生產系統。大腸桿菌一直是最經濟的系統之一。然而為了生產需要特異修飾、胞外分泌或有特異折疊需要的蛋白質,其他表達系統也是需要的。真核細胞在表達原核來源的基因、真核基因的cDNA拷貝或其他無內含子的基因時可能表現很多特異問題。富含AT的基因在很多真核細胞中表達時會遭遇很劇烈的障礙。主要的真核信號序列如 加poly-A的位點、酵母轉錄終止位點和真核mRNA去穩定序列都是富含AT的。內含子序列也趨向于富含AT,盡管他們有參與剪切過程的很特異的識別序列。雖然絕大多數原核基因沒有剪切或聚腺苷過程,但這些真核過程需要的保守序列可能存在于原核基因中,因此當這些基因在真核細胞中表達時可能引起特異的問題。而且諸如哺乳動物和單子葉植物細胞的特異真核表達系統可能不能有效地表達無內含子的基因。
真核mRNA在離開細胞核進而在胞漿的核糖體上被翻譯前需要特異的處理和修飾。這些過程包括去除內含子、5'端甲基化帽子形成和3'端加poly-A。內含子去除需要5'剪切位點、G75/G100U100A65AG65U保守序列、3'剪切位點、富含密啶NC66A100G100/G56保守序列和C72T98R77A100Y75保守序列。有效的加poly-A和mRNA剪切需要一個由兩個部分組成的信號:加poly-A保守序列AAUAAA和在切割位點內的50個堿基的富含GT的序列。酵母真核轉錄終止序列(幾個不同的富含AT序列,如含TTTTTATA,TATATA,TACATA,TAGTAGTA的一個38bp區域)被研究的最清楚。這些結果來自對酵母突變體CYCI mRNA的mRNA水平和相對長度的確定的實驗。近期用in vivo質粒穩定性分析的研究結果證明:TATATA似乎和原始的38bp野生型區域一樣有效地終止轉錄,而TAGATATATATGTAA和TACATA效率差些,TTTTTTTATA幾乎沒有效率。所有這些序列在反方向時沒有終止轉錄功能。不幸的是幾乎沒有其他真核表達系統轉錄終止序列方面的信息。
內含子對幾個哺乳動物基因的正常表達是必需的,包括Beta-球蛋白、SV40 late mRNA和二氫葉酸還原酶基因。單子葉植物細胞充分表達乙醇脫氫酶的cDNA拷貝、報告基因氯霉素乙酰轉移酶、Beta葡萄糖苷酸酶和其他缺乏內含子的基因時也依賴內含子。轉錄區域內引入內含子可以通過未確定的轉錄后機制增強表達。(免疫球蛋白基因)內含子可能也包含轉錄增強子,因此通過轉錄機制增強表達。
總的來講,如果存在某些DNA序列,真核異源蛋白表達可能是個難題。為避免劇烈的表達減少,需要對基因進行掃描,確認是否含上述提及的富含AT的序列。而且,在幾個真核系統表達無內含子基因可能需要引入內含子以實現外源蛋白的充分表達。