如果目前分離蛋白質組的最好技術是2-DE,那么隨之而來的挑戰是數百數千個蛋白如何被鑒定. 在這里,我們不考慮傳統的蛋白鑒定方法,如免疫印跡法、內肽的化學測序、已知或未知蛋白的comigration分析,或者在一個有機體中有意義的基因的過表達. 并不是因為這些方法無效,而是因為它們通常耗時、耗力,不適合高流通量的篩選. 目前,所選用的技術包括對于蛋白鑒定的圖象分析、微量測序;進一步對肽片段進行鑒定的氨基酸組分分析和與質譜相關的技術.
(1) 圖象分析技術(Image analysis). “滿天星”式的2-DE圖譜分析不能依靠本能的直覺,每一個圖象上斑點的上調、下調及出現、消失,都可能在生理和病理狀態下產生,必須依靠計算機為基礎的數據處理,進行定量分析. 在一系列高質量的2-DE凝膠產生(低背景染色,高度的重復性)的前提下,圖象分析包括斑點檢測、背景消減、斑點配比和數據庫構建. 首先,采集圖象通常所用的系統是電荷耦合CCD(charge coupled device)照相機;激光密度儀(laser densitometers)和Phospho或Fluoro?imagers,對圖象進行數字化. 并成為以象素(pixels)為基礎的空間和網格. 其次,在圖象灰度水平上過濾和變形,進行圖象加工,以進行斑點檢測. 利用Laplacian,Gaussian,DOG(difference of Gaussians) opreator使有意義的區域與背景分離,精確限定斑點的強度、面積、周長和方向. 圖象分析檢測的斑點須與肉眼觀測的斑點一致. 在這一原則下,多數系統以控制斑點的重心或最高峰來分析,邊緣檢測的軟件可精確描述斑點外觀,并進行邊緣檢測和鄰近分析,以增加精確度. 通過閾值分析、邊緣檢測、銷蝕和擴大斑點檢測的基本工具還可恢復共遷移的斑點邊界. 以PC機為基礎的軟件Phoretix-2D正挑戰古老的Unix為基礎的2-D分析軟件包. 第三,一旦2-DE圖象上的斑點被檢測,許多圖象需要分析比較、增加、消減或均值化. 由于在2-DE中出現100%的重復性是很困難的,由此凝膠間的蛋白質的配比對于圖象分析系統是一個挑戰. IPG技術的出現已使斑點配比變得容易. 因此,較大程度的相似性可通過斑點配比向量算法在長度和平行度觀測. 用來配比的著名軟件系統包括Quest,Lips,Hermes,Gemini等,計算機方法如相似性、聚類分析、等級分類和主要因素分析已被采用,而神經網絡、子波變換和實用分析在未來可被采用. 配比通常由一個人操作,其手工設定大約50個突出的斑點作為“路標”,進行交叉配比. 之后,擴展至整個膠. 例如:精確的PI和MW(分子量)的估計通過參考圖上20個或更多的已知蛋白所組成的標準曲線來計算未知蛋白的PI和MW. 在凝膠圖象分析系統依據已知蛋白質的pI值產生PI網絡,使得凝膠上其它蛋白的PI按此分配. 所估計的精確度大大依賴于所建網格的結構及標本的類型. 已知的未被修飾的大蛋白應該作為標志,變性的修飾的蛋白的PI估計約在±0.25個單位. 同理,已知蛋白的理論分子量可以從數據庫中計算,利用產生的表觀分子量的網格來估計蛋白的分子量. 未被修飾的小蛋白的錯誤率大約30%,而翻譯后蛋白的出入更大. 故需聯合其他的技術完成鑒定. ?
(2) 微量測序(microsequencing). 蛋白質的微量測序已成為蛋白質分析和鑒定的基石,可以提供足夠的信息. 盡管氨基酸組分分析和肽質指紋譜(PMF)可鑒定由2-DE分離的蛋白,但最普通的N-末端Edman降解仍然是進行鑒定的主要技術. 目前已實現蛋白質微量測序的自動化. 首先使經凝膠分離的蛋白質直接印跡在PVDF膜或玻璃纖維膜上,染色、切割,然后直接置于測序儀中,可用于subpicomole水平的蛋白質的鑒定. 但有幾點需注意:Edman降解很緩慢,序列以每40 min 1個氨基酸的速率產生;與質譜相比,Edman降解消耗大;試劑昂貴,每個氨基酸花費3~4$. 這都說明泛化的Edman降解蛋白質不適合分析成百上千的蛋白質. 然而,如果在一個凝膠上僅有幾個有意義的蛋白質,或者如果其他技術無法測定而克隆其基因是必需的,則需要進行泛化的Edman降解測序.
近來,應用自動化的Edman降解可產生短的N-末端序列標簽,這是將質譜的序列標簽概念用于Edman降解,業已成為一種強有力的蛋白質鑒定. 當對Edman的硬件進行簡單改進,以迅速產生N-末端序列標簽達10~20個/d,序列檢簽將適于在較小的蛋白質組中進行鑒定.若聯合其他的蛋白質屬性,如氨基酸組分分析、肽質質量、表現蛋白質分子量、等電點,可以更加可信地鑒定蛋白質. 選擇BLAST程序,可與數據庫相配比. 目前,采用一種Tagldent的檢索程序,還可以進行種間比較鑒定,又提高了其在蛋白質組研究中的作用.
(3) 與質譜(mass spectrometry)相關的技術. 質譜已成為連接蛋白質與基因的重要技術,開啟了大規模自動化的蛋白質鑒定之門. 用來分析蛋白質或多肽的質譜有兩個主要的部分,1)樣品入機的離子源,2)測量被介入離子的分子量的裝置. 首先是基質輔助激光解吸附電離飛行時間質譜(MALDI-TOF)為一脈沖式的離子化技術. 它從固相標本中產生離子,并在飛行管中測其分子量. 其次是電噴霧質譜(ESI-MS),是一連續離子化的方法,從液相中產生離子,聯合四極質譜或在飛行時間檢測器中測其分子量. 近年來,質譜的裝置和技術有了長足的進展. 在MALDI-TOF中,最重要的進步是離子反射器(ion reflectron)和延遲提取(delayed ion extraction),可達相當精確的分子量. 在ESI-MS中,納米級電霧源(nano-electrospray source)的出現使得微升級的樣品在30~40 min內分析成為可能. 將反相液相色譜和串聯質譜(tandem MS)聯用,可在數十個picomole的水平檢測;若利用毛細管色譜與串聯質譜聯用,則可在低picomole到高femtomole水平檢測;當利用毛細管電泳與串聯質譜連用時,可在小于femtomole的水平檢測. 甚至可在attomole水平進行. 目前多為酶解、液相色譜分離、串聯質譜及計算機算法的聯合應用鑒定蛋白質. 下面以肽質指紋術和肽片段的測序來說明怎樣通過質譜來鑒定蛋白質.
1)肽質指紋術(peptide mass fingerprint, PMF)是由Henzel等人于1993年提出. 用酶(最常用的是胰酶)對由2-DE分離的蛋白在膠上或在膜上于精氨酸或賴氨酸的C-末端處進行斷裂,斷裂所產生的精確的分子量通過質譜來測量(MALDI-TOF-MS,或為ESI-MS),這一技術能夠完成的肽質量可精確到0.1個分子量單位. 所有的肽質量最后與數據庫中理論肽質量相配比(理論肽是由實驗所用的酶來“斷裂”蛋白所產生的). 配比的結果是按照數據庫中肽片段與未知蛋白共有的肽片段數目作一排行榜,“冠軍”肽片段可能代表一個未知蛋白.若冠亞軍之間的肽片段存在較大差異,且這個蛋白可與實驗所示的肽片段覆蓋良好,則說明正確鑒定的可能性較大.
2)肽片段(peptide fragment)的部分測序. 肽質指紋術對其自身而言,不能揭示所衍生的肽片段或蛋白質. 為進一步鑒定蛋白質,出現了一系列的質譜方法用來描述肽片段. 用酶或化學方法從N-或C-末端按順序除去氨基酸,形成梯形肽片段(ladder peptide). 首先以一種可控制的化學模式從N-末端降解,可產生大小不同的一系列的梯形肽片段,所得一定數目的肽質量由MALDI-TOF-MS測量. 另一種方法涉及羧基肽酶的應用,從C-末端除去不同數目的氨基酸形成肽片段. 化學法和酶法可產生相對較長的序列,其分子量精確至以區別賴氨酸(128.09)和谷氨酰胺(128.06). 或者,在質譜儀內應用源后衰變(post-source decay, PSD)和碰撞誘導解離(collision-induced dissociation, CID),目的是產生包含有僅異于一個氨基酸殘基質量的一系列肽峰的質譜. 因此,允許推斷肽片段序列. 肽片段PSD的分析在MALDI反應器上能產生部分序列信息. 首先進行肽質指紋鑒定. 之后,一個有意義的肽片段在質譜儀被選作“母離子”,在飛行至離子反應器的過程中降解為“子離子”. 在反應器中,用逐漸降低的電壓可測量至檢測器的不同大小的片段. 但經常產生不完全的片段. 現在用肽片段來測序的方法始于70年代末的CID,可以一個三聯四極質譜ESI-MS或MALDI-TOF-MS聯合碰撞器內來完成. 在ESI-MS中,由電霧源產生的肽離子在質譜儀的第一個四極質譜中測量,有意義的肽片段被送至第二個四極質譜中,惰性氣體轟擊使其成為碎片,所得產物在第三個四極質譜中測量. 與MALDI-PSD相比,CID穩定、強健、普遍,肽離子片段基本沿著酰胺鍵的主架被轟擊產生梯形序列. 連續的片段間差異決定此序列在那一點的氨基酸的質量. 由此,序列可被推測. 由CID圖譜還可獲得的幾個序列的殘基,叫做“肽序列標簽”. 這樣,聯合肽片段母離子的分子量和肽片段距N-、C?端的距離將足以鑒定一個蛋白質.
(4) 氨基酸組分分析. 1977年首次作為鑒定蛋白質的一種工具,是一種獨特的“腳印”技術. 利用蛋白質異質性的氨基酸組分特征,成為一種獨立于序列的屬性,不同于肽質量或序列標簽. Latter首次表明氨基酸組分的數據能用于從2-DE凝膠上鑒定蛋白質. 通過放射標記的氨基酸來測定蛋白質的組分,或者將蛋白質印跡到PVDF膜上,在155℃進行酸性水解1 h,通過這一簡單步驟的氨基酸的提取,每一樣品的氨基酸在40min內自動衍生并由色譜分離,常規分析為100個蛋白質/周. 依據代表兩組分間數目差異的分數,對數據庫中的蛋白質進行排榜,“冠軍”蛋白質具有與未知蛋白質最相近的組分,考慮冠亞軍蛋白質分數之間的差異,僅處于冠軍的蛋白質的可信度大. Internet上存在多個程序可用于氨基酸組分分析,如AACompIdent,ASA,FINDER,AAC-PI,PROP-SEARCH等,其中,在PROP-SEARCH中,組分、序列和氨基酸的位置被用來檢索同源蛋白質. 但仍存在一些缺點,如由于不足的酸性水解或者部分降解會產生氨基酸的變異. 故應聯合其他的蛋白質屬性進行鑒定.