21.什么是RPKM、FPKM
RPKM,Reads Per Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]: 每1百萬個map上的reads中map到外顯子的每1K個堿基上的reads個數。假如有1百萬個reads映射到了人的基因組上,那么具體到每個外顯 子呢,有多少映射上了呢,而外顯子的長度不一,那么每1K個堿基上又有多少reads映射上了呢,這大概就是這個RPKM的直觀解釋。
如果對應特定基因的話,那么就是每1000000 mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的readTotal exon reads,映射到外顯子上總的reads個數。
這個是映射到某個區域上的reads個數,這個區域或者是已知注釋的基因或者跨兩個外顯子的邊界或者是某個 基因已經注釋的轉錄本的內含子、外顯子。對于真核生物來說,外顯子和它們自己內部的關系由某類型的mRNA來注釋。
計算時,計算所有某個基因已注釋的所有外顯子長度的總和。即使某個基因以多種注釋的轉錄本呈現,這個外顯子在求和時只被包含 一次。即使部分重疊的外顯子共享相同的區域,重疊的外顯子以其總長來計算。report).map的reads總和。映射到某個基因上的所有reads總數。因此這包含所有的唯一映射到這個區域上的reads。
舉例:比如對應到該基因的read有1000個,總reads個數有100萬,而該基因的外顯子總長為5kb,那么它的RPKM 為:10^9*1000(reads個數)/10^6(總reads個數)*5000(外顯子長度)=200或者:1000(reads個數)/1(百 萬)*5(K)=200這個值反映基因的表達水平。
FPKM(fragments per kilobase of exon per million fragments mapped). FPKM與RPKM計算方法基本一致。不同點就是FPKM計算的是fragments,而RPKM計算的是reads。Fragment比read的含義 更廣,因此FPKM包含的意義也更廣,可以是pair-end的一個fragment,也可以是一個read。
22.什么是轉錄本重構
用測序的數據組裝成轉錄本。有兩種組裝方式:1,de-novo構建;2,有參考基因組重構。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連接成一個更長的序列,經過不斷的延伸, 拼成一個個的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構,是指先將 read貼回到基因組上,然后在基因組通過reads覆蓋度,junction位點的信息等得到轉錄本,常用工具包括scripture、 cufflinks。
23.什么是genefusion
將基因組位置不同的兩個基因中的一部分或全部整合到一起,形成新的基因,稱作融合基因,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。
24.什么是表達譜
基因表達譜(geneexpression profile):指通過構建處于某一特定狀態下的細胞或組織的非偏性cDNA文庫,大規模cDNA測序,收集cDNA序列片段、定性、定量分析其 mRNA群體組成,從而描繪該特定細胞或組織在特定狀態下的基因表達種類和豐度信息,這樣編制成的數據表就稱為基因表達譜。