在RNA-seq中,某一段基因區(qū)域內(nèi)的read counts取決于測序的深度和基因的長度;基因越長、測序深度越深,比對到該基因所在區(qū)域的read counts數(shù)目就會相對越多。因此在比較不同樣本中基因的差異表達時,首先需要對read counts數(shù)據(jù)進行標準化,即對基因長度和測序深度進行標準化。目前常用RPKM (Reads Per Kilobase Million), FPKM (Fragments Per Kilobase Million) 和 TPM (Transcripts Per Million)作為標準化數(shù)值。
RPKM (Reads Per Kilobase Million)
RPKM的計算分兩步:
- 測序深度標準化
- per million scaling factors : 每個樣本中reads的總數(shù)并除以10^6
- 計算reads per million (RPM):每個reads數(shù)除以上面得到的“per million scaling factors”,得到對應(yīng)基因在每百萬reads中所占比例;
- 基因長度標準化
- RPM 除以對應(yīng)基因的長度(通常是所有外顯子長度的總和,以kb為單位),得到每百萬reads每一千堿基對中包含的reads數(shù),即RPKM。
FPKM (Fragments Per Kilobase Million)
FPKM與RPKM的計算過程相同,只是RPKM用于單端測序結(jié)果,F(xiàn)PKM用于雙端測序結(jié)果。
TPM (Transcripts Per Kilobase Million)
TPM 與RPKM/FPKM的區(qū)別在于:TPM先消除基因長度的影響,再消除測序深度的影響。
其計算分兩步:
- 基因長度標準化
- 計算RPK (reads per kilobase) : 將每個read counts除以對應(yīng)基因的長度(外顯子區(qū)域的長度,單位為kb),得到每千個堿基對應(yīng)的reads數(shù)。
- 測序深度標準化
- per million scaling factors: 每一個樣本中的RPK加起來的總數(shù)除以10^6;
- TPM: 用RPK除以“per million scaling factors”。
由計算公式可知,每一個樣本中所有基因的TPM之和都等于10^6, 每個基因的均值都等于10^6/N(N為基因總數(shù))。由于每個樣本總的TPM值是相同的,這樣便于樣本間基因差異的比較。