NGS020 測序數(shù)據(jù)量估算

1.單端測序

數(shù)據(jù)量=reads長度 × reads個數(shù)

2.雙端測序

數(shù)據(jù)量=單端reads長度 × 單端reads個數(shù) * 2
通常測序數(shù)據(jù)量的單位都是用“G"表示,例如1G表示10億個堿基,換算關(guān)系為1Gb = 10^3 Mb = 10^6 Kb = 10^9 Base(注意此處的單位與數(shù)據(jù)存儲單位進行區(qū)分)
此外,測序數(shù)據(jù)量還有另外一種表示方式,即cluster。一個cluster表示一個DNA片段。比如說某一個樣本測序數(shù)據(jù)量為30M 的 cluster,如果采用雙端測序技術(shù),每個cluster從兩端都測一次,每次測150bp, 所以就會得到30M×2=60M的reads數(shù),則測序數(shù)據(jù)量即為60M×150=9G的堿基數(shù)。

3.測序深度(Sequencing depth)

是指測序得到的堿基總量(bp)與目標(biāo)基因組大小的比值,即測序深度=數(shù)據(jù)量大小 / 目標(biāo)基因組大小?;蛘呃斫鉃槟繕?biāo)基因組區(qū)間內(nèi)中每個堿基被測序到的平均次數(shù),如測序數(shù)據(jù)量為1G,測序的基因組大小為1M,那么測序深度為1G/1M=1000×。

4.測序覆蓋度(Sequencing coverage)

是指測序獲得的序列占整個基因組的比例?;蛘呖梢岳斫鉃槟繕?biāo)基因組上至少被檢測到1次的區(qū)域(或者是堿基),占整個基因組的比例。
由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個細菌基因組測序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測序獲得的。
測序深度與基因組覆蓋度之間是一個正相關(guān)的關(guān)系,測序帶來的錯誤率或假陽性結(jié)果會隨著測序深度的提升而下降。
測序深度和覆蓋度的示意圖如下

測序深度及覆蓋度

我們的期望是基因組上每個堿基至少被測序到3次(對SNP檢測來說,一個位點至少要大于3次,才被認為有效)的概率大于0.99。那么多大的測序深度,才能滿足基因組中每個堿基被測序到3次的概率大于0.99。
假設(shè)基因組大小為G, 假定每次測序可從基因組任何位置上隨機檢測一個堿基。那么對于基因組上某一個固定堿基位置,在一次測序(每測一個堿基為一次測序)中,該位置被命中的概率為P (P=1/G)。由于基因組 DNA 很長,在一次測序中每個堿基被檢測到的概率很小。如測序量為10G時,即進行10^9次測序過程,每個堿基被檢測到的次數(shù)會顯著增加。我們知道,當(dāng)某事件出現(xiàn)的概率很小,而試驗次數(shù)N很大時,該事件符合泊松分布。泊松分布是一種離散型隨機變量的分布,它有一個特殊的性質(zhì)即期望和方差均為λ。泊松分布的概率由參數(shù)λ所確定,N次試驗中出現(xiàn) x 次的概率為
泊松分布

在實際應(yīng)用中, 對于所觀察的稀有事件,我們先利用樣本數(shù)據(jù)計算出平均值并用它來估計 λ。由于測序深度就是每個堿基被檢測到的平均次數(shù),因此可以看作成λ。根據(jù)這個公式,我們把x看作特定堿基被測到的次數(shù),λ看作基因組的測序深度。在測序深度為10的情況下,根據(jù)公式 P(0)=e^(- λ)=e(-10)=4.5e(-05),幾乎不太可能測不到。一個堿基至少被測到一次的概率為1-P(0)≈1。一個堿基至少被測到3次的概率為 1-P( 0)-P( 1) - P( 2) >0.99。
image.png

從圖1可以看出,10X的測序深度,能夠滿足基本的實驗?zāi)康摹?br> 因此只要確定了測序深度,測序數(shù)據(jù)量就很好計算了。數(shù)據(jù)量大小=測序深度*基因組大小。

REF

Bentley D R, Balasubramanian S, Swerdlow H, et al. Accurate whole human genome sequencing using reversible terminator chemistry.[J]. Nature, 2008, 456(7218): 53-59.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容