前言,今天剛好在群里看到有人問(wèn)“請(qǐng)問(wèn)10X一個(gè)樣本測(cè)多少個(gè)G比較好”,群主給出了答復(fù),但是我對(duì)300這個(gè)數(shù)怎么來(lái)的還是不理解,出于好奇心,于是去查了一些資料,最終理清楚了。
問(wèn)題來(lái)源:

正文
首先,需要明確一點(diǎn): 數(shù)據(jù)量大小其實(shí)就是堿基的個(gè)數(shù)。
那么,數(shù)據(jù)量大小的計(jì)算方法是:
1. 單端測(cè)序
數(shù)據(jù)量=reads長(zhǎng)度 * reads個(gè)數(shù) (reads長(zhǎng)度很容易得知,reads個(gè)數(shù)等于測(cè)序所得到的fastq文件的總reads數(shù))
2. 雙端測(cè)序
數(shù)據(jù)量=單端reads長(zhǎng)度 * 單端reads個(gè)數(shù) * 2
通常測(cè)序數(shù)據(jù)量的單位都是用“G"表示,例如1G。需要強(qiáng)調(diào)的是,這里所說(shuō)的G不是說(shuō)測(cè)序文件在硬盤(pán)上的大小為1G,而是表示10億個(gè)堿基。這是如何計(jì)算的呢?
首先,我們需要知道1個(gè)堿基=1 byte ;
其次是,1kb=10^3 byte 1M=10^6 byte 1G=10^9 byte。
所以,1G的數(shù)據(jù)量=10^9=10億個(gè)堿基。
此外,測(cè)序數(shù)據(jù)量還有另外一種表示方式,即cluster。一個(gè)cluster表示一個(gè)DNA片段(對(duì)于RNA-seq,則表示一個(gè)片段化后的RNA分子)。比如說(shuō)某一個(gè)樣本測(cè)序數(shù)據(jù)量為30M 的 cluster。如果采用雙端測(cè)序技術(shù),每個(gè)cluster從兩端都測(cè)一次,每次測(cè)150bp, 所以就會(huì)得到30M * 2=60M的reads數(shù),然后reads數(shù)乘以每條read的長(zhǎng)度就是我們最后的測(cè)序數(shù)據(jù)量(堿基數(shù)),即為60M * 150=9G的堿基數(shù)。
我們知道了測(cè)序數(shù)據(jù)量是如何計(jì)算的,那么問(wèn)題來(lái)了,對(duì)于一個(gè)測(cè)序樣本,需要測(cè)多少G 的數(shù)據(jù)量才能滿足實(shí)驗(yàn)要求呢?要回答這個(gè)問(wèn)題,首先要搞清楚幾個(gè)概念。
1.測(cè)序深度(Sequencing depth):是指測(cè)序得到的堿基總量(bp)與基因組大小的比值,即測(cè)序深度=數(shù)據(jù)量大小 / 參考基因組大小?;蛘呃斫鉃榛蚪M中每個(gè)堿基被測(cè)序到的平均次數(shù)。
2. 測(cè)序覆蓋度(Sequencing coverage):是指測(cè)序獲得的序列占整個(gè)基因組的比例?;蛘呖梢岳斫鉃榛蚪M上至少被檢測(cè)到1次的區(qū)域(或者是堿基),占整個(gè)基因組的比例。
通常來(lái)說(shuō),測(cè)序深度與基因組覆蓋度之間是一個(gè)正相關(guān)的關(guān)系,測(cè)序帶來(lái)的錯(cuò)誤率或假陽(yáng)性結(jié)果會(huì)隨著測(cè)序深度的提升而下降。在測(cè)序過(guò)程中,10X的測(cè)序深度就能夠滿足基本的實(shí)驗(yàn)?zāi)康摹?/p>
以上是一些背景知識(shí),回歸正題,當(dāng)我們想做一個(gè)單細(xì)胞樣本的測(cè)序,該測(cè)多少數(shù)據(jù)量呢?以10X為例。
10X官方有PBMC單細(xì)胞測(cè)試數(shù)據(jù),4000K細(xì)胞,每個(gè)細(xì)胞平均是50K的reads。
我們一般都在公司測(cè)序,那么公司的人一定會(huì)推薦你每個(gè)樣本是3~8K細(xì)胞,平均每個(gè)細(xì)胞15-50K的reads這樣的測(cè)序策略 。
以上我們就知道了對(duì)于單個(gè)單細(xì)胞樣本,平均每個(gè)細(xì)胞需要測(cè)序的reads數(shù),即15-50K reads/cell,通常為50K reads/cell。
為了得到總的數(shù)據(jù)量,我們必須還要知道reads長(zhǎng)度,因?yàn)槲覀兊挠?jì)算公式就是
雙端測(cè)序:數(shù)據(jù)量=單端reads長(zhǎng)度 * 單端reads個(gè)數(shù) * 2
為了知道reads長(zhǎng)度,我們就不得不去查一查,10X單細(xì)胞測(cè)序的測(cè)序模式是什么。查閱得知,其測(cè)序模式為PE150。這里的PE150就是指雙端測(cè)序,每條read長(zhǎng)度150bp
那有同學(xué)就肯定會(huì)問(wèn)了,那單端測(cè)序呢,舉例:SE150,即 單端測(cè)序,每條read長(zhǎng)度150bp。
知道了這些,那最開(kāi)始的那個(gè)問(wèn)題就解決啦。
由于做的是10X單個(gè)單細(xì)胞樣本,測(cè)序模式為PE150。單個(gè)細(xì)胞需測(cè)序的reads數(shù)推薦為50K reads/cell,以10,000細(xì)胞為例。
數(shù)據(jù)量=150 * 50 * 1000 * 10000 * 2 = 300 * 50000 * 10000 = 150G
參考:如何估算測(cè)序數(shù)據(jù)量?
說(shuō)清楚你的單細(xì)胞轉(zhuǎn)錄組課題多少個(gè)樣品,測(cè)序數(shù)據(jù)量如何
測(cè)多少數(shù)據(jù)量?幾個(gè)G?多少reads?如何換算?