簡介
官網(wǎng):https://nanoporetech.com/
優(yōu)勢如下:
- Direct sequencing of native DNA/RNA, or samples that have been amplified with PCR/other methods 直接測序
- REAL Real-time 真正的實(shí)時(shí)性
- No capital cost required 無需對測序設(shè)備的資金投入
- Read any length of DNA/RNA - short to ultra-long 超長讀長
- Scalable to portable or desktop 可擴(kuò)展性,便攜式或臺式測序儀
- Simple & rapid, or automated, library prep 10分鐘文庫制備
- High yields for large genomes 對大基因組的高數(shù)據(jù)量測序
任何人、任何地點(diǎn)、能對任何生物進(jìn)行分析
MinION is the only portable, real-time device for DNA and RNA sequencing, putting you in control of your sequence data. 只有手機(jī)大小,測序速度快

MinIon.jpg
可以應(yīng)用到太空、海底的測序工作,可以說是世界上最高科技的產(chǎn)物
MinION一次最多可以產(chǎn)出30G的數(shù)據(jù),這是人基因組的10倍(我們一般認(rèn)為,當(dāng)一個(gè)測序儀一次測序能夠覆蓋人的全基因組時(shí),這個(gè)測序儀就合格了)目前MinION測序長度達(dá)到150kb。在未來一段時(shí)間,可以期許其測序長度可以得到更大提升。
而PromethION的規(guī)模更大,比如群體范圍的、植物基因組的,一次可以運(yùn)行48張芯片。每一張芯片都能按需要全部或獨(dú)立運(yùn)行。單張測序芯片內(nèi)部最高通量200G左右,這樣一次最多就可以產(chǎn)出9.6T的數(shù)據(jù)。假設(shè)每個(gè)人測30G數(shù)據(jù),那么PromethION一次就可以測320個(gè)人的全基因組。

promethION.jpg
納米孔技術(shù)三大難題
納米孔材料:單鏈DNA直徑只有1nm左右
堿基識別精度:堿基是非常小的分子
控制堿基流動(dòng)速度
不同于HiSeq2000這種設(shè)備依賴復(fù)雜的光學(xué)系統(tǒng),MinION基于電信號,因此可以做到很小的體積
幾種測序方案的比較
許多二代測序技術(shù)基于熒光信號,但單個(gè)堿基的熒光信號非常弱,因此需要進(jìn)行擴(kuò)增(一般要PCR),PCR帶來的技術(shù)局限就是PCR限制了測序讀長,PCR帶來擴(kuò)增的偏向性,比如GC的偏向
不過光信號的優(yōu)點(diǎn)是,堿基一個(gè)一個(gè)識別(解決同聚物的問題,納米孔測序可能存在同聚物識別問題),信號足夠強(qiáng),準(zhǔn)確率相對高。
Pacbio的文庫比較特殊,是環(huán)狀的,它雖然是基于光信號但測序錯(cuò)誤率還是比較高的因?yàn)槭菃畏肿有盘枺梢酝ㄟ^增加環(huán)狀測序cycle增加覆蓋度來盡可能彌補(bǔ)。測序數(shù)據(jù)分析參考:https://zhuanlan.zhihu.com/p/77547922
視頻可以參考:https://www.bilibili.com/video/BV1f7411n7zU?p=23
如下是Pacbio的文庫結(jié)構(gòu),聚合酶在分子上可以反復(fù)跑多次,充分反映了長讀長的特點(diǎn)。

PacBio.jpg
納米孔測序是目前唯一使用電信號進(jìn)行測序的設(shè)備。速度快(比如大大節(jié)省建庫的時(shí)間),其他優(yōu)勢在簡介中也提到過,而且也只有這個(gè)技術(shù)可以實(shí)現(xiàn)RNA的直接測序(也可以直接識別U,不用反轉(zhuǎn)錄)[甚至以后氨基酸序列直接測序也可以實(shí)現(xiàn)]
使用電信號的缺點(diǎn):只測序單個(gè)分子,目前準(zhǔn)確性較低。無法準(zhǔn)確識別同聚物的重復(fù)堿基個(gè)數(shù),存在插入確實(shí)錯(cuò)誤
Nanopore測序原理
在一個(gè)高電阻膜上嵌入一個(gè)蛋白通道,只容許一個(gè)DNA分子通過

原理.jpg
納米孔兩側(cè)存在電壓,DNA鏈在馬達(dá)蛋白的牽引下解螺旋,當(dāng)有堿基通過時(shí)引起電流變化,不同的分子通過納米孔時(shí)會對電流產(chǎn)生不同的干擾。
建庫就是在DNA接頭的兩端加上馬達(dá)蛋白,馬達(dá)蛋白控制DNA的流速,這個(gè)速度是可以控制的
1D測序就是測單獨(dú)一條鏈,2D測序類似illumina的PE測序,pairwise alignment, 它們組合成2D read
1D2連接試劑盒的特殊接頭可以使得正義鏈測完以后互補(bǔ)鏈隨之進(jìn)入同一個(gè)納米孔進(jìn)行測序,用于序列的自我校正。
文庫構(gòu)建
建庫需要弄清幾個(gè)問題:
DNA還是RNA?
是否要PCR? 稀有樣本只能PCR,達(dá)不到input要求
是否加barcode?混樣測序降低成本,數(shù)據(jù)最大化利用,而且可以避免芯片的批次效應(yīng)
-
1D測序,2D測序還是1D2測序?
imageRNA試劑盒.jpg
Basecalling
Basecalling就是把堿基的電信號值轉(zhuǎn)換成我們需要的堿基序列
信號值長這樣:“剪不斷,理還亂”

squigle.jpg
每秒可以流過450個(gè)堿基,5個(gè)堿基為一組(kmer),也就是這一組共同產(chǎn)生一個(gè)信號值,4的5次方,1024種組合,結(jié)合訓(xùn)練集,像破譯密碼一樣,破譯序列。但實(shí)際情況更復(fù)雜,可能4個(gè)一組或者6個(gè)一組,還可能有甲基化對信號的干擾。
這就是用已知信息推測未知信息的方法,機(jī)器學(xué)習(xí)。比如可以考慮HMM(隱馬模型),觀測值是信號,隱狀態(tài)是對應(yīng)堿基。
basecalling的算法準(zhǔn)確性在逐漸提升
fast5文件格式
fast5格式是nanopore測序輸出的結(jié)果文件格式,擴(kuò)展名為.fast5。fast5是hdf5文件格式的一種變種,而HDF(Hierarchical Data Format),是一種設(shè)計(jì)用于存儲和組織大量數(shù)據(jù)的文件格式,一般擴(kuò)展名為.hdf5或.h5,表示現(xiàn)在使用的版本是第五個(gè)版本。這是一種分級的數(shù)據(jù)文件,可以存儲不同類型的圖像和數(shù)碼數(shù)據(jù)的文件格式,并且可以在不同類型的機(jī)器上傳輸,同時(shí)還有統(tǒng)一處理這種文件格式的函數(shù)庫。fast5里面可以包含很多的內(nèi)容,并且可以繼續(xù)添加。簡單理解,這種文件類似于一個(gè)經(jīng)過壓縮的文件夾,里面包含很多文件,如下圖所示:

fast5.jpg
nanopore測序過程中,一個(gè)納米孔測序完一條序列,則可以輸出一個(gè)fast5文件,一個(gè)MinION的flowcell就生成10-20Gb的數(shù)據(jù)量,有幾百萬的條reads,這百萬千萬級別的文件處理就是一個(gè)大麻煩,需要反復(fù)打開關(guān)閉IO,完成一次文件拷貝和統(tǒng)計(jì)要花很長時(shí)間。19年以前的fast5文件是一條序列一個(gè)fast5文件,現(xiàn)在新的MinKNOW做了升級,可以設(shè)定生成multi_fast5文件,一個(gè)fast5包含的reads數(shù)目可以自己設(shè)定,一般4,000。
參考:http://www.360doc.com/content/19/1108/07/52645714_871804718.shtml
- fast5格式作為Nanopore測序直接的輸出格式,記錄電流隨時(shí)間變化的情況。還包括納米孔的狀況比如電壓、溫度
- 電流的變化記錄了通過的堿基,及堿基上的修飾信息
- 修飾信息和堿基通過速度對識別精度有影響
- 可以使用HDFview軟件直接打開
- 實(shí)時(shí)分析使用GUI軟件MinKNOW,其中的堿基識別模塊GUPPY具備命令行版本可單獨(dú)進(jìn)行本地basecalling,輸出fastq文件
- 堿基識別算法基于機(jī)器學(xué)習(xí)進(jìn)行訓(xùn)練,更新速度很快
fast5相比fastq非常消耗存儲。這是最大缺點(diǎn),因?yàn)橛泻芏鄊eta信息
納米孔測序錯(cuò)誤率高嗎
錯(cuò)誤率從最開始的40%現(xiàn)在最少已降低到5%
錯(cuò)誤來源
- ATCG堿基化學(xué)結(jié)構(gòu)相似,通過電信號不易區(qū)分
- 每個(gè)堿基只測一次(頂多再測到互補(bǔ)鏈,2次)
- 每次檢測到的信號不是單個(gè)堿基,而是幾個(gè)堿基共同的信號
- 發(fā)生了甲基化會對電流產(chǎn)生干擾,這使得堿基識別更加復(fù)雜,前面有提到
- 化學(xué)反應(yīng)體系影響,考慮到ATP酶,馬達(dá)蛋白的活性問題
減少錯(cuò)誤
- 提高納米孔性能,比如R10新型納米孔芯片有助于解決同聚物錯(cuò)誤率的問題
- 建庫方法
- 改善堿基識別算法
- 開發(fā)測序后的堿基糾錯(cuò)算法
納米孔測序黑科技
怎么獲得想要的基因區(qū)域的序列信息,比如腫瘤研究,不需要基因組全測
獲得病毒的基因組,但是測的大部分都是宿主的序列
PCR擴(kuò)增,外顯子捕獲,CRISPR-Cas9技術(shù)捕獲目標(biāo)序列(Targeted nanopore sequencing with Cas9-guided adapter ligation,不過可能脫靶,需要很多時(shí)間來測試)
納米孔有一種靈活性采樣方法(Adaptive sampling),沒有感興趣區(qū)域時(shí)可以反向電壓讓DNA鏈彈出,空出的納米孔用于下一條序列分析,有感興趣的則繼續(xù)測下去。
因?yàn)槭菍?shí)時(shí)的,所以可以實(shí)時(shí)比對產(chǎn)出的序列,如果能比對上感興趣的目標(biāo)序列則繼續(xù),否則彈出。比如選擇性富集外顯子。但堿基識別一定要快(450bp/s),不然納米孔里已經(jīng)產(chǎn)生很多數(shù)據(jù)了。當(dāng)然還有直接使用原始信號進(jìn)行富集的UNCALLED。
納米孔測序價(jià)格
這個(gè)價(jià)格以后可能會變,新手套餐目前是17000多元,包括一臺小測序儀、2張測序芯片、快速建庫試劑盒等,可以上官網(wǎng)查看。新手套餐每個(gè)用戶只能領(lǐng)取一次。
其實(shí)最值錢的還是測序芯片,8000-9000一張,做的好2張芯片夠測一個(gè)人的基因組,做的不好可能2張芯片浪費(fèi)了(質(zhì)檢出問題、測序過程出問題,納米孔被堵塞導(dǎo)致有活性的納米孔大大較少等等),就只剩下一個(gè)測序儀玩具。
原文
Nanopore測序技術(shù)
