測(cè)序原理

2021.3.9
持續(xù)更新中。。。
主要參考:生信曲線、基因?qū)W苑


1. 第一代測(cè)序(Sanger測(cè)序)

關(guān)鍵詞:雙脫氧測(cè)序、末端終止測(cè)序

1.1 正常DNA的合成過程

在模板鏈和引物存在的條件下,核糖體RNA分別將四種脫氧核糖酸(dNTP)運(yùn)輸至引物末端。然后按照堿基互補(bǔ)配對(duì)原則脫水形成5'-3'磷酸二酯鍵。

DNA正常合成過程

1.2 Sanger測(cè)序原理

使用鏈終止法,即向反應(yīng)體系中同時(shí)加入脫氧核糖酸(dNTP)和雙脫氧核糖(ddNTP)。兩者均可隨機(jī)整合到模板鏈上形成DNA,但是ddNTP由于缺少羥基(-OH),在整合到模板鏈條上,反應(yīng)隨機(jī)終止。利用ddNTP的這一特點(diǎn),結(jié)合檢測(cè)電泳條帶或者利用光源信號(hào)傳導(dǎo)即可獲得序列。

ddNTP結(jié)合引物后不可繼續(xù)反應(yīng)

ddNTP隨機(jī)結(jié)合產(chǎn)生不同長度的條帶

每個(gè)體系分別電泳讀取信號(hào)

利用光信號(hào)轉(zhuǎn)換讀取

1.3 Sanger測(cè)序優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  • 方法簡(jiǎn)單,準(zhǔn)確率高,測(cè)序片段較長,一次可達(dá)1kb。

缺點(diǎn):

  • 成本高,通量低

2. 第二代測(cè)序(Illumina測(cè)序?yàn)槔?/h1>

關(guān)鍵詞:橋式PCR,可逆末端終止,高通量,邊合成邊測(cè)序

Illumina公司的Solexa和Hiseq兩個(gè)系列的機(jī)器是目前全球使用量最大的第二代測(cè)序機(jī)器,為了獲得完整的基因組,通常包括三個(gè)階段:測(cè)序、短序列比對(duì)和序列拼接。

三大階段

IIIumina測(cè)序數(shù)據(jù)的特點(diǎn):讀長短、具有一定的錯(cuò)誤率、深度高、reads之間具有pairend關(guān)系

2.1 測(cè)序

根據(jù)測(cè)序的流程大致分為三步,測(cè)序完成得到原始數(shù)據(jù)在進(jìn)入短序列拼接之前還會(huì)進(jìn)行質(zhì)量評(píng)估和控制等中間過程。


測(cè)序三大步

制備DNA基因組樣本時(shí),選擇單倍體、樣品的總量和DNA濃度OD需要達(dá)到要求,注意不要降解

2.1.1 第一步:構(gòu)建基因文庫

步驟一:利用超聲波將待測(cè)的DNA樣品打斷成小片段,通常為500bp左右。
步驟二:修復(fù)小片段為平末端,進(jìn)一步在平末端添加A堿基,形成黏性末端。
步驟三:在粘性末端添加adapter接頭、測(cè)序引物、index標(biāo)簽等。

構(gòu)建文庫過程

最終文庫形式

文庫:就是DNA片段的一個(gè)集合,將測(cè)序片段打斷之后就構(gòu)成了一個(gè)文庫,通常片段小于1kb的文庫稱為小片段文庫(pairend),大于1kb的文庫稱為大片段文庫(matepair)。文庫的大小又被成為insert size,可用于后續(xù)的拼接。

2.1.2 第二步:橋式PCR

步驟一:液體流過流動(dòng)池(Flowcell)之后,單條DNA序列會(huì)被固定到流動(dòng)池上。
步驟二:進(jìn)行多次橋式PCR擴(kuò)增。
步驟三:多余的DNA序列會(huì)被液體沖走,在流動(dòng)池上留下一簇一簇相同的DNA單鏈。

Flowcell

橋式PCR大致流程

橋式PCR的目的是為了增大信號(hào)源,便于檢測(cè),其詳細(xì)的原理可以參考:
Seurat_

2.1.3 第三步:測(cè)序

步驟一:向反應(yīng)體系中加入DNA聚合酶、接頭引物和帶有堿基特異熒光標(biāo)記的4種dNTP。
步驟二:合成第一個(gè)堿基后,不能正常進(jìn)行后續(xù)反應(yīng).
步驟三:清除剩余未使用的堿基和試劑。
步驟四:激發(fā)堿基熒光并收集信號(hào)。
步驟五:去除第一堿基的阻斷基團(tuán)和熒光基團(tuán)。
步驟六:循環(huán)進(jìn)行步驟一至步驟五。

每條序列需要進(jìn)行兩次測(cè)序,正向引物完成測(cè)序之后,會(huì)被液體沖走,然后利用反向引物進(jìn)行另一端的測(cè)序。

邊合成邊測(cè)序

雙末端測(cè)序

讀取信號(hào)類似于相同照片的疊加

2.1.4 測(cè)序飽和度評(píng)估

  • 目的:推測(cè)測(cè)序所需要的最小數(shù)據(jù)量,理論上10倍數(shù)據(jù)量已經(jīng)足夠,但是實(shí)際上還存在其他誤差,因此會(huì)高于這個(gè)數(shù)值。
    理論最小值

2.1.5 數(shù)據(jù)質(zhì)控

1. 兩個(gè)指標(biāo)

  • 堿基含量分布:測(cè)序后的GC含量要和基因組GC含量相同。
  • 堿基質(zhì)量分布:Q20堿基百分比(一般要求在90%以上),Q30堿基百分比(一般要求在85%以上)

Q20指這個(gè)位點(diǎn)的堿基的錯(cuò)誤率為百分之一,Q30為千分之一。

2. 用fastqc可以生成質(zhì)量控制報(bào)告

質(zhì)量報(bào)告對(duì)比

2.1.6 測(cè)數(shù)數(shù)據(jù)處理——過濾

  • 非基因組序列。包括adapter接頭、測(cè)序引物、index標(biāo)簽等。
  • N堿基過多的reads。通常N堿基的占比超過read的10%以上會(huì)被去除。
  • 低質(zhì)量reads。以Q20為標(biāo)準(zhǔn),低于一定的Q20比率會(huì)被去除。
  • 去除duplication。兩對(duì)完全一致的reads會(huì)去除一對(duì)。

注:

  1. pairend的reads只要有一條reads不滿足條件,兩條reads都需要去除。
  2. 在RNA-seq和16s測(cè)序過程中不能去除duplication,否則會(huì)丟失一些豐度信息。

2.2 測(cè)序拓展內(nèi)容

2.2.1 大片段文庫

實(shí)際上無論是大片段文庫或者小片段文庫,都無法完全測(cè)出一條read的全長。例如,Illumina構(gòu)建的小片段文庫為500bp,雙末端測(cè)序一般只會(huì)測(cè)得兩端各150bp左右的長度,中間的200bp是無法測(cè)得的。但是由于最初構(gòu)建文庫時(shí)是隨機(jī)打斷的,第一條read無法測(cè)序到中間的序列,后續(xù)的reads也會(huì)測(cè)得中間的序列。


1.png

1. 構(gòu)建大片段文庫的目的:
為了獲得reads之間的物理距離關(guān)系,方便后續(xù)的序列拼接。
2. 大片段文庫的測(cè)序過程:
步驟一: 大片段兩端加入帶生物標(biāo)記的序列進(jìn)行環(huán)化處理。
步驟二:后續(xù)步驟和小片段文庫測(cè)序類似

環(huán)化處理

大片段打斷成小片段測(cè)序

3. pairend和matepair文庫區(qū)別
測(cè)序的reads方向不一致,pairend相向,matepair相反。
pairend反向

matepair反向

2.2.2 測(cè)序注意事項(xiàng)

  • 不能一次性測(cè)序完整基因組,因?yàn)镻CR技術(shù)限制了讀長,同時(shí)從樣品中提取出的基因組很難保證完整性。

  • GC偏差會(huì)影響PCR,正常GC含量為35%~65%。

  • 選擇的文庫大小和reads讀長要協(xié)調(diào);在Denove拼接過程中,先使用小片段文庫,逐漸增大文庫;

  • 二代測(cè)序不能一直測(cè)下去,因?yàn)殡S著反應(yīng)進(jìn)行,后續(xù)的反應(yīng)條件發(fā)生了變化;同時(shí),在cluster過程中,由于堿基反應(yīng)的步調(diào)不一致現(xiàn)象(phasing),會(huì)導(dǎo)致誤差。


2.3 短序列比對(duì)

短序列比對(duì)就是將過濾好的reads重新定位到基因組上,這個(gè)過程也叫回貼(mapping)。


回貼

2.3.1 短序列比對(duì)的四種情況

一對(duì)一,無錯(cuò)配
一對(duì)一,有錯(cuò)配
一對(duì)多,無錯(cuò)配
多對(duì)多,有錯(cuò)配

2.3.2 短序列比對(duì)的應(yīng)用

1. 與自身基因組比對(duì)
1.1計(jì)算每個(gè)位點(diǎn)覆蓋深度
1.2 計(jì)算參考序列覆蓋比率
2. 與參考基因組比對(duì)
2.1 RNA測(cè)序計(jì)算基因表達(dá)量
2.2 變異檢測(cè)
2.3 宏基因組測(cè)序計(jì)算不同生物的豐度

2.3.3 基因差異表達(dá)計(jì)算

1. 基因結(jié)構(gòu)

基因結(jié)構(gòu)

2. 成熟mRNA

成熟mRNA

3. 基因表達(dá)差異的指標(biāo)
3.1 FoldChange,不同樣本中同一個(gè)基因表達(dá)水平的變化倍數(shù),即RPKM值的差值,差值越大,變化越大。
3.2 FDR矯正,F(xiàn)DR越小,差異約顯著。

注:

  1. 轉(zhuǎn)錄起始位點(diǎn)位于啟動(dòng)區(qū)與5‘UTR非翻譯區(qū)之間,翻譯起始位點(diǎn)位于 CDS起始密碼子。
  2. RPKM值消除了基因長度和測(cè)序量差異對(duì)計(jì)算基因表達(dá)的影響,可直接用于比較不同樣品間的基因表達(dá)差異(可變剪切用FPKM值)。

2.3.4 變異檢測(cè)

????單堿基的變換:轉(zhuǎn)換、顛換、缺失、插入

2.3.5 物種組成和豐度計(jì)算

步驟一:16s序列長度為1.5kb左右,不能一次性測(cè)通,采用雙末端測(cè)序得到不同的reads,質(zhì)控過濾,不能去除duplication。
步驟二:將兩條reads拼接成tags
步驟三:將不同的tags聚類成不同的OUT
步驟四:與16s數(shù)據(jù)庫進(jìn)行比對(duì),設(shè)置閾值。


2.4 序列拼接

????又稱為de nove拼接,將測(cè)序得到的reads輸入給拼接軟件,利用reads間的overlap進(jìn)行拼接。
????目前序列拼接的算法有兩種:一種是Overlap-Layout-Conesensus(常用于sanger等長片段拼接),另一種是De bruijn graph(常用于illumina等短序列拼接)。但是本質(zhì)都是基于序列間的overlap來進(jìn)行拼接。

常見名詞:

  • reads,測(cè)序直接得到的片段
  • pairend和matepair,文庫大小
  • insertsize,物理長度
  • kmer,將reads切割成更小的固定片段
  • contig,通過kmer之間的overlap連接成更長的片段(有時(shí)也指reads連接成contig)
  • scaffold,contigs之間通過pairend關(guān)系,連接成更長的片段

2.4.1 kmer值估計(jì)基因組大小

1. kmer定義

kmer

取reads的kmer就取兩次,正向取一次,反向互補(bǔ)會(huì)再取一次。

2. 利用kmer的分布圖估計(jì)基因組大小

kmer分布圖

2.4.2 基于德布萊英圖(De bruijn graph)算法拼接

1. 構(gòu)圖(gregraph)
即切kmer(13-127之間的奇數(shù)),去除頻數(shù)為1的kmer(kmer頻數(shù)為1,那么相應(yīng)的reads也只測(cè)得一次,這在高通量測(cè)序當(dāng)中是幾乎不可能的)
2. 構(gòu)建contig
利用不同kmer大小的片段間的overlap形成一個(gè)德布萊英圖,然后簡(jiǎn)化該圖,理論上該圖只有一個(gè)頭部和尾部,但是由于測(cè)序過程中,存在重復(fù)區(qū)域等情況。實(shí)際形成的德布萊英圖會(huì)有很多的頭部和尾部。然后去除較短的分支,就形成了很多的contigs,contigs彼此之間沒有overlap關(guān)系。

De bruijn graph

3. 構(gòu)建scaffold

  • 構(gòu)建過程
    通過reads之間的paired關(guān)系,將contig連接成更長的序列,就是scaffold。首先將測(cè)序的reads重新定位到contigs上,然后記錄下pairend的比對(duì)情況。落在同一contig用于計(jì)算insertsize,落在不同contig用于構(gòu)建scaffold。(例如:reads1比對(duì)到contig1的末尾150bp,reads2比對(duì)到contig2的起始150bp。而reads1和reads2之間的insetsize是500,那么contig1和contig2連接形成scaffold的過程中會(huì)有200bp的N堿基存在)

比對(duì)過程中要注意reads的方向問題

mapping

????通常比對(duì)上不同contig的pairend要有三對(duì)以上才能確定物理位置關(guān)系,進(jìn)一步連接成scaffold。


image.png
  1. 當(dāng)基因組中重復(fù)序列過多時(shí),pairend關(guān)系可能不足以確定contig之間的位置關(guān)系,此時(shí)需要用到matepair文庫。
  2. 拼接的策略:首先用小片段文庫,然后逐漸加入大片段文庫。但是一般情況下很難得到一條完整的基因組序列。
  • 特點(diǎn)
    ①scaffolds序列的方向并不一致,有的來自正義鏈,有的來自反義鏈(但都是5‘-3’)。
    ②scaffolds之間并沒有位置關(guān)系,只是有的軟件會(huì)按照大小順序輸出。
    ③scaffold里面可能存在N堿基,但是contig序列沒有N堿基。

4. 補(bǔ)洞
基因組上的洞,即gaps,是由N堿基構(gòu)成的。在由contigs形成scaffold過程中會(huì)產(chǎn)生gaps。

有關(guān)gap:

  1. N堿基數(shù)目由insertsize確定,但是不完全準(zhǔn)確
  2. N堿基來自基因組復(fù)雜區(qū)域(重復(fù),GC異常等區(qū)域),不容易拼接出來。
  • 補(bǔ)洞策略
    ①利用sanger測(cè)序長片段補(bǔ)洞
    ②若N區(qū)域過大(超過2k),可以用pacbio測(cè)序長片短補(bǔ)洞
    ③利用pairend關(guān)系補(bǔ)洞

3. 第三代測(cè)序

主要包括三種測(cè)序技術(shù),分別利用了光信號(hào)、電信號(hào)和化學(xué)信號(hào)的轉(zhuǎn)換

3.1 PacBio公司的SMAT

1. 原理概述
應(yīng)用了邊合成邊測(cè)序的思想,以SMRT芯片為測(cè)序載體,DNA聚合酶和模板結(jié)合,用4色熒光標(biāo)記 4 種堿基。在堿基配對(duì)階段,不同堿基的加入,會(huì)發(fā)出不同光,根據(jù)光的波長與峰值可判斷進(jìn)入的堿基類型。保持酶活性,區(qū)別反應(yīng)信號(hào)與周圍游離堿基熒光背景是關(guān)鍵技術(shù)。

2. 特點(diǎn)
讀長長,測(cè)序速度快,測(cè)序錯(cuò)誤率較高,達(dá)到15%,但是出錯(cuò)是隨機(jī)的,可以通過多次測(cè)序來進(jìn)行有效的糾錯(cuò)。

3.2 Oxford公司的Nanopore

1. 原理概述
根據(jù)堿基所影響的電流變化幅度的不同,設(shè)計(jì)了一種特殊的納米孔,孔內(nèi)共價(jià)結(jié)合有分子接頭。當(dāng)DNA堿基通過納米孔時(shí),它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強(qiáng)度,靈敏的電子設(shè)備檢測(cè)到這些變化從而鑒定所通過的堿基,是一種基于電信號(hào)而不是光信號(hào)的測(cè)序技術(shù)。

2. 特點(diǎn)
讀長很長,達(dá)到幾十kb,甚至100kb,錯(cuò)誤率在1%到4%之間,且是隨機(jī)錯(cuò)誤,通量較高,能夠直接讀取出甲基化的胞嘧啶。

3.3 Ion Torrent6

1. 原理概述
該技術(shù)使用一種布滿小孔的高密度半導(dǎo)體芯片(一個(gè)小孔就是一個(gè)測(cè)序反應(yīng)池)。當(dāng)DNA聚合酶把核苷酸聚合到延伸中的DNA鏈上時(shí),會(huì)釋放出一個(gè)氫離子,從而引起反應(yīng)池中的PH發(fā)生改變,位于池下的離子感受器將感受到氫離子信號(hào)直接轉(zhuǎn)化為數(shù)字信號(hào),從而讀出DNA序列。
2. 特點(diǎn)
成本相對(duì)較低,操作簡(jiǎn)單,速度較快,但是通量不高。


4. 總結(jié)

不同測(cè)序平臺(tái)的比較
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容