1. 第一代測(cè)序(Sanger測(cè)序)
關(guān)鍵詞:雙脫氧測(cè)序、末端終止測(cè)序
1.1 正常DNA的合成過程
在模板鏈和引物存在的條件下,核糖體RNA分別將四種脫氧核糖酸(dNTP)運(yùn)輸至引物末端。然后按照堿基互補(bǔ)配對(duì)原則脫水形成5'-3'磷酸二酯鍵。

1.2 Sanger測(cè)序原理
使用鏈終止法,即向反應(yīng)體系中同時(shí)加入脫氧核糖酸(dNTP)和雙脫氧核糖(ddNTP)。兩者均可隨機(jī)整合到模板鏈上形成DNA,但是ddNTP由于缺少羥基(-OH),在整合到模板鏈條上,反應(yīng)隨機(jī)終止。利用ddNTP的這一特點(diǎn),結(jié)合檢測(cè)電泳條帶或者利用光源信號(hào)傳導(dǎo)即可獲得序列。




1.3 Sanger測(cè)序優(yōu)缺點(diǎn)
優(yōu)點(diǎn):
- 方法簡(jiǎn)單,準(zhǔn)確率高,測(cè)序片段較長,一次可達(dá)1kb。
缺點(diǎn):
- 成本高,通量低
2. 第二代測(cè)序(Illumina測(cè)序?yàn)槔?/h1>
關(guān)鍵詞:橋式PCR,可逆末端終止,高通量,邊合成邊測(cè)序
關(guān)鍵詞:橋式PCR,可逆末端終止,高通量,邊合成邊測(cè)序
Illumina公司的Solexa和Hiseq兩個(gè)系列的機(jī)器是目前全球使用量最大的第二代測(cè)序機(jī)器,為了獲得完整的基因組,通常包括三個(gè)階段:測(cè)序、短序列比對(duì)和序列拼接。

IIIumina測(cè)序數(shù)據(jù)的特點(diǎn):讀長短、具有一定的錯(cuò)誤率、深度高、reads之間具有pairend關(guān)系
2.1 測(cè)序
根據(jù)測(cè)序的流程大致分為三步,測(cè)序完成得到原始數(shù)據(jù)在進(jìn)入短序列拼接之前還會(huì)進(jìn)行質(zhì)量評(píng)估和控制等中間過程。

制備DNA基因組樣本時(shí),選擇單倍體、樣品的總量和DNA濃度OD需要達(dá)到要求,注意不要降解
2.1.1 第一步:構(gòu)建基因文庫
步驟一:利用超聲波將待測(cè)的DNA樣品打斷成小片段,通常為500bp左右。
步驟二:修復(fù)小片段為平末端,進(jìn)一步在平末端添加A堿基,形成黏性末端。
步驟三:在粘性末端添加adapter接頭、測(cè)序引物、index標(biāo)簽等。


文庫:就是DNA片段的一個(gè)集合,將測(cè)序片段打斷之后就構(gòu)成了一個(gè)文庫,通常片段小于1kb的文庫稱為小片段文庫(pairend),大于1kb的文庫稱為大片段文庫(matepair)。文庫的大小又被成為insert size,可用于后續(xù)的拼接。
2.1.2 第二步:橋式PCR
步驟一:液體流過流動(dòng)池(Flowcell)之后,單條DNA序列會(huì)被固定到流動(dòng)池上。
步驟二:進(jìn)行多次橋式PCR擴(kuò)增。
步驟三:多余的DNA序列會(huì)被液體沖走,在流動(dòng)池上留下一簇一簇相同的DNA單鏈。


橋式PCR的目的是為了增大信號(hào)源,便于檢測(cè),其詳細(xì)的原理可以參考:
Seurat_
2.1.3 第三步:測(cè)序
步驟一:向反應(yīng)體系中加入DNA聚合酶、接頭引物和帶有堿基特異熒光標(biāo)記的4種dNTP。
步驟二:合成第一個(gè)堿基后,不能正常進(jìn)行后續(xù)反應(yīng).
步驟三:清除剩余未使用的堿基和試劑。
步驟四:激發(fā)堿基熒光并收集信號(hào)。
步驟五:去除第一堿基的阻斷基團(tuán)和熒光基團(tuán)。
步驟六:循環(huán)進(jìn)行步驟一至步驟五。
每條序列需要進(jìn)行兩次測(cè)序,正向引物完成測(cè)序之后,會(huì)被液體沖走,然后利用反向引物進(jìn)行另一端的測(cè)序。



2.1.4 測(cè)序飽和度評(píng)估
-
目的:推測(cè)測(cè)序所需要的最小數(shù)據(jù)量,理論上10倍數(shù)據(jù)量已經(jīng)足夠,但是實(shí)際上還存在其他誤差,因此會(huì)高于這個(gè)數(shù)值。
理論最小值
2.1.5 數(shù)據(jù)質(zhì)控
1. 兩個(gè)指標(biāo)
- 堿基含量分布:測(cè)序后的GC含量要和基因組GC含量相同。
- 堿基質(zhì)量分布:Q20堿基百分比(一般要求在90%以上),Q30堿基百分比(一般要求在85%以上)
Q20指這個(gè)位點(diǎn)的堿基的錯(cuò)誤率為百分之一,Q30為千分之一。
2. 用fastqc可以生成質(zhì)量控制報(bào)告

2.1.6 測(cè)數(shù)數(shù)據(jù)處理——過濾
- 非基因組序列。包括adapter接頭、測(cè)序引物、index標(biāo)簽等。
- N堿基過多的reads。通常N堿基的占比超過read的10%以上會(huì)被去除。
- 低質(zhì)量reads。以Q20為標(biāo)準(zhǔn),低于一定的Q20比率會(huì)被去除。
- 去除duplication。兩對(duì)完全一致的reads會(huì)去除一對(duì)。
注:
- pairend的reads只要有一條reads不滿足條件,兩條reads都需要去除。
- 在RNA-seq和16s測(cè)序過程中不能去除duplication,否則會(huì)丟失一些豐度信息。
2.2 測(cè)序拓展內(nèi)容
2.2.1 大片段文庫
實(shí)際上無論是大片段文庫或者小片段文庫,都無法完全測(cè)出一條read的全長。例如,Illumina構(gòu)建的小片段文庫為500bp,雙末端測(cè)序一般只會(huì)測(cè)得兩端各150bp左右的長度,中間的200bp是無法測(cè)得的。但是由于最初構(gòu)建文庫時(shí)是隨機(jī)打斷的,第一條read無法測(cè)序到中間的序列,后續(xù)的reads也會(huì)測(cè)得中間的序列。

1. 構(gòu)建大片段文庫的目的:
為了獲得reads之間的物理距離關(guān)系,方便后續(xù)的序列拼接。
2. 大片段文庫的測(cè)序過程:
步驟一: 大片段兩端加入帶生物標(biāo)記的序列進(jìn)行環(huán)化處理。
步驟二:后續(xù)步驟和小片段文庫測(cè)序類似


3. pairend和matepair文庫區(qū)別
測(cè)序的reads方向不一致,pairend相向,matepair相反。


2.2.2 測(cè)序注意事項(xiàng)
不能一次性測(cè)序完整基因組,因?yàn)镻CR技術(shù)限制了讀長,同時(shí)從樣品中提取出的基因組很難保證完整性。
GC偏差會(huì)影響PCR,正常GC含量為35%~65%。
選擇的文庫大小和reads讀長要協(xié)調(diào);在Denove拼接過程中,先使用小片段文庫,逐漸增大文庫;
二代測(cè)序不能一直測(cè)下去,因?yàn)殡S著反應(yīng)進(jìn)行,后續(xù)的反應(yīng)條件發(fā)生了變化;同時(shí),在cluster過程中,由于堿基反應(yīng)的步調(diào)不一致現(xiàn)象(phasing),會(huì)導(dǎo)致誤差。
2.3 短序列比對(duì)
短序列比對(duì)就是將過濾好的reads重新定位到基因組上,這個(gè)過程也叫回貼(mapping)。

2.3.1 短序列比對(duì)的四種情況




2.3.2 短序列比對(duì)的應(yīng)用
1. 與自身基因組比對(duì)
1.1計(jì)算每個(gè)位點(diǎn)覆蓋深度
1.2 計(jì)算參考序列覆蓋比率
2. 與參考基因組比對(duì)
2.1 RNA測(cè)序計(jì)算基因表達(dá)量
2.2 變異檢測(cè)
2.3 宏基因組測(cè)序計(jì)算不同生物的豐度
2.3.3 基因差異表達(dá)計(jì)算
1. 基因結(jié)構(gòu)

2. 成熟mRNA

3. 基因表達(dá)差異的指標(biāo)
3.1 FoldChange,不同樣本中同一個(gè)基因表達(dá)水平的變化倍數(shù),即RPKM值的差值,差值越大,變化越大。
3.2 FDR矯正,F(xiàn)DR越小,差異約顯著。
注:
- 轉(zhuǎn)錄起始位點(diǎn)位于啟動(dòng)區(qū)與5‘UTR非翻譯區(qū)之間,翻譯起始位點(diǎn)位于 CDS起始密碼子。
- RPKM值消除了基因長度和測(cè)序量差異對(duì)計(jì)算基因表達(dá)的影響,可直接用于比較不同樣品間的基因表達(dá)差異(可變剪切用FPKM值)。
2.3.4 變異檢測(cè)
????單堿基的變換:轉(zhuǎn)換、顛換、缺失、插入
2.3.5 物種組成和豐度計(jì)算
步驟一:16s序列長度為1.5kb左右,不能一次性測(cè)通,采用雙末端測(cè)序得到不同的reads,質(zhì)控過濾,不能去除duplication。
步驟二:將兩條reads拼接成tags
步驟三:將不同的tags聚類成不同的OUT
步驟四:與16s數(shù)據(jù)庫進(jìn)行比對(duì),設(shè)置閾值。
2.4 序列拼接
????又稱為de nove拼接,將測(cè)序得到的reads輸入給拼接軟件,利用reads間的overlap進(jìn)行拼接。
????目前序列拼接的算法有兩種:一種是Overlap-Layout-Conesensus(常用于sanger等長片段拼接),另一種是De bruijn graph(常用于illumina等短序列拼接)。但是本質(zhì)都是基于序列間的overlap來進(jìn)行拼接。
常見名詞:
- reads,測(cè)序直接得到的片段
- pairend和matepair,文庫大小
- insertsize,物理長度
- kmer,將reads切割成更小的固定片段
- contig,通過kmer之間的overlap連接成更長的片段(有時(shí)也指reads連接成contig)
- scaffold,contigs之間通過pairend關(guān)系,連接成更長的片段
2.4.1 kmer值估計(jì)基因組大小
1. kmer定義

取reads的kmer就取兩次,正向取一次,反向互補(bǔ)會(huì)再取一次。
2. 利用kmer的分布圖估計(jì)基因組大小

2.4.2 基于德布萊英圖(De bruijn graph)算法拼接
1. 構(gòu)圖(gregraph)
即切kmer(13-127之間的奇數(shù)),去除頻數(shù)為1的kmer(kmer頻數(shù)為1,那么相應(yīng)的reads也只測(cè)得一次,這在高通量測(cè)序當(dāng)中是幾乎不可能的)
2. 構(gòu)建contig
利用不同kmer大小的片段間的overlap形成一個(gè)德布萊英圖,然后簡(jiǎn)化該圖,理論上該圖只有一個(gè)頭部和尾部,但是由于測(cè)序過程中,存在重復(fù)區(qū)域等情況。實(shí)際形成的德布萊英圖會(huì)有很多的頭部和尾部。然后去除較短的分支,就形成了很多的contigs,contigs彼此之間沒有overlap關(guān)系。

3. 構(gòu)建scaffold
-
構(gòu)建過程
通過reads之間的paired關(guān)系,將contig連接成更長的序列,就是scaffold。首先將測(cè)序的reads重新定位到contigs上,然后記錄下pairend的比對(duì)情況。落在同一contig用于計(jì)算insertsize,落在不同contig用于構(gòu)建scaffold。(例如:reads1比對(duì)到contig1的末尾150bp,reads2比對(duì)到contig2的起始150bp。而reads1和reads2之間的insetsize是500,那么contig1和contig2連接形成scaffold的過程中會(huì)有200bp的N堿基存在)
比對(duì)過程中要注意reads的方向問題

????通常比對(duì)上不同contig的pairend要有三對(duì)以上才能確定物理位置關(guān)系,進(jìn)一步連接成scaffold。

- 當(dāng)基因組中重復(fù)序列過多時(shí),pairend關(guān)系可能不足以確定contig之間的位置關(guān)系,此時(shí)需要用到matepair文庫。
- 拼接的策略:首先用小片段文庫,然后逐漸加入大片段文庫。但是一般情況下很難得到一條完整的基因組序列。
-
特點(diǎn)
①scaffolds序列的方向并不一致,有的來自正義鏈,有的來自反義鏈(但都是5‘-3’)。
②scaffolds之間并沒有位置關(guān)系,只是有的軟件會(huì)按照大小順序輸出。
③scaffold里面可能存在N堿基,但是contig序列沒有N堿基。
4. 補(bǔ)洞
基因組上的洞,即gaps,是由N堿基構(gòu)成的。在由contigs形成scaffold過程中會(huì)產(chǎn)生gaps。
有關(guān)gap:
- N堿基數(shù)目由insertsize確定,但是不完全準(zhǔn)確
- N堿基來自基因組復(fù)雜區(qū)域(重復(fù),GC異常等區(qū)域),不容易拼接出來。
- 補(bǔ)洞策略
①利用sanger測(cè)序長片段補(bǔ)洞
②若N區(qū)域過大(超過2k),可以用pacbio測(cè)序長片短補(bǔ)洞
③利用pairend關(guān)系補(bǔ)洞
3. 第三代測(cè)序
主要包括三種測(cè)序技術(shù),分別利用了光信號(hào)、電信號(hào)和化學(xué)信號(hào)的轉(zhuǎn)換
3.1 PacBio公司的SMAT
1. 原理概述
應(yīng)用了邊合成邊測(cè)序的思想,以SMRT芯片為測(cè)序載體,DNA聚合酶和模板結(jié)合,用4色熒光標(biāo)記 4 種堿基。在堿基配對(duì)階段,不同堿基的加入,會(huì)發(fā)出不同光,根據(jù)光的波長與峰值可判斷進(jìn)入的堿基類型。保持酶活性,區(qū)別反應(yīng)信號(hào)與周圍游離堿基熒光背景是關(guān)鍵技術(shù)。
2. 特點(diǎn)
讀長長,測(cè)序速度快,測(cè)序錯(cuò)誤率較高,達(dá)到15%,但是出錯(cuò)是隨機(jī)的,可以通過多次測(cè)序來進(jìn)行有效的糾錯(cuò)。
3.2 Oxford公司的Nanopore
1. 原理概述
根據(jù)堿基所影響的電流變化幅度的不同,設(shè)計(jì)了一種特殊的納米孔,孔內(nèi)共價(jià)結(jié)合有分子接頭。當(dāng)DNA堿基通過納米孔時(shí),它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強(qiáng)度,靈敏的電子設(shè)備檢測(cè)到這些變化從而鑒定所通過的堿基,是一種基于電信號(hào)而不是光信號(hào)的測(cè)序技術(shù)。
2. 特點(diǎn)
讀長很長,達(dá)到幾十kb,甚至100kb,錯(cuò)誤率在1%到4%之間,且是隨機(jī)錯(cuò)誤,通量較高,能夠直接讀取出甲基化的胞嘧啶。
3.3 Ion Torrent6
1. 原理概述
該技術(shù)使用一種布滿小孔的高密度半導(dǎo)體芯片(一個(gè)小孔就是一個(gè)測(cè)序反應(yīng)池)。當(dāng)DNA聚合酶把核苷酸聚合到延伸中的DNA鏈上時(shí),會(huì)釋放出一個(gè)氫離子,從而引起反應(yīng)池中的PH發(fā)生改變,位于池下的離子感受器將感受到氫離子信號(hào)直接轉(zhuǎn)化為數(shù)字信號(hào),從而讀出DNA序列。
2. 特點(diǎn)
成本相對(duì)較低,操作簡(jiǎn)單,速度較快,但是通量不高。
4. 總結(jié)

