RNA sequencing: the teenage years

老板最近在群里發(fā)了這篇文章,大致掃了下,發(fā)現(xiàn)這篇文章梳理了10多年來RNA測序相關(guān)的知識,幾乎涵蓋了市面上所有RNA測序相關(guān)的技術(shù),而且各項技術(shù)的發(fā)展、優(yōu)缺點都講的比較詳細,是一篇非常好的綜述。所以這里我決定大致翻譯下這篇文章。

由于我比較懶,并不會逐字逐句去翻譯,加上我偶爾會加上自己的一點看法,可能會比較亂,大家如果感興趣還是可以去看原始的文章。

對于一些專業(yè)術(shù)語,我會保留其英文。因為我覺得中文解釋不了這些單詞。但我會盡量放一些能解釋這些單詞的鏈接。

這篇綜述的參考文獻列的很多,大家要是對某個部分感興趣可以直接看參考文獻。

RNA-Seq的發(fā)展已經(jīng)歷經(jīng)了10余年,現(xiàn)在幾乎已經(jīng)成為了各種生物學(xué)研究的標配。在RNA-Seq的應(yīng)用中,differential gene expression(DGE,差異基因表達)無疑是最廣泛的。相比于以前,DGE的步驟并沒有太多的區(qū)別:實驗部分還是提取RNA、mRNA富集或者核糖體去除,cDNA合成、建庫。測序深度一般就是10-30M reads。測序完成之后就是分析:比對/或者組裝(取決于有參還是無參),計數(shù),過濾或者標準化,然后就是應(yīng)用統(tǒng)計模型來找到差異基因/轉(zhuǎn)錄本。

除了DGE之外,RNA-Seq還可以幫助我們理解如可變剪切、非編碼RNA、enhancer RNA等問題。當然,這些技術(shù)大部分還是利用illumina的short-read來做的。但近幾年來,在long-read方面的技術(shù)也逐步在幫助我們解決一些short-read所不能解決的問題。

然后作者概述了下他們接下來要講的內(nèi)容,這里不再一一贅述。值得一提的是,作者自己也提到了,由于篇幅的限制,作者有些RNA-Seq的技術(shù)并沒有提到,包括非編碼RNA的轉(zhuǎn)錄組、原核生物的轉(zhuǎn)錄組、表觀轉(zhuǎn)錄組(如RNA修飾)等。

但作者給出了參考的綜述,大家感興趣可以看看。


Advances in RNA-Seq technologies

Short-read cDNA sequencing for DGE

相比于之前的芯片,RNA-Seq建庫更加的方便,測序也更加的便宜,配套的分析方法也更加的完善。而且,short-read RNA-Seq的數(shù)據(jù)質(zhì)量也很好,在平臺內(nèi)和跨平臺的穩(wěn)定性也很高。盡管如此,在建庫和分析的過程中還是會有一些問題。比如說,我們可能不能正確地鑒定和定量來自同一個基因的不同isoform。再比如說,不同的技術(shù)對于ambiguous或者multi-mapped reads有著不同的定量方法。

作者在這里提到了一種叫做synthetic long reads的方法來解決這些問題。大致意思應(yīng)該是利用UMI來把short-read努力拼成全長mRNA。大家感興趣的可以看下。

但最終能夠解決short-reads這種短讀長問題,還是得依賴long-read cDNA測序和dRNA-Seq。

Long-read cDNA sequencing

相比于之前用short-read拼成長read,PacBio和Nanopore的long-read技術(shù)能夠克服short-read技術(shù)自身的一些缺陷。例如,ambiguous reads會少很多,也可以幫助鑒定捕捉到更多的isoform,同時,也可以幫助減少一些short-read RNA-Seq工具帶來的splice-junction錯誤。

我感覺ambiguous read對于isofrom或者說transcript層面的比對是不利的,對gene層面的比對可能問題不是那么大。multi-mapped read對于gene層面的比對問題可能比較大,因為某些gene是同源的,某些部分本來就是一樣的,short-read就很難正確分辨來源。

splice-junction指的應(yīng)該是由于RNA-Seq的read是外顯子拼接而成的,RNA-Seq的比對工具相比于WGS工具,需要考慮到外顯子拼接。

關(guān)于三代測序的基本介紹,我推薦看看《陳巍學(xué)基因》的三代測序部分和黃樹嘉老師的一篇文章。

這部分稍微講了下Pacbio和ONT(Oxford Nanopore Technology)的long-read cDNA建庫,個人感覺講的比較一般,還不如看看黃老師的文章。

Long-read direct RNA sequencing

這部分介紹了下Nanoprore的long-read(可以直接測RNA的)技術(shù),講了下建庫,還講了下long-read技術(shù)相比于short-read有一些優(yōu)點:可以提高isoform的檢測,可以用來估計polyA的長度。Nanopore自己研發(fā)了nanopolish-polya可以用nanopore自己的數(shù)據(jù)來計算polyA的長度。這個分析已經(jīng)證明了那些保留內(nèi)含子的轉(zhuǎn)錄本,會比完全剪切的轉(zhuǎn)錄本,含有更長的polyA尾巴。同時,這種直接測RNA的long-read對于RNA堿基修飾的檢測也會有一定的作用。

Comparing long-read and short-read technologies

long-read的缺點之低通量

short-read一般是109-1010數(shù)量級,而Pacbio和ONT則是106-107數(shù)量級。這種低通量會導(dǎo)致差異基因檢測的sensitivity下降。不過,并不是所有的地方都需要用到高通量的。如果你只是希望發(fā)現(xiàn)isoform或者說更看中l(wèi)ength而不是depth,那么這種缺點也沒有關(guān)系了。而且,read depth事實上只對于一些中低表達的差異基因影響比較大,對于高表達的基因,影響不是那么的大。

long-read要想撼動short-read在差異基因上的優(yōu)勢,其還得提升2-3個數(shù)量級才可以。不過,一旦通路上去了,long-read就能到達跟short-read一樣的sensitivity,但會有更高的specificity

就現(xiàn)在來說,一般大家會用二三代結(jié)合的方法來做Iso-Seq(isoform-seq),這樣既可以增加測序深度,也可以增加sensitivity,specificity。同時也可以保證轉(zhuǎn)錄本定量的準確性。

long-read的缺點之高測序錯誤率

相比于傳統(tǒng)的illumina short-read測序,三代的測序錯誤率要高1-2個數(shù)量級,一般的錯誤是插入-缺失錯誤。不過對于RNA-Seq來說,這個錯誤倒不是那么的致命。因為RNA-Seq并不要求每個堿基都是正確的,它只要能夠比對到轉(zhuǎn)錄本/isofrom上就行。當然,對于高錯誤率,也有一些解決辦法。因為三代的測序錯誤是隨機發(fā)生的,像Pacbio就可以利用CCS來一遍遍地測來進行糾錯。不過,如果花太多的資源在糾錯上,可能會導(dǎo)致最后unique Transcript會比較少,畢竟我們也不可能無限地去測。

關(guān)于Pacbio的CCS,可以看下這幾篇文章。

http://www.genome.cn/News/Industry/549.html

https://www.zhihu.com/question/25409882

http://files.pacb.com/software/smrtanalysis/2.2.0/doc/smrtportal/help/!SSL!/Webhelp/Portal_PacBio_Glossary.htm

long-read的缺點之sensitivity

這里主要強調(diào)了建庫的一些問題導(dǎo)致的sensitivity下降,大家感興趣可以看看。


Improved RNA-seq library preparation

這部分講了一些優(yōu)化的RNA-Seq建庫策略,包括

  • oligo-dT enrichment when selecting RNAs for sequencing
  • methods to specifically select for the 3? or 5? ends of transcripts
  • the use of UMIs to differentiate technical from biological duplication
  • improved library preparation for degraded input RNA

Moving beyond poly(A) enrichment

現(xiàn)在大部分文章用的RNA-Seq建庫都是用oligo-dT去富集polyA尾的mRNA。但是這種方法會造成3' biased,同時也不能檢測一些非編碼RNA,比如說miRNA,enhancer RNA等。盡管如此,直接去除oligo-dT富集也是不對的,因為你可能最后95%的reads都是rRNA了。

然后這里作者提到了可以用WTA(whole-transcriptome-amplification,全轉(zhuǎn)錄組擴增的方法)來檢測mRNA和一些非編碼RNA。對于一些WTA測不到的短非編碼RNA,則用特定的技術(shù),比如小RNA測序等。

作者還介紹了WTA建庫過程中的核糖體去除方法(應(yīng)該是WTA建庫過程中,這里我也不太清除)。一種是把rRNA從其他RNA中分離出來(所謂的pull-out),另一種是用RNase H選擇性地降解rRNA。

這里也懶得翻譯了,大家感興趣的可以自己看看。

Enriching RNA 3? ends for Tag RNA-seq and alternative polyadenylation analysis

這里作者介紹了一種轉(zhuǎn)錄本3'端富集的建庫方法,這種方法測序深度會更低,同時read長度會更短。這種方法比較適合于想要在基因水平做差異表達或者有大量的樣本重復(fù)要做的情況。相對應(yīng)的數(shù)據(jù)分析也會有一定的簡化,不需要exon-junction detection和基因長度的標準化。不過這種方法對于一些同源基因的定量效果并不是很好,同時也不適合isoform分析。

作者也提到這種3'富集的方法可以幫助我們探究3‘ UTR的調(diào)控機制。這種調(diào)控機制可以幫助我們理解miRNA的調(diào)控、mRNA的穩(wěn)定性、定位以及翻譯。

Enriching RNA 5? ends for transcription start-site mapping

作者介紹了富集5'端的方法,主要是用來鑒定啟動子和轉(zhuǎn)錄起始位點的。大家感興趣的可以看看。

Use of unique molecular identifiers to detect PCR duplicates

這一部分還是值得好好講講的,因為大家一開始總是會糾結(jié)去不去重復(fù)的問題。

RNA-Seq的數(shù)據(jù)經(jīng)常會有很高的重復(fù)率,即許多read mapping在了同一位點上。WGS產(chǎn)生的重復(fù)reads我們經(jīng)常會假定是PCR那步產(chǎn)生的technical biases,所以我們一般是去掉的。但RNA-Seq的重復(fù)reads,我們實際上是分不出其是真實的生物學(xué)信號還是PCR technical biases,所以一般是不去的。

這種重復(fù)在單端測序的時候更常見,因為單端只有一條read,如果是mapping 在同一地方,就會認為是重復(fù)。而雙端只有兩條read都mapping在同一地方,才會認為是重復(fù)。

現(xiàn)在一般解決的方法是利用UMI,好處有

  • 可以更加準確地定量基因的表達,從而更加準確地做差異表達分析
  • 更加準確地做RNA-Seq variant calling,估計allele frequency。

Improving the analysis of degraded RNA

這一部分討論了如何提高RNA建庫的質(zhì)量,尤其是對于那些低質(zhì)量或者降解的RNA。比如說像那些臨床的,泡在福爾馬林的樣本。


Designing better RNA-seq experiments

這一部分作者從重復(fù)數(shù)目、測序深度以及單雙端的選擇三個方面來探討如何設(shè)計更好的RNA-Seq實驗。

Replication and experimental power

總得來說,重復(fù)的重要性是大于測序深度和read length的。盡管RNA-Seq的技術(shù)穩(wěn)定性要高于以前的芯片,但做生物學(xué)重復(fù)還是很有必要的。用額外的重復(fù)可以幫助我們鑒定離群點,從而在進行下一步分析前,移除離群點或者下調(diào)這些離群點的權(quán)重。

決定重復(fù)的數(shù)目需要考慮到以下幾個方面

  • effect size
  • within-group variation
  • acceptable false-positive
  • false-negative rates

但事實上,決定適合的重復(fù)數(shù)目并不是一件容易的事情。一個48個重復(fù)的酵母研究發(fā)現(xiàn),當只含有3個重復(fù)的時候,大部分的差異表達檢測工具只能檢測20%-40%的差異基因。這個研究實際上推薦的是大于6個重復(fù)。還有個研究推薦4個重復(fù),不過其也強調(diào)要考慮衡量樣本的生物學(xué)內(nèi)在差異性。比如說有些生物學(xué)差異很大的樣本,例如腫瘤患者的組織,就需要增加更多的重復(fù)了。

Determining the optimal read depth

一般來說我們是測10-30M reads。但如果你的樣本重復(fù)夠多,且你只關(guān)注一些高表達基因的差異,那么對于很多樣本來說,1M reads就可以有差不多的效果了。reads depth的估計可以檢查在樣本間的reads分布以及飽和曲線。

Choosing parameters: read length and single-end or paired-end sequencing

對于很多測序,read length是越高越好的,因為其可以保證更多的DNA覆蓋率。但對于RNA-Seq來說,并不是那么的重要。因為你只需要知道這個read來源于哪里即可,過長的read對于最終的定量并沒有太多的影響。當然,如果你想要分析isofrom,那更長的read是會有幫助的。

SE和PE的選擇也是如此,單端的差異基因表達分析,其實是差不多的。但如果涉及到融合基因,可變剪切,新轉(zhuǎn)錄本發(fā)現(xiàn)等等,那么PE就會更有優(yōu)勢了。

不過現(xiàn)在單端價格和雙端價格好像已經(jīng)是一樣了


RNA-seq data analysis

現(xiàn)在市面上針對差異基因有著許許多多的工具,不同的工具以及組合最終會帶來不同的效果??偟膩碚f,基本上做完一套差異基因需要四個步驟

  • 步驟1:提取測序read,然后mapping
  • 步驟2:定量基因或者轉(zhuǎn)錄本。這一步可能會有幾個子步驟,這一般來說取決于你是有參還無參的。
  • 步驟3:過濾以及標準化read
  • 步驟4:差異表達

關(guān)于工具的選擇,這里列了很多綜述,大家可以去看看。

Phase 1 — alignment and assembly of sequencing reads

在得到了測序reads之后,就會把read比對到參考基因組上,工具一般有Tophat,STAR,HISAT。測序產(chǎn)生的cDNA是來源于RNA的,而RNA是由多個外顯子拼接而成的,所以這些工具的主要不同是在外顯子比對的算法上。

如果沒有高質(zhì)量的參考基因組,就要考慮比對時候先拼接轉(zhuǎn)錄本,然后再把read和拼接的轉(zhuǎn)錄組進行比對。工具有StringTie 和SOAPdenovo-Trans。除了對于非參物種的研究,這種方法還適用于異常轉(zhuǎn)錄本(比如說癌組織)。

近年來,還發(fā)展出了一些“alignment-free tools”,比如說Sailfish,Kallisto和Salmon。這類工具直接是把reads和轉(zhuǎn)錄本關(guān)聯(lián)起來,并不需要額外的定量步驟。這些工具在高豐度表達的基因上表現(xiàn)比較好,而在低豐度或者短轉(zhuǎn)錄本上表現(xiàn)較差。

總的來說,不同的mapping工具差異體現(xiàn)在如何分配一部分read上,比如說multi-mapped read或者ambiguously mapping read上。

這里作者列出了一些關(guān)于mapping 工具如何分配reads的工具,感興趣的可以看看。

Phase 2 — quantification of transcript abundance

選擇定量工具這一步非常的關(guān)鍵,其對最終結(jié)果的影響可能還超過選擇比對工具。如果是轉(zhuǎn)錄本層面的定量,短reads可能比較麻煩,因為其可能不能跨過外顯子,所以并不能清楚地知道這個reads是來自于哪個isoform。事實上,即使是基因?qū)用娴亩?,也不是那么地清楚的。比如一個樣本的主要isoform是另一個樣本的主要isoform的2倍長度,但表達量卻是2倍,如果我們僅僅從基因水平來看,并不能真正地明白差異的來源。(畢竟長度越長,含有read的可能性越大)

通常的定量工具有RSEM、CuffLinks、MMSeq、HTSeq以及前面提到過的alignment-free工具。不同的工具對于align reads的處理是不一樣的,比如有些是直接丟掉,有些是經(jīng)過一定的方法進行估計。

Phase 3 — filtering and normalization

通常來說,為了避免測序深度、表達模式,技術(shù)biases,我們會對表達矩陣進行一定的過濾和標準化。過濾一般就是去掉那些低表達的基因,標準化就稍微復(fù)雜點,需要考慮到GC含量以及測序深度。早期的一些標準化方法比如RPKM,現(xiàn)在已經(jīng)證明是不可取的了,取而代之的是一些如quartile or median normalization方法。

選擇不同的標準化方法會對最終的差異結(jié)果有很大的影響。一般來說,大部分標準化的工具都基于兩個假設(shè)。第一是在重復(fù)樣本之間,絕大部分的基因表達水平是一致的。第二個是在不同樣本之間,總的mRNA水平并不會有非常顯著的區(qū)別。這兩個假設(shè)是非常重要的,因為當你的樣本不符合這兩個基本假設(shè)的時候,就要考慮用不同的標準化方法了。(最明顯的例子應(yīng)該還是腫瘤的例子)

另一類標準化的方法是利用spike-in的方法?;驹響?yīng)該是跟做定量PCR時候的內(nèi)參差不多。不過我沒接觸過這種,大家感興趣的可以自己去看看。

Phase 4 — differential expression modelling

差異表達的建模一般分成兩種,一種是差異基因,一種是差異轉(zhuǎn)錄本。差異基因的工具有edgeR,DESeq2以及l(fā)imma+voom。差異轉(zhuǎn)錄本工具有CuffDiff,MMSEQ,Ballgown,這類工具要求的算力更高,且不同工具之間結(jié)果差異比較大。


Beyond bulk RNA analysis

這部分講了單細胞測序和空間轉(zhuǎn)錄組。我覺得大家要是感興趣還是別看我的翻譯了……畢竟二手的翻譯不如自己看的清楚。要是看的時候有什么問題,可以在下面交流。

Single-cell analysis

作者這里提了下單細胞的不同建庫方法,不過我覺得要是想看詳細的還是建議去看對應(yīng)的單細胞綜述。不過這里作者提到了要根據(jù)你自己的目的去選擇對應(yīng)的單細胞方法,即考慮測序的深度(每個細胞測盡可能多的轉(zhuǎn)錄本)和測序的廣度(測更多的細胞)以及花費。一般來說,plate-based 或者 microfluidic methods 捕捉的細胞數(shù)目較少,但每個細胞能檢測到更多的基因。而droplet-based systems 則可以捕捉更多的細胞

Spatially resolved RNA-seq methods

不管是bulk還是single-cell,實際上最后的測序結(jié)果都是丟失空間信息的。而空間信息的建立對于我們探究細胞環(huán)境與細胞表達的關(guān)系是至關(guān)重要的。文章里面提到了兩種空間轉(zhuǎn)錄組的方法:“spatial encoding”和“in situ transcriptomics”。

spatial encoding又分成兩種,一種是isolating spatially restricted cells(比如是顯微激光切割,LCM(laser-capture microdissection )),另一種是利用barcoding。前者已經(jīng)在多個組織樣本中實現(xiàn)了,但其要求的設(shè)備很多,比較難以推廣?,F(xiàn)在的10X 空間轉(zhuǎn)錄組Slide-Seq都是用的barcoding來標記RNA,從而記錄空間信息。不過,現(xiàn)在的空間轉(zhuǎn)錄組很多分辨率并沒有達到單細胞的水平,這也是一個比較麻煩的地方。

In situ transcriptomics用的是另一種思路,即單分子熒光原位雜交。這種方法盡管只能檢測少量轉(zhuǎn)錄本,但其的確可以直接檢測RNA,提供組織信息以及微環(huán)境,甚至還可以產(chǎn)生亞細胞數(shù)據(jù)。不過這個技術(shù)也需要顯微成像設(shè)備的支持。


Beyond steady-state RNA analysis

因為RNA-Seq一般來說只是研究了成熟mRNA。但真正的RNA合成是一個mRNA轉(zhuǎn)錄,加工和降解相互平衡的過程(這讓我想起了單細胞分析中比較火的RNA速率分析)。所以這里作者講了兩者研究RNA動態(tài)的方法,一種是利用nascent RNA研究RNA的動態(tài)轉(zhuǎn)錄,一種是利用ribosome-profiling 研究RNA的動態(tài)翻譯過程。由于我也不做這方面,大家感興趣的可以自己去看看。


Beyond analysis of gene expression

前面都是RNA表達層面的,這部分作者講了RNA結(jié)構(gòu)分析,RNA-RNA互作以及RNA蛋白互作的研究方法,大家感興趣可以自己去看。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容