歡迎關(guān)注oddxix
RNA-seq是高通量測序中最常見的一種應(yīng)用,本期視頻介紹其:
1.方法原理
2.生物信息分析
表達差異
(1)火山圖展示
(2)聚類分析
(3)GO分析
(4)Pathway分析(KEGG分析)結(jié)構(gòu)變異
(1)可變剪接
(2)融合基因
(3)點突變
RNA高通量測序(RNA-sequencing,縮寫為RNA-seq)是目前高通量測序技術(shù)中被用得最廣的一種技術(shù),RNA-seq可以幫助我們了解:各種比較條件下,所有基因的表達情況的差異。它可以檢測的差異有:正常組織和腫瘤組織的之間的差異;也可以檢測藥物治療前后基因表達的差異;還可以檢測發(fā)育過程中,不同的發(fā)育階段,不同的組織之間的基因表達差異。諸如此類。那么在所有檢測的差異類型中,最常見的,就是檢測所有mRNA的表達量的差異,這是最常用的一種檢測。同時,我們還可以檢測 RNA 的結(jié)構(gòu)上的差異。例如:mRNA的剪接方式的差異,也就是我們一般說的可變剪接,還可以檢測融合基因,同時還可以檢測基因單點突變導(dǎo)致的SNP(Single Nucleotide Polymorphisom)。
接下來,我們分成RNA-seq測序方法和RNA-seq測序數(shù)據(jù)分析兩個部分,分別介紹RNA-seq。
RNA測序方法
在測mRNA的過程當中,首先要解決的問題,是如何去除核糖體RNA也就是去除“rRNA”(Ribosomal RNA)。在通常抽提到的總RNA中,絕大部分都是核糖體RNA(rRNA)。以人類的細胞或組織為例,一般抽提到的總RNA當中,95%都是核糖體RNA。剩下的2%到3%是mRNA。還有吶,2%到3%是Long non-coding RNA、或者tRNA、microRNA,這些RNA,也就是說mRNA只占了所有RNA中的一小部分。
如果我們把所有的RNA都拿來測序的話,測到的絕大部分的序列數(shù)據(jù)都是核糖體RNA。而且這當中(rRNA)比例會高達95%左右,但是,核糖體RNA在整個人類當中都是非常保守的,而且在人的各個組織、器官當中也是極度穩(wěn)定的。也就是說,測rRNA,它得到的數(shù)據(jù),并不能為我們實驗者提供什么有用的信息,而mRNA才是RNA當中信息含量最豐富的那個部分。
我們一般的RNA-seq要測的,也是mRNA的各種變化,所以在實驗過程當中,我們一般要把核糖體RNA先去掉。然后再進行建庫測序。
去除核糖體RNA,并進行建庫的方法,有許多種。我們主要介紹一下應(yīng)用最廣泛的illumina公司的TruseqRNA建庫方法。
下圖是mRNA測序的建庫過程圖。首先是利用高等生物的mRNA都有Poly(A)尾巴這個特點,用帶有Poly(T)探針的磁珠與總RNA進行雜交。然后Poly(T)探針就和帶Poly(A)尾巴的mRNA結(jié)合在一起,接下來就回收磁珠,然后把這些帶Poly(A)的mRNA從磁珠上洗脫下來。
再把這些洗脫下來的mRNA用鎂離子溶液進行處理。鎂離子溶液會把mRNA打斷。
被打斷的這些mRNA片段,再用隨機引物進行逆轉(zhuǎn)錄。
逆轉(zhuǎn)錄成(第一鏈)cDNA后,再合成出第二鏈(cDNA)。這樣就成為雙鏈的cDNA。我們再在雙鏈的cDNA的兩端接上“Y”型的接頭。就成了標準的測序文庫,這個標準的測序文庫就可以拿到HiSeq測序儀上進行測序了。
樣本質(zhì)量要求
這個建庫方法對RNA的完整度有較高的要求。也就是說,只有在mRNA大部分是完整的狀態(tài)下,才能得到比較好的效果。這是因為帶Poly(T)的磁珠,它所吸附的是Poly(A)的那些序列。那么如果mRNA發(fā)生了降解,也就是mRNA斷掉了,那么磁珠所吸附下來的片段,都是那些靠近3'端的那些斷片,而那些5'端的斷片呢,是吸附不下來的。會在富集過程中被洗脫掉。
那么接下來的數(shù)據(jù)分析當中,就會發(fā)生一定的數(shù)據(jù)偏差。為了保證能夠測到盡可能完整的mRNA序列呢,Illumina公司是這樣建議的:它建議先對總RNA進行一次質(zhì)量檢測,一般是用Agilent公司出品的Bioanalyzer 2100毛細管電泳儀,對總RNA樣本進行一次電泳質(zhì)檢。那Bioanalyzer吶會根據(jù)18S和28S這兩個核糖體RNA的電泳峰是否高、是否尖,來判斷RNA的質(zhì)量。并且會自動打分。
這兩個峰越高、越尖,也就說明RNA的降解就越少,完整度就越高。那么打分也會越高。反之,打分就會低。這個分值叫RIN值。也就是RNA的完整度評分值。是“RNA Integrity Number”的英文首字母縮寫。RIN值最高是10分,最低是0分。
Illumina公司推薦用RIN值在8.0以上的RNA進行建庫和測序。測序完成之后吶,就可以進行數(shù)據(jù)分析了。
數(shù)據(jù)分析
- 第一步,一般是先把測到的RNA片段,先mapping(比對)到基因組上,在比對完了之后,可以先看一下,有多少的RNA片段,是在靠近基因的5'端的位置,又有多少片段在是靠近基因的3'端的位置。
這張圖上,就是把所有的基因,都按其外顯子的長度吶,拉直,歸一化到“0 - 100”的這樣一個長度。來看比對上的片段,有多少是落在這0到100的這一個軸的哪個位置上。這樣一個比對的結(jié)果,就可以讓我們看見前面Poly(T)磁珠在抓mRNA的時侯。捕獲下來的這些mRNA是不是完整的,如果捕獲下來的這些mRNA大部分是完整的話吶,那么這個圖形靠近5'端的曲線就會顯得比較飽滿。它的高度會和3'端的高度差不多。反之,如果這根曲線的3'端是很高的,而5'端是比較低的,我們就可以初步判斷,這個RNA有一定程度的降解。因此,我們可以推斷在捕獲過程當中,有相當一部分(mRNA),它的5'片段因為與3'片段的Poly(A)片段的尾巴斷開了,所以,沒有被捕獲下來。所以,這個RNA吶,是有一定程度降解的。
在知道了測序的質(zhì)量之后吶,接下大家來要關(guān)注的就是不同樣本之間、各個基因的mRNA的表達量的差異。
RPKM 指標
那么在做這些比較的過程當中,目前最常用的,對基因表達量進行相對定量的一個指標,就是RPKM值。那么RPKM是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母縮寫。
RPKM翻譯成中文就是每一百萬條可以比對到基因組上的Read當中,有幾條是可以比對到某個特定基因的,然后這數(shù)值再除以該基因的外顯子的長度,得到的這樣一個最終的比值。
它的分子是經(jīng)對到某個基因的外顯子的read數(shù)。它的分母的第一項是這次所有比對到基因組上的read數(shù)(M reads,MillionReads),分母的第二項是這個特定基因的外顯子的長度。
我們接下來分步地對這個公式進行一下解釋,首先,就是比對到某個基因的外顯子上的Read數(shù),去除以這次所測到的、全部可以比對到基因組上的Read數(shù)。這個比較容易理解就是:這個基因所表達出來的mRNA,它所被測到的片段,來和所有被測到的、可以Mapping(比對)到基因組上的片段來進行比較。比較費解的是,為什么還要除以第二項,就是“除以這個外顯子的長度”。這是因為建庫過程當中,這個RNA是用鎂離子溶液來處理,然后打斷(并逆錄)成若干個180-200BP左右的小片段,如果一個基因的長顯子越長,那么它所產(chǎn)生的mRNA就越長,那么mRNA越長吶,被打出來的小片段就越多。我們來假設(shè),一個A基因,它的mRNA的長度吶,假設(shè)它是1Kb,那么它的1Kb的mRNA可能被打成“5”個,200Bp左右的小片段;那么還有一個B基因,如果這個B基因的mRNA是2Kb長,那么,它同樣被打成200Bp左右的小片段吶,它就會產(chǎn)生“10”個小片段。我們來看,A基因是5個小片段,而B基因是整整10個小片段,所以,B基因在測序過程當中,它被測到的概率就會比A基因整整大出去一倍。這就是我們?yōu)槭裁匆褎偛诺谝豁棻瘸鰜淼谋戎祬?,然后再除以這個外顯子的長度。
通過上面的解釋吶,我們就可以理解:除以這個外顯子的長度,它的目的:是修正這個mRNA長度所引起的mRNA的Read數(shù)的偏差。通過這種修正吶,能夠還原出一個比較真實的、原始的表達拷貝數(shù)狀態(tài)。這就是“RPKM”定義的原理。
火山圖
那么作為一種針對全轉(zhuǎn)錄組的分析,我們希望是一次看到一個整體的樣本(表達)差異的情況。而不僅僅是看少數(shù)幾個基因的表達差異??茖W(xué)家做了一種叫“火山圖”的一個圖形,來比較形象地來說明2個樣本之間的表達差異。
那么我們來看這張圖,這個樣子就象火山噴發(fā)的樣子,這是2個樣本的RNA的表達量的對比。這個圖的橫軸吶,是表示某個基因的表達是上升了,還是下降了。
縱軸是表示這種差異的置信程度,這其中的每個點,就是兩個樣本當中同一個基因的mRNA表達量的變化。如果這個基因的表達是上調(diào)了,那么這個點就往右移動。反之,如果這個基因的表達量是下調(diào)了,那么這個點就往原點的左移動。
那么這個縱軸,就是這種變化差異的置信程度。如果這個置信程度越高吶,那么這個點的縱軸位置也越高。那么我們在縱軸上劃了這樣一條水平線,超過這個水平線以上的(點)吶,(其差異水平的)置信程度是很高的。我們就把它標示成紅顏色。如果低于(這條水平線的)置信程度吶,它的置信程度也相對低一些,我們把它標成藍顏色。
這里要解釋一下,為什么差異程度是相同的情況下,它們的差異置信程度是不一樣的。比如說同樣是差了2的5次方,也就是32倍,它的差異置信程度會不一樣,有些是藍點,有些是紅點。
A基因在甲樣本中,被測到了3200條,而在乙樣本中被測到了100條;B基因在甲樣本中,被測到了320條,而在乙樣本中被測到了10條。它們同樣是差了31倍,但是因為A基因的樣本統(tǒng)計數(shù),遠大于B基因的樣本統(tǒng)計數(shù),也就是說,它們的Reads數(shù)有那么大的差距。所以,A基因的這個差異的置信程度,會比B基因的這個差異置信程度要高許多。
那么,我們再來對比這兩張圖。那么就可以比較直觀地發(fā)覺,左側(cè)的這個圖當中,有更多的基因表現(xiàn)出明顯的差異,這樣吶,火山圖就為我們提供了一個形象的、直觀的、整體表達差異信息。
聚類分析圖
聚類分析吶,是RNA分析中非常常用的一個手段。它是通過多個樣本的全基因表達譜對比,來找到它們之間的相似性和相近關(guān)系。這是一張聚類分析的圖,橫軸是樣本,縱軸是基因。通過聚類分析,可以發(fā)現(xiàn):在這個群體中,樣本被分成了3個群體。
每個群體的內(nèi)部吶,都有著相似的表達特征。同時,我們還可以看到,基因的表達,也是成簇的,大體上分成3個基因群。那么這3個基因群各自有著相似的表達量。聚類分析有很多的應(yīng)用,比如說:我們可以分析疾病的亞型。那么還可以通過對多個基因在特定疾病當中的表達傾向性,來找出可能的、新的、診斷用的Biomark。
GO分析
GO分析是RNA-seq分析中非常常用的一種分析。GO是Gene Ontology的縮寫,GeneOntology吶是一個國際化的、基因功能分類體系。這個體系用一整套動態(tài)更新的標準詞匯、和嚴格定義的概念,來全面地概括任何生物中基因和基因產(chǎn)物的屬性。
GO主要描述基因的三個屬性:
第一,是這個基因,它參與的生物過程
第二,是這個基因的產(chǎn)物的功能
第三、是這個基因產(chǎn)物在細胞器內(nèi)的空間定位
差異基因GO富集柱狀圖:可以直觀的反映出在生物過程、細胞組分、和分子功能富集的差異基因的個數(shù)分布情況。
有向無環(huán)圖,是差異基因GO富集分析的圖形化展示方式,從上到下吶,它所定義的功能范圍越來越小、越來越精準。它的分支吶,表示包含關(guān)系。而這個圈圈的顏色越深吶,表示這個富集關(guān)系程度越高。
Pathway分析
通路分析:通路(Pathway)是指在系統(tǒng)水平上完成生物的某一功能的基本單元、或者局部子網(wǎng)絡(luò)。KEGG,也就是:Kyoto Encyclopaedia of Genes andGenomes。翻成中文:就是《京都基因和基因組百科全書》,是目前公認的、最權(quán)威的基因功能數(shù)據(jù)庫。這其中的Pathway(通路)是KEGG的核心內(nèi)容。目前針對Pathway的分析、注釋,大多數(shù)是基于KEGGPathway來做的。
散點圖是KEGG富集分析結(jié)果的圖形化展示方式。在此圖中,KEGG富集程度通過Rich factor、Qvalue和富集到此通路上的基因個數(shù)來衡量。點的面積越大,則富集的基因數(shù)越多。富集的因子越大,則表示富集的程度越大。qValue是校正之后的pValue。那么它越接近于0,表示富集程度越顯著。
結(jié)構(gòu)變異分析
前面講的都是基于RNA表達量的差異分析。接下來吶是RNA-seq當中,可以測到的mRNA上的各種結(jié)構(gòu)上的變異。所謂結(jié)構(gòu)上的變異吶,也就是RNA序列的變異。主要吶,是3種:
第1種,是可變剪接
第2種吶,是融合基因
第3種吶,是點突變,也就是SNP
結(jié)構(gòu)分析需要較深的測序深度
對于想要測mRNA結(jié)構(gòu)變異的用戶呢,建議測序深度要測比較深。我們一般是建議測10G以上的數(shù)據(jù)量。原因是二代測序,目前的測長還不是很長,每一個Read,只有大約100到125個Bp左右。如果測序深度不夠,那么讀到的這些read在整個的mRNA上的分布,是一種比較零碎的一種狀態(tài)。那么在這種比較零碎的、不完整的覆蓋情況下,要去分析哪里有一個剪接點,哪里有一個斷點,哪里有一個SNP,它不是很準確的。
當測序深度足夠深的時侯,在每一個位點,都有10幾次、或者幾10次的覆蓋的時侯,我們就可以比較有把握地來判斷出,哪兒有了一個新的剪接點,哪兒出現(xiàn)了一個斷點,哪兒堿基發(fā)生了突變。
可變剪接
可變剪接,在真核生物中普通存在。一般一個人的組織樣本當中,可以通過高通量測序,發(fā)現(xiàn)有5000個到20000個左右的可變剪接。
融合基因
融合基因,是指原來在基因組上分開的2個基因,因為某種原因,染色體發(fā)生了重排。重排的結(jié)果是讓A基因的頭,接到了B基因的身體上,這樣就產(chǎn)生了融合基因。上圖就是一個癌細胞中的融合基因的示意圖。我們可以看到這10幾個Reads都橫跨在這個融合基因的、交接點的兩側(cè),由此吶,證明了這個癌細胞當中有這么一個融合基因。
點突變
RNA-seq還可以找出點突變,這個吶,是一張泡泡圖,來表示我們所找到的點突變。發(fā)生突變頻率最高的這個基因,就用最大的泡泡來表示。(突變)頻率低一點的,就畫一個小一點的泡泡(頻率),再小一點,那么再小一點的泡泡。
這些泡泡呈逆時針排列,形成這樣一個泡泡圖。
參考:https://mp.weixin.qq.com/s/Or8Q4ps885W_6QffLclCig
歡迎關(guān)注oddxix
有趣的靈魂等著你~
如果覺得寫的不錯記得點個贊哦~