歡迎關(guān)注oddxix

RNA-seq是高通量測序中最常見的一種應(yīng)用，本期視頻介紹其：
1.方法原理
2.生物信息分析

表達差異
（1）火山圖展示
（2）聚類分析
（3）GO分析
（4）Pathway分析（KEGG分析）
結(jié)構(gòu)變異
（1）可變剪接
（2）融合基因
（3）點突變

RNA高通量測序（RNA-sequencing,縮寫為RNA-seq）是目前高通量測序技術(shù)中被用得最廣的一種技術(shù)，RNA-seq可以幫助我們了解：各種比較條件下，所有基因的表達情況的差異。它可以檢測的差異有：正常組織和腫瘤組織的之間的差異；也可以檢測藥物治療前后基因表達的差異；還可以檢測發(fā)育過程中，不同的發(fā)育階段，不同的組織之間的基因表達差異。諸如此類。那么在所有檢測的差異類型中，最常見的，就是檢測所有mRNA的表達量的差異，這是最常用的一種檢測。同時，我們還可以檢測 RNA 的結(jié)構(gòu)上的差異。例如：mRNA的剪接方式的差異，也就是我們一般說的可變剪接，還可以檢測融合基因，同時還可以檢測基因單點突變導(dǎo)致的SNP（Single Nucleotide Polymorphisom)。

接下來，我們分成RNA-seq測序方法和RNA-seq測序數(shù)據(jù)分析兩個部分，分別介紹RNA-seq。

RNA測序方法

在測mRNA的過程當中，首先要解決的問題，是如何去除核糖體RNA也就是去除“rRNA”(Ribosomal RNA)。在通常抽提到的總RNA中，絕大部分都是核糖體RNA（rRNA）。以人類的細胞或組織為例，一般抽提到的總RNA當中，95%都是核糖體RNA。剩下的2%到3%是mRNA。還有吶，2%到3%是Long non-coding RNA、或者tRNA、microRNA,這些RNA，也就是說mRNA只占了所有RNA中的一小部分。

如果我們把所有的RNA都拿來測序的話，測到的絕大部分的序列數(shù)據(jù)都是核糖體RNA。而且這當中（rRNA）比例會高達95%左右，但是，核糖體RNA在整個人類當中都是非常保守的，而且在人的各個組織、器官當中也是極度穩(wěn)定的。也就是說，測rRNA，它得到的數(shù)據(jù)，并不能為我們實驗者提供什么有用的信息，而mRNA才是RNA當中信息含量最豐富的那個部分。

我們一般的RNA-seq要測的，也是mRNA的各種變化，所以在實驗過程當中，我們一般要把核糖體RNA先去掉。然后再進行建庫測序。

去除核糖體RNA，并進行建庫的方法，有許多種。我們主要介紹一下應(yīng)用最廣泛的illumina公司的TruseqRNA建庫方法。

下圖是mRNA測序的建庫過程圖。首先是利用高等生物的mRNA都有Poly(A)尾巴這個特點，用帶有Poly(T)探針的磁珠與總RNA進行雜交。然后Poly(T)探針就和帶Poly(A)尾巴的mRNA結(jié)合在一起，接下來就回收磁珠，然后把這些帶Poly(A)的mRNA從磁珠上洗脫下來。

再把這些洗脫下來的mRNA用鎂離子溶液進行處理。鎂離子溶液會把mRNA打斷。

被打斷的這些mRNA片段，再用隨機引物進行逆轉(zhuǎn)錄。

逆轉(zhuǎn)錄成（第一鏈）cDNA后，再合成出第二鏈（cDNA)。這樣就成為雙鏈的cDNA。我們再在雙鏈的cDNA的兩端接上“Y”型的接頭。就成了標準的測序文庫，這個標準的測序文庫就可以拿到HiSeq測序儀上進行測序了。

樣本質(zhì)量要求

這個建庫方法對RNA的完整度有較高的要求。也就是說，只有在mRNA大部分是完整的狀態(tài)下，才能得到比較好的效果。這是因為帶Poly(T)的磁珠，它所吸附的是Poly(A)的那些序列。那么如果mRNA發(fā)生了降解，也就是mRNA斷掉了，那么磁珠所吸附下來的片段，都是那些靠近3'端的那些斷片，而那些5'端的斷片呢，是吸附不下來的。會在富集過程中被洗脫掉。

那么接下來的數(shù)據(jù)分析當中，就會發(fā)生一定的數(shù)據(jù)偏差。為了保證能夠測到盡可能完整的mRNA序列呢，Illumina公司是這樣建議的：它建議先對總RNA進行一次質(zhì)量檢測，一般是用Agilent公司出品的Bioanalyzer 2100毛細管電泳儀，對總RNA樣本進行一次電泳質(zhì)檢。那Bioanalyzer吶會根據(jù)18S和28S這兩個核糖體RNA的電泳峰是否高、是否尖，來判斷RNA的質(zhì)量。并且會自動打分。

這兩個峰越高、越尖，也就說明RNA的降解就越少，完整度就越高。那么打分也會越高。反之，打分就會低。這個分值叫RIN值。也就是RNA的完整度評分值。是“RNA Integrity Number”的英文首字母縮寫。RIN值最高是10分，最低是0分。

Illumina公司推薦用RIN值在8.0以上的RNA進行建庫和測序。測序完成之后吶，就可以進行數(shù)據(jù)分析了。

數(shù)據(jù)分析

第一步，一般是先把測到的RNA片段，先mapping(比對)到基因組上，在比對完了之后，可以先看一下，有多少的RNA片段，是在靠近基因的5'端的位置，又有多少片段在是靠近基因的3'端的位置。

這張圖上，就是把所有的基因，都按其外顯子的長度吶，拉直，歸一化到“0 - 100”的這樣一個長度。來看比對上的片段，有多少是落在這0到100的這一個軸的哪個位置上。這樣一個比對的結(jié)果，就可以讓我們看見前面Poly(T)磁珠在抓mRNA的時侯。捕獲下來的這些mRNA是不是完整的，如果捕獲下來的這些mRNA大部分是完整的話吶，那么這個圖形靠近5'端的曲線就會顯得比較飽滿。它的高度會和3'端的高度差不多。反之，如果這根曲線的3'端是很高的，而5'端是比較低的，我們就可以初步判斷，這個RNA有一定程度的降解。因此，我們可以推斷在捕獲過程當中，有相當一部分（mRNA），它的5'片段因為與3'片段的Poly(A)片段的尾巴斷開了，所以，沒有被捕獲下來。所以，這個RNA吶，是有一定程度降解的。

在知道了測序的質(zhì)量之后吶，接下大家來要關(guān)注的就是不同樣本之間、各個基因的mRNA的表達量的差異。

RPKM 指標

那么在做這些比較的過程當中，目前最常用的，對基因表達量進行相對定量的一個指標，就是RPKM值。那么RPKM是Reads Per Kilobase of exon model perMillion mapped reads的英文的首字母縮寫。

RPKM翻譯成中文就是每一百萬條可以比對到基因組上的Read當中，有幾條是可以比對到某個特定基因的，然后這數(shù)值再除以該基因的外顯子的長度，得到的這樣一個最終的比值。

它的分子是經(jīng)對到某個基因的外顯子的read數(shù)。它的分母的第一項是這次所有比對到基因組上的read數(shù)（M reads，MillionReads），分母的第二項是這個特定基因的外顯子的長度。

我們接下來分步地對這個公式進行一下解釋，首先，就是比對到某個基因的外顯子上的Read數(shù)，去除以這次所測到的、全部可以比對到基因組上的Read數(shù)。這個比較容易理解就是：這個基因所表達出來的mRNA,它所被測到的片段，來和所有被測到的、可以Mapping(比對）到基因組上的片段來進行比較。比較費解的是，為什么還要除以第二項，就是“除以這個外顯子的長度”。這是因為建庫過程當中，這個RNA是用鎂離子溶液來處理，然后打斷（并逆錄）成若干個180-200BP左右的小片段，如果一個基因的長顯子越長，那么它所產(chǎn)生的mRNA就越長，那么mRNA越長吶，被打出來的小片段就越多。我們來假設(shè)，一個A基因，它的mRNA的長度吶，假設(shè)它是1Kb，那么它的1Kb的mRNA可能被打成“5”個，200Bp左右的小片段；那么還有一個B基因，如果這個B基因的mRNA是2Kb長，那么，它同樣被打成200Bp左右的小片段吶，它就會產(chǎn)生“10”個小片段。我們來看，A基因是5個小片段，而B基因是整整10個小片段，所以，B基因在測序過程當中，它被測到的概率就會比A基因整整大出去一倍。這就是我們?yōu)槭裁匆褎偛诺谝豁棻瘸鰜淼谋戎祬?，然后再除以這個外顯子的長度。

通過上面的解釋吶，我們就可以理解：除以這個外顯子的長度，它的目的：是修正這個mRNA長度所引起的mRNA的Read數(shù)的偏差。通過這種修正吶，能夠還原出一個比較真實的、原始的表達拷貝數(shù)狀態(tài)。這就是“RPKM”定義的原理。

火山圖

那么作為一種針對全轉(zhuǎn)錄組的分析，我們希望是一次看到一個整體的樣本（表達）差異的情況。而不僅僅是看少數(shù)幾個基因的表達差異?？茖W(xué)家做了一種叫“火山圖”的一個圖形，來比較形象地來說明2個樣本之間的表達差異。

那么我們來看這張圖，這個樣子就象火山噴發(fā)的樣子，這是2個樣本的RNA的表達量的對比。這個圖的橫軸吶，是表示某個基因的表達是上升了，還是下降了。

縱軸是表示這種差異的置信程度，這其中的每個點，就是兩個樣本當中同一個基因的mRNA表達量的變化。如果這個基因的表達是上調(diào)了，那么這個點就往右移動。反之，如果這個基因的表達量是下調(diào)了，那么這個點就往原點的左移動。

那么這個縱軸，就是這種變化差異的置信程度。如果這個置信程度越高吶，那么這個點的縱軸位置也越高。那么我們在縱軸上劃了這樣一條水平線，超過這個水平線以上的（點）吶，（其差異水平的）置信程度是很高的。我們就把它標示成紅顏色。如果低于（這條水平線的）置信程度吶，它的置信程度也相對低一些，我們把它標成藍顏色。

這里要解釋一下，為什么差異程度是相同的情況下，它們的差異置信程度是不一樣的。比如說同樣是差了2的5次方，也就是32倍，它的差異置信程度會不一樣，有些是藍點，有些是紅點。

A基因在甲樣本中，被測到了3200條，而在乙樣本中被測到了100條；B基因在甲樣本中，被測到了320條，而在乙樣本中被測到了10條。它們同樣是差了31倍，但是因為A基因的樣本統(tǒng)計數(shù)，遠大于B基因的樣本統(tǒng)計數(shù)，也就是說，它們的Reads數(shù)有那么大的差距。所以，A基因的這個差異的置信程度，會比B基因的這個差異置信程度要高許多。

那么，我們再來對比這兩張圖。那么就可以比較直觀地發(fā)覺，左側(cè)的這個圖當中，有更多的基因表現(xiàn)出明顯的差異，這樣吶，火山圖就為我們提供了一個形象的、直觀的、整體表達差異信息。

聚類分析圖

聚類分析吶，是RNA分析中非常常用的一個手段。它是通過多個樣本的全基因表達譜對比，來找到它們之間的相似性和相近關(guān)系。這是一張聚類分析的圖，橫軸是樣本，縱軸是基因。通過聚類分析，可以發(fā)現(xiàn)：在這個群體中，樣本被分成了3個群體。

每個群體的內(nèi)部吶，都有著相似的表達特征。同時，我們還可以看到，基因的表達，也是成簇的，大體上分成3個基因群。那么這3個基因群各自有著相似的表達量。聚類分析有很多的應(yīng)用，比如說：我們可以分析疾病的亞型。那么還可以通過對多個基因在特定疾病當中的表達傾向性，來找出可能的、新的、診斷用的Biomark。

GO分析

GO分析是RNA-seq分析中非常常用的一種分析。GO是Gene Ontology的縮寫，GeneOntology吶是一個國際化的、基因功能分類體系。這個體系用一整套動態(tài)更新的標準詞匯、和嚴格定義的概念，來全面地概括任何生物中基因和基因產(chǎn)物的屬性。

GO主要描述基因的三個屬性：

第一，是這個基因，它參與的生物過程
第二，是這個基因的產(chǎn)物的功能
第三、是這個基因產(chǎn)物在細胞器內(nèi)的空間定位

差異基因GO富集柱狀圖：可以直觀的反映出在生物過程、細胞組分、和分子功能富集的差異基因的個數(shù)分布情況。

有向無環(huán)圖，是差異基因GO富集分析的圖形化展示方式，從上到下吶，它所定義的功能范圍越來越小、越來越精準。它的分支吶，表示包含關(guān)系。而這個圈圈的顏色越深吶，表示這個富集關(guān)系程度越高。

Pathway分析

通路分析：通路（Pathway）是指在系統(tǒng)水平上完成生物的某一功能的基本單元、或者局部子網(wǎng)絡(luò)。KEGG，也就是：Kyoto Encyclopaedia of Genes andGenomes。翻成中文：就是《京都基因和基因組百科全書》，是目前公認的、最權(quán)威的基因功能數(shù)據(jù)庫。這其中的Pathway(通路）是KEGG的核心內(nèi)容。目前針對Pathway的分析、注釋，大多數(shù)是基于KEGGPathway來做的。

散點圖是KEGG富集分析結(jié)果的圖形化展示方式。在此圖中，KEGG富集程度通過Rich factor、Qvalue和富集到此通路上的基因個數(shù)來衡量。點的面積越大，則富集的基因數(shù)越多。富集的因子越大，則表示富集的程度越大。qValue是校正之后的pValue。那么它越接近于0，表示富集程度越顯著。

結(jié)構(gòu)變異分析

前面講的都是基于RNA表達量的差異分析。接下來吶是RNA-seq當中，可以測到的mRNA上的各種結(jié)構(gòu)上的變異。所謂結(jié)構(gòu)上的變異吶，也就是RNA序列的變異。主要吶，是3種：

第1種，是可變剪接
第2種吶，是融合基因
第3種吶，是點突變，也就是SNP

結(jié)構(gòu)分析需要較深的測序深度

對于想要測mRNA結(jié)構(gòu)變異的用戶呢，建議測序深度要測比較深。我們一般是建議測10G以上的數(shù)據(jù)量。原因是二代測序，目前的測長還不是很長，每一個Read，只有大約100到125個Bp左右。如果測序深度不夠，那么讀到的這些read在整個的mRNA上的分布，是一種比較零碎的一種狀態(tài)。那么在這種比較零碎的、不完整的覆蓋情況下，要去分析哪里有一個剪接點，哪里有一個斷點，哪里有一個SNP，它不是很準確的。

當測序深度足夠深的時侯，在每一個位點，都有10幾次、或者幾10次的覆蓋的時侯，我們就可以比較有把握地來判斷出，哪兒有了一個新的剪接點，哪兒出現(xiàn)了一個斷點，哪兒堿基發(fā)生了突變。

可變剪接

可變剪接，在真核生物中普通存在。一般一個人的組織樣本當中，可以通過高通量測序，發(fā)現(xiàn)有5000個到20000個左右的可變剪接。

融合基因

融合基因，是指原來在基因組上分開的2個基因，因為某種原因，染色體發(fā)生了重排。重排的結(jié)果是讓A基因的頭，接到了B基因的身體上，這樣就產(chǎn)生了融合基因。上圖就是一個癌細胞中的融合基因的示意圖。我們可以看到這10幾個Reads都橫跨在這個融合基因的、交接點的兩側(cè)，由此吶，證明了這個癌細胞當中有這么一個融合基因。

點突變

RNA-seq還可以找出點突變，這個吶，是一張泡泡圖，來表示我們所找到的點突變。發(fā)生突變頻率最高的這個基因，就用最大的泡泡來表示。（突變）頻率低一點的，就畫一個小一點的泡泡（頻率），再小一點，那么再小一點的泡泡。
這些泡泡呈逆時針排列，形成這樣一個泡泡圖。

參考：https://mp.weixin.qq.com/s/Or8Q4ps885W_6QffLclCig

歡迎關(guān)注oddxix

有趣的靈魂等著你~

如果覺得寫的不錯記得點個贊哦~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【陳巍學(xué)基因-2】RNA-seq

【陳巍學(xué)基因-2】RNA-seq

RNA測序方法

樣本質(zhì)量要求

數(shù)據(jù)分析

RPKM 指標

火山圖

聚類分析圖

GO分析

Pathway分析

結(jié)構(gòu)變異分析

可變剪接

融合基因

點突變

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【陳巍學(xué)基因-2】RNA-seq

RNA測序方法

樣本質(zhì)量要求

數(shù)據(jù)分析

RPKM 指標

火山圖

聚類分析圖

GO分析

Pathway分析

結(jié)構(gòu)變異分析

可變剪接

融合基因

點突變

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av