RNA-seq學(xué)習(xí):No.1什么是RNA-seq?

RNA-seq即轉(zhuǎn)錄組測序技術(shù),就是把mRNA,smallRNA等用高通量測序技術(shù)把它們的序列測出來,反映出它們的表達(dá)水平。

mRNA:信使message RNA是由DNA的一條鏈作為模板轉(zhuǎn)錄而來的、攜帶遺傳信息的能指導(dǎo)蛋白質(zhì)合成的一類單鏈核糖核酸。
small RNA:小分子RNA是一類長約20~30個(gè)核苷酸的非編碼RNA分子,是一大類調(diào)控分子,包括:miRNA、ncRNA、siRNA、snoRNA、piRNA、rasiRNA等等。

這里提到了轉(zhuǎn)錄組的概念。搞清楚這個(gè)概念,就能理解之后 我們在做什么?為什么這
樣做?

  • 轉(zhuǎn)錄組(transcriptome)廣義上指某一生理?xiàng)l件下,細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,包括信使RNA、核糖體RNA、轉(zhuǎn)運(yùn)RNA及非編碼RNA;狹義上指所有mRNA的集合。
  • 轉(zhuǎn)錄本(transcript) 在后期還會遇到一個(gè)類似的概念—轉(zhuǎn)錄本,它是指由一條基因通過轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。

說到這里,我們就從基因開始縷一縷把~

gene

基因是有遺傳效應(yīng)的DNA片段,可分為編碼區(qū)與非編碼區(qū),而編碼區(qū)包含外顯子與內(nèi)含子。根據(jù)中心法則的核心,遺傳信息從DNA傳遞給RNA,再從RNA傳遞給蛋白質(zhì),即完成遺傳信息的轉(zhuǎn)錄和翻譯的過程。

1、外顯子(expressed region,exon)是能最后出現(xiàn)在成熟RNA中的基因序列,又稱表達(dá)序列;它在剪接(Splicing)后仍會被保存下來,并可在蛋白質(zhì)生物合成過程中被表達(dá)為蛋白質(zhì)。
2、內(nèi)含子(Intron)是一個(gè)基因中非編碼DNA片段,它分開相鄰的外顯子。更精確的定義是:內(nèi)含子是阻斷基因線性表達(dá)的序列。

遺傳信息的傳遞

在轉(zhuǎn)錄時(shí),首先遺傳信息由DNA編碼區(qū)直接全部轉(zhuǎn)錄,形成Primary transript,又稱hnRNA,為mRNA的前體;再由hnRNA進(jìn)行剪切,將能夠編碼蛋白質(zhì)的外顯子(exon)拼接成mRNA。最后,由攜帶遺傳信息的mRNA翻譯成蛋白質(zhì)。由于此時(shí)的mRNA完整攜帶了基因的表達(dá)信息(沒有內(nèi)含子等的干擾),故通過對mRNA測序可以反映完整的表達(dá)信息。
isoform

  • 但是需要注意的是,剪切可不只有將所有外顯子拼接的一種方式,事實(shí)上參加剪接的外顯子可以不按其線性次序剪接,或內(nèi)含子是否出內(nèi)含子也可以不被切除而保留,即一個(gè)外顯子現(xiàn)在成熟mRNA中是可以選擇的,這種剪接方式稱為選擇性剪接(Alternative splicing, AS)。
  • 一種基因可以經(jīng)AS產(chǎn)生不同的剪切異構(gòu)體(isofrom)編碼不同的蛋白質(zhì),而這里isoform的概念即上面提到的轉(zhuǎn)錄本。一個(gè)基因可能存在多個(gè)轉(zhuǎn)錄本。如上圖,基因經(jīng)AS形成isoform1與isoform2分別翻譯成不同的蛋白,執(zhí)行不同的生理功能。

回到RNA-seq,通常所說的RNA-seq中涉及到的轉(zhuǎn)錄組,即狹義方面的轉(zhuǎn)錄組,即某個(gè)物種或特定細(xì)脃類型產(chǎn)生的所有轉(zhuǎn)錄本的集合。通過測序,能夠直接反應(yīng)不同mRNA對應(yīng)的基因表達(dá)量的差異,并進(jìn)行深入的分析。


流程

簡單來說—將獲得的所有mRNA反轉(zhuǎn)錄為DNA鏈,打碎成300bp左右的片段(為什么要這個(gè)長度,之后測序會說),這時(shí)一個(gè)片段稱為一個(gè)reads。根據(jù)已有的參考基因組及注釋文件,將獲得的所有reads歸類到原屬的基因上。這樣就獲得了表達(dá)矩陣(哪些基因有多少個(gè)reads比對上),到此稱為上游分析,通常在Linux平臺中完成?;谒@得的表達(dá)矩陣,可進(jìn)行各種數(shù)據(jù)分析,比如基本的差異基因分析,還有富集分析等等,這些可歸類為RNA-seq的下游分析,通常需要利用R語言工具來完成。


上面的流程圖是從網(wǎng)上找到的一張圖。感覺下游分析,自己也暫時(shí)只接觸了幾個(gè),之后再了解下其它的吧。


這里提一下上面說的是有參轉(zhuǎn)錄組的情況。如果所研究的物種(比如人,老鼠等)有組裝注釋質(zhì)量較好基因組序列,且和該基因組序列比對效率較高,那么可以采用有參轉(zhuǎn)錄組的分析策略。如果做的是比較小眾的物種,那么就要采用無參轉(zhuǎn)錄組的分析,這里就不介紹了。


上述為目前階段我所了解的分析流程,會涉及到測序原理、Linux、R語言,以及基礎(chǔ)的生物學(xué)、統(tǒng)計(jì)學(xué)的一些知識。目前多方面都進(jìn)行了初步的探索,會嘗試自己在簡書上梳理一下。

  • 關(guān)于Linux、R語言已經(jīng)專門列了專題,進(jìn)行基礎(chǔ)學(xué)習(xí);
  • 其它的一些基礎(chǔ)知識以及實(shí)操會在這個(gè)系列里逐一梳理。

關(guān)于文中提到的內(nèi)容,如有錯(cuò)誤,懇請指正!部分圖片來自網(wǎng)上,侵刪~

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 氨基酸是蛋白質(zhì)的基本結(jié)構(gòu)單位,參與合成蛋白質(zhì)的氨基酸有20種,可作為原料在核糖體工廠通過肽鍵連接形成多肽鏈,都有密...
    官敏慧閱讀 6,401評論 0 7
  • 知識的學(xué)習(xí)沒有一蹴而就,沒有捷近,扎實(shí)的學(xué)習(xí)是唯一的捷近。 一篇RNA-seq分析流程的綜述,全面而詳細(xì)!深度好文...
    dandanwu90閱讀 49,969評論 5 152
  • DNA是遺傳物質(zhì),是攜帶遺傳信息的載體。信息從基因的核苷酸序列中被提取出,用來指導(dǎo)蛋白質(zhì)合成的過程對地球上的所有生...
    oddxix閱讀 22,157評論 0 8
  • 基因的基本組成 基因是具有功能的DNA序列片段,由編碼序列和非編碼序列交替構(gòu)成,我們又稱為割裂基因 split g...
    墻壁上的人閱讀 1,932評論 0 5
  • “‘啊——’”他發(fā)出野獸般的咆哮,咆哮里頭夾雜絕望與混亂的哀號。” 再次讀罷《嫌疑人X的獻(xiàn)身》,內(nèi)心仍不免有所傷感...
    等小鴨子的dog閱讀 392評論 0 0

友情鏈接更多精彩內(nèi)容