RNA-seq即轉(zhuǎn)錄組測序技術(shù),就是把mRNA,smallRNA等用高通量測序技術(shù)把它們的序列測出來,反映出它們的表達(dá)水平。
mRNA:信使message RNA是由DNA的一條鏈作為模板轉(zhuǎn)錄而來的、攜帶遺傳信息的能指導(dǎo)蛋白質(zhì)合成的一類單鏈核糖核酸。
small RNA:小分子RNA是一類長約20~30個(gè)核苷酸的非編碼RNA分子,是一大類調(diào)控分子,包括:miRNA、ncRNA、siRNA、snoRNA、piRNA、rasiRNA等等。
這里提到了轉(zhuǎn)錄組的概念。搞清楚這個(gè)概念,就能理解之后 我們在做什么?為什么這
樣做?
- 轉(zhuǎn)錄組(transcriptome)廣義上指某一生理?xiàng)l件下,細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,包括信使RNA、核糖體RNA、轉(zhuǎn)運(yùn)RNA及非編碼RNA;狹義上指所有mRNA的集合。
- 轉(zhuǎn)錄本(transcript) 在后期還會遇到一個(gè)類似的概念—轉(zhuǎn)錄本,它是指由一條基因通過轉(zhuǎn)錄形成的一種或多種可供編碼蛋白質(zhì)的成熟的mRNA。
說到這里,我們就從基因開始縷一縷把~

基因是有遺傳效應(yīng)的DNA片段,可分為編碼區(qū)與非編碼區(qū),而編碼區(qū)包含外顯子與內(nèi)含子。根據(jù)中心法則的核心,遺傳信息從DNA傳遞給RNA,再從RNA傳遞給蛋白質(zhì),即完成遺傳信息的轉(zhuǎn)錄和翻譯的過程。
1、外顯子(expressed region,exon)是能最后出現(xiàn)在成熟RNA中的基因序列,又稱表達(dá)序列;它在剪接(Splicing)后仍會被保存下來,并可在蛋白質(zhì)生物合成過程中被表達(dá)為蛋白質(zhì)。
2、內(nèi)含子(Intron)是一個(gè)基因中非編碼DNA片段,它分開相鄰的外顯子。更精確的定義是:內(nèi)含子是阻斷基因線性表達(dá)的序列。

在轉(zhuǎn)錄時(shí),首先遺傳信息由DNA編碼區(qū)直接全部轉(zhuǎn)錄,形成Primary transript,又稱hnRNA,為mRNA的前體;再由hnRNA進(jìn)行剪切,將能夠編碼蛋白質(zhì)的外顯子(exon)拼接成mRNA。最后,由攜帶遺傳信息的mRNA翻譯成蛋白質(zhì)。由于此時(shí)的mRNA完整攜帶了基因的表達(dá)信息(沒有內(nèi)含子等的干擾),故通過對mRNA測序可以反映完整的表達(dá)信息。

- 但是需要注意的是,剪切可不只有將所有外顯子拼接的一種方式,事實(shí)上參加剪接的外顯子可以不按其線性次序剪接,或內(nèi)含子是否出內(nèi)含子也可以不被切除而保留,即一個(gè)外顯子現(xiàn)在成熟mRNA中是可以選擇的,這種剪接方式稱為選擇性剪接(Alternative splicing, AS)。
- 一種基因可以經(jīng)AS產(chǎn)生不同的剪切異構(gòu)體(isofrom)編碼不同的蛋白質(zhì),而這里isoform的概念即上面提到的轉(zhuǎn)錄本。一個(gè)基因可能存在多個(gè)轉(zhuǎn)錄本。如上圖,基因經(jīng)AS形成isoform1與isoform2分別翻譯成不同的蛋白,執(zhí)行不同的生理功能。
回到RNA-seq,通常所說的RNA-seq中涉及到的轉(zhuǎn)錄組,即狹義方面的轉(zhuǎn)錄組,即某個(gè)物種或特定細(xì)脃類型產(chǎn)生的所有轉(zhuǎn)錄本的集合。通過測序,能夠直接反應(yīng)不同mRNA對應(yīng)的基因表達(dá)量的差異,并進(jìn)行深入的分析。

簡單來說—將獲得的所有mRNA反轉(zhuǎn)錄為DNA鏈,打碎成300bp左右的片段(為什么要這個(gè)長度,之后測序會說),這時(shí)一個(gè)片段稱為一個(gè)reads。根據(jù)已有的參考基因組及注釋文件,將獲得的所有reads歸類到原屬的基因上。這樣就獲得了表達(dá)矩陣(哪些基因有多少個(gè)reads比對上),到此稱為上游分析,通常在Linux平臺中完成?;谒@得的表達(dá)矩陣,可進(jìn)行各種數(shù)據(jù)分析,比如基本的差異基因分析,還有富集分析等等,這些可歸類為RNA-seq的下游分析,通常需要利用R語言工具來完成。
上面的流程圖是從網(wǎng)上找到的一張圖。感覺下游分析,自己也暫時(shí)只接觸了幾個(gè),之后再了解下其它的吧。
這里提一下上面說的是有參轉(zhuǎn)錄組的情況。如果所研究的物種(比如人,老鼠等)有組裝注釋質(zhì)量較好基因組序列,且和該基因組序列比對效率較高,那么可以采用有參轉(zhuǎn)錄組的分析策略。如果做的是比較小眾的物種,那么就要采用無參轉(zhuǎn)錄組的分析,這里就不介紹了。
上述為目前階段我所了解的分析流程,會涉及到測序原理、Linux、R語言,以及基礎(chǔ)的生物學(xué)、統(tǒng)計(jì)學(xué)的一些知識。目前多方面都進(jìn)行了初步的探索,會嘗試自己在簡書上梳理一下。
- 關(guān)于Linux、R語言已經(jīng)專門列了專題,進(jìn)行基礎(chǔ)學(xué)習(xí);
- 其它的一些基礎(chǔ)知識以及實(shí)操會在這個(gè)系列里逐一梳理。
關(guān)于文中提到的內(nèi)容,如有錯(cuò)誤,懇請指正!部分圖片來自網(wǎng)上,侵刪~