RNA-seq?轉(zhuǎn)錄組測(cè)序
? ? ? ? 與cfDNA體細(xì)胞突變檢測(cè)相比,基因表達(dá)相關(guān)的RNA-seq轉(zhuǎn)錄組測(cè)序在常規(guī)的mRNA、非編碼RNA?(lncRNA、circRNA、microRNA/piRNA等)以及腫瘤融合基因鑒定方面應(yīng)用較為成熟,業(yè)內(nèi)價(jià)格透明且相當(dāng)?shù)土?。但不少轉(zhuǎn)化醫(yī)學(xué)項(xiàng)目往往選擇傳統(tǒng)的polyA富集建庫(kù),只拿到mRNA數(shù)據(jù)而丟掉了其它非編碼RNA信息(常規(guī)的mRNA甚至單細(xì)胞RNA-seq已經(jīng)發(fā)布有IRIS,GEPIA等免費(fèi)在線分析工具);另外拿到的mRNA數(shù)據(jù)又往往是在數(shù)據(jù)質(zhì)控信息不明確的前提下使用古董級(jí)生信流程分析得到的;最后腫瘤樣本轉(zhuǎn)錄組數(shù)據(jù)差異比較時(shí)的腫瘤純度評(píng)估?,與樣本表型、DNA層面以及表觀遺傳層面的關(guān)聯(lián)等深度挖掘都區(qū)別于常規(guī)RNA-seq流水線業(yè)務(wù)。 接下來(lái)就對(duì)轉(zhuǎn)化醫(yī)學(xué)方向的RNA-seq項(xiàng)目注意事項(xiàng)及質(zhì)控和結(jié)果判讀等內(nèi)容做簡(jiǎn)單介紹:
?一. 測(cè)序分析前--RNA-seq建庫(kù)測(cè)序策略的選擇及實(shí)驗(yàn)設(shè)計(jì)
1.1. RNA-seq轉(zhuǎn)錄組建庫(kù)方法(見(jiàn)圖1)
? ? ??10多年來(lái)非編碼RNA(lncRNA、circRNA、microRNA/PiRNA)在腫瘤等疾病發(fā)生發(fā)展過(guò)程中調(diào)控作用的報(bào)道越來(lái)越多,采用去核糖體RNA方法建庫(kù)相對(duì)于傳統(tǒng)PolyA富集建庫(kù),可同時(shí)對(duì)mRNA以外的其它多種非編碼RNA進(jìn)行分析,性價(jià)比較高。

1.2. 實(shí)驗(yàn)設(shè)計(jì)中的生物學(xué)重復(fù)問(wèn)題
? ? ? ?有/無(wú)生物學(xué)重復(fù)的實(shí)驗(yàn)設(shè)計(jì)在各種類(lèi)型的RNA差異比較分析步驟中選取的方法是完全不同的,建議各差異比較分組均設(shè)置3個(gè)以上生物學(xué)重復(fù)以排除技術(shù)因素對(duì)差異比較結(jié)果的干擾;
1.3 . RNA提取質(zhì)控
? ? ? RIN(RNA完整性)值應(yīng)在6.5以上,輕度降解的RNA屬于風(fēng)險(xiǎn)建庫(kù)測(cè)序,重度降解RNA的建庫(kù)測(cè)序及任何分析均無(wú)意義;
1.4. 參考轉(zhuǎn)錄本/基因組版本的選取
? ? ? 根據(jù)自己目的,選擇refseq/Ensembl上對(duì)應(yīng)的轉(zhuǎn)錄本版本和參考基因組;
1.5. 轉(zhuǎn)錄組下機(jī)數(shù)據(jù)質(zhì)控應(yīng)包含的內(nèi)容
? ?? ?以下質(zhì)控指標(biāo)適用于Rnase酶消化建庫(kù)以外其它類(lèi)型RNA建庫(kù)數(shù)據(jù):
? ? ?a. 比對(duì)nr數(shù)據(jù)庫(kù)檢查外源污染;b. GC比例及均一性分布情況;c. coding/intron等區(qū)域reads比例;d. 插入片段長(zhǎng)度的均值/中位數(shù);e. mapping(Uniqe/Multi/Total)到參考基因組上的reads比例(Multi mapped>10%會(huì)干擾后續(xù)的表達(dá)后續(xù)定量及差異比較等分析); f. BLAST過(guò)濾raw data中的rRNA后的clean data數(shù)據(jù)量及Q30等指標(biāo);?
? ? ? 對(duì)于小RNA下機(jī)數(shù)據(jù),需要額外關(guān)注其長(zhǎng)度分布峰值等信息;
? ? ?備注:培養(yǎng)的細(xì)胞樣本容易存在外源污染需要排污檢查;各種類(lèi)型的RNA建庫(kù)都存在rRNA是否去除干凈的問(wèn)題,需要比對(duì)rRNA數(shù)據(jù)庫(kù)進(jìn)一步排除raw data中的rRNA。總之,RNA-seq數(shù)據(jù)質(zhì)控部分需要關(guān)注的內(nèi)容更多一些。
二.? 測(cè)序后--不同類(lèi)型 RNA的測(cè)序分析
2.1. 非編碼RNA的篩選
? ? ? ?lncRNA:根據(jù)長(zhǎng)度、外顯子數(shù)目、表達(dá)量、編碼潛能預(yù)測(cè)等信息篩選;circRNA:根據(jù)反式剪接位點(diǎn)篩選;小RNA:根據(jù)長(zhǎng)度、數(shù)據(jù)庫(kù)比對(duì)、首位堿基偏好性等特征篩選;
2.2. 比對(duì)、拼接、定量、差異與富集的標(biāo)準(zhǔn)分析流程
2.2.1 比對(duì)、拼接、定量、差異:
? ? ? ?目前各主流公司在RNA-seq?質(zhì)控后的比對(duì)、拼接、定量、差異步驟的分析方法差異較大,不同分析流程對(duì)拼接出來(lái)的轉(zhuǎn)錄本數(shù)目、基因的表達(dá)定量及差異分析結(jié)果也都有影響,2017年有相關(guān)文章對(duì)這部分內(nèi)容進(jìn)行了系統(tǒng)全面的比較,部分內(nèi)容見(jiàn)圖2、圖3和圖4。綜合來(lái)看 ,HISAT2/STAR(比對(duì))+stringtie(拼接定量)+DEseq2(基于負(fù)二項(xiàng)分布的差異表達(dá)分析)的方法得到的結(jié)果與測(cè)序質(zhì)量控制聯(lián)盟(SEQC)的qPCR檢測(cè)結(jié)果一致性較高。相比之下,傳統(tǒng)的tophat2-cufflinks-cuffdiff 分析流程確實(shí)有些過(guò)時(shí)了。



2.2.2 RNA層面的腫瘤純度評(píng)估
? ? ? 差異表達(dá)分析前有無(wú)基因表達(dá)層面的腫瘤純度評(píng)估,是衡量外包公司在腫瘤方面專(zhuān)業(yè)水平的一個(gè)不錯(cuò)的標(biāo)準(zhǔn)。但鑒于不同方法評(píng)估出的腫瘤純度差異較大,差異及富集分析對(duì)計(jì)算資源要求不高,腫瘤樣本RNA-seq數(shù)據(jù)的差異和富集分析可采用引入和不引入純度評(píng)估兩套方法并行進(jìn)行。
2.2.3 差異表達(dá)基因篩選及生物學(xué)功能和代謝通路的富集分析?
? ? ??對(duì)于關(guān)注的目的基因不在當(dāng)前閾值下的情況:? a. 適當(dāng)放寬閾值;b.換用其它分析方法;c.? 要回用于測(cè)序的剩余樣本直接做RT-PCR驗(yàn)證;
? ? ? 當(dāng)前大部分公司都在用DAVID,GOseq,KEGG等10年前的經(jīng)典軟件對(duì)RNA-seq差異表達(dá)基因進(jìn)行富集,雖然這些軟件雖然富集分析原理基本上都是超幾何分布,但后臺(tái)的數(shù)據(jù)庫(kù)大多已經(jīng)多年沒(méi)有更新,對(duì)于轉(zhuǎn)化醫(yī)學(xué)相關(guān)的研究,最好使用近幾年新發(fā)布,后臺(tái)數(shù)據(jù)庫(kù)更新及時(shí)的基因生物學(xué)通路富集數(shù)據(jù)庫(kù),如g:profiler,clusterProfiler等,對(duì)差異表達(dá)基因(主要關(guān)注BP--生物學(xué)通路和KEGG,其它MF--分子功能和CC--細(xì)胞組分兩部分的結(jié)果參考即可)進(jìn)行富集分析;
2.3. 差異表達(dá)基因過(guò)多的情況:
? ? ?對(duì)于有生物學(xué)重復(fù)的實(shí)驗(yàn)設(shè)計(jì),如果得到的差異表達(dá)基因占到本次表達(dá)基因總數(shù)的10%左右甚至更高,這樣的結(jié)果可能存在異常,需要排查原因后后再查往下進(jìn)行分析: a.差異比較組合弄錯(cuò)(差異比較組合往往是人工填寫(xiě),出錯(cuò)的幾率較大);b.? 檢查數(shù)據(jù)質(zhì)控情況;c. 實(shí)際差異表達(dá)基因可能確實(shí)有這么多;
2.4. 各樣本表達(dá)情況的PCA聚類(lèi):
? ? ? 當(dāng)差異比較分組內(nèi)樣本基因表達(dá)情況的相關(guān)性應(yīng)高于組外樣本時(shí),后續(xù)的差異比較分析才有意義,否則應(yīng)考慮本身實(shí)驗(yàn)設(shè)計(jì)的合理性;
2.5. mRNA/lncRNA/microRNA/circRNA的全轉(zhuǎn)錄組關(guān)聯(lián)分析
? ? ??去核糖體建庫(kù)+小RNA建庫(kù)兩種方法結(jié)合獲得的RNA-seq數(shù)據(jù),可同時(shí)分析lncRNA、mRNA、circRNA和microRNA/piRNA,并結(jié)合其表達(dá)量的上下調(diào)情況進(jìn)行全轉(zhuǎn)錄組關(guān)聯(lián)分析;
2.6 基因表達(dá)與基因突變相關(guān)聯(lián)
? ? ? 一維DNA層面上的突變、二維RNA層面上的表達(dá)以及三維蛋白層面上的結(jié)構(gòu)信息,這些信息在時(shí)間層面上規(guī)律性的互作和影響就是基本的生命現(xiàn)象。與早些年eQTL(表達(dá)數(shù)量性狀位點(diǎn)) 研究相比,腫瘤RNA+DNA層面的關(guān)聯(lián)分析可研究的內(nèi)容更多,當(dāng)然干擾因素也就更多,也就更需要分析前保證DNA和RNA數(shù)據(jù)集有相當(dāng)高的可信度;
2.7. RNA水平的突變檢測(cè)及腫瘤融合基因分析
? ? ? ?對(duì)于腫瘤組織樣本,一方面無(wú)Normal配對(duì)樣本,另一方面由于RNA編輯和可變剪切的影響,RNA水平上檢測(cè)到的突變位點(diǎn)可信度不并高;即便是常規(guī)germline突變檢測(cè),最好直接用WES/WGS測(cè)序數(shù)據(jù)來(lái)分析;
? ? ? ?腫瘤組織樣本的RNA-seq數(shù)據(jù)還可以充分利用數(shù)據(jù)---用STAR等軟件對(duì)RNA水平上的基因融合進(jìn)行檢測(cè);
2.8. 樣本clean data數(shù)據(jù)量比合同上高很多
? ? ?組內(nèi)個(gè)別樣本異常高的數(shù)據(jù)量會(huì)對(duì)差異表達(dá)分析帶來(lái)干擾,跟Panel一樣,數(shù)據(jù)太多并不是福利;
2.9. 外泌體lncRNA/小RNA測(cè)序
? ? ? ?尚處于基礎(chǔ)科研階段;
2.10.?單細(xì)胞RNA-seq
? ? ? 不同的測(cè)序平臺(tái)(C1(分析前需去polyA)、10Xgenome等)的下機(jī)數(shù)據(jù)預(yù)處理及后續(xù)分析方法各不相同,此外還有2018年浙大郭國(guó)驥老師團(tuán)隊(duì)開(kāi)發(fā)的Microwell-seq單細(xì)胞測(cè)序技術(shù)等;
2.11. RNA-seq相關(guān)公司產(chǎn)品及報(bào)價(jià)
? ? ? ?電話詢問(wèn)業(yè)內(nèi)主流測(cè)序公司比較即可!
三. 腫瘤體細(xì)胞突變和RNA-seq項(xiàng)目總結(jié)
? ? ?不管是DNA層面的突變檢測(cè)還是RNA層面的基因表達(dá)分析,個(gè)人認(rèn)為抓住以下三點(diǎn)就可以在很大程度上避免走彎路:
? ? ? ? ? ? ? ? 1. 先花些時(shí)間理清自己的研究目的以及候選公司產(chǎn)品的具體內(nèi)容;
? ? ? ? ? ? ? ? 2. 組織/cfDNA樣本體細(xì)胞突變檢測(cè)以及RNA-seq產(chǎn)品在轉(zhuǎn)產(chǎn)前有沒(méi)有驗(yàn)證報(bào)告以及驗(yàn)證報(bào)告中關(guān)鍵內(nèi)容是否體現(xiàn);
? ? ? ? ? ? ? ? 3. 最后甲方最好對(duì)體細(xì)胞突變檢測(cè)/RNA-seq數(shù)據(jù)的質(zhì)控和變異分析兩部分有實(shí)質(zhì)性的理解;
? ? ? 希望這兩篇文章能對(duì)轉(zhuǎn)化醫(yī)學(xué)研究中與NGS技術(shù)相關(guān)的----產(chǎn)品選擇、數(shù)據(jù)質(zhì)控、異常結(jié)果排查等工作提供幫助。其中涉及到的測(cè)序技術(shù)原理等內(nèi)容可參考前言部分結(jié)尾提供的課件鏈接。?隨著三代全長(zhǎng)轉(zhuǎn)錄組、單細(xì)胞和nanopore測(cè)序技術(shù)逐漸從科研走向應(yīng)用,測(cè)序技術(shù)在藥物研發(fā)/轉(zhuǎn)化醫(yī)學(xué)方面的應(yīng)用也將越來(lái)越廣。歡迎大家留言交流指正!
寫(xiě)于2019年3月13日