轉(zhuǎn)錄組數(shù)據(jù)分析RNA-seq

RNA-seq

轉(zhuǎn)錄組

轉(zhuǎn)錄組學(xué)(transcriptomics)的研究對(duì)象是全基因組尺度下所有轉(zhuǎn)錄本(transcript),即轉(zhuǎn)錄組(transcriptome)

轉(zhuǎn)錄本測(cè)定研究

基于雜交的基因芯片技術(shù)

將熒光標(biāo)記的cDNA制成微陣列探針來(lái)測(cè)定樣本中特定轉(zhuǎn)錄本含量。又稱(chēng)為 基因芯片(Gene Chip)、微陣列(Microarry)。

獲取表達(dá)量的步驟:
提取RNA -> 反轉(zhuǎn)錄 (->擴(kuò)增)->標(biāo)記->雜交->掃描->獲得原始數(shù)據(jù)
局限性:
? 只能檢測(cè)已知或;確定性的序列
? 無(wú)法檢測(cè)新發(fā)現(xiàn)的,未放置到芯片上的基因
? 有部分探針的信號(hào)可能會(huì)收到非特異性雜交或個(gè)體序列差異的影響

基于NGS的RNA-seq

基于高通量二代測(cè)序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法。
特點(diǎn):
高通量、低成本;不依賴(lài)已知轉(zhuǎn)錄本探針,可以測(cè)全轉(zhuǎn)錄組;對(duì)于低表達(dá)豐度的轉(zhuǎn)錄本靈敏
度高;以reads數(shù)量腐酸表達(dá),比芯片的熒光信號(hào)更為精確。
應(yīng)用和最新進(jìn)展

  • 差異表達(dá)分析
  • 可變剪接
  • 共表達(dá)網(wǎng)絡(luò)
  • 轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)
  • 根據(jù)文庫(kù)構(gòu)建方法帶來(lái)的變種
    ? ssRNA-seq
    ? small RNA-seq
    ? ribo-zero-ssRNA-seq
    ? circ-RNA-seq

RNA-seq 試驗(yàn)設(shè)計(jì)

  1. 生物學(xué)重復(fù)
    生物學(xué)重復(fù)用于排除隨機(jī)誤差,通常3~5個(gè),不同性質(zhì)的樣本可能需求重復(fù)量不同
  2. 樣本提取
    液氮或轉(zhuǎn)錄阻斷劑瞬時(shí)猝滅,低溫保存,長(zhǎng)時(shí)間保存可能會(huì)降解
  3. 文庫(kù)構(gòu)建
    非鏈特異性文庫(kù) RNA-seq:無(wú)法區(qū)分打碎的片段轉(zhuǎn)錄自正義鏈還是反義鏈;
    鏈特異性文庫(kù) ssRNA-seq:建庫(kù)時(shí)保留了轉(zhuǎn)錄本方向信息?;虮磉_(dá)定位更準(zhǔn)確,可變剪切、雙向轉(zhuǎn)錄等。
  4. 測(cè)序策略
    單端測(cè)序 single-end:通常用于特殊測(cè)序,如small RNAseq;
    雙端測(cè)序 pair-end:有利于基因注釋、轉(zhuǎn)錄本異構(gòu)體鑒定。
  5. 測(cè)序深度
    ENCODE推薦不進(jìn)行可變剪接時(shí),僅計(jì)算表達(dá)量最少 5M 有效 reads,如果需要鑒定新轉(zhuǎn)錄本、檢測(cè)低表達(dá)基因、檢測(cè)可變剪接等,需要適當(dāng)增加測(cè)序深度。普通雙端150bp測(cè)序平臺(tái)有參轉(zhuǎn)錄組測(cè)序通常 6Gb數(shù)據(jù),特殊文庫(kù)需要數(shù)據(jù)倍增。
  6. 測(cè)序平臺(tái)

RNA-seq 文庫(kù)制備

  1. 總RNA提取
    將 RNA 從特定組織中分離并于脫氧核糖核酸酶混合,降解樣本中的DNA,然后用凝膠和毛細(xì)管電泳檢測(cè) RNA 降解量,評(píng)估 RNA 樣本質(zhì)量。

依據(jù)文庫(kù)要求檢查完整性分值,如果不合格將不適合建庫(kù)測(cè)序。一些特殊文庫(kù)對(duì)RNA提取要求很高,如全長(zhǎng)轉(zhuǎn)錄組文庫(kù),需要特殊提取流
程保證RNA 完整性。

  1. RNA分離純化
    ? poly A 富集(RNA-seq 常用策略)
    ? rRNA 移除(rRNA占細(xì)胞中總RNA的比例超過(guò)90%)
    ? small RNA 富集
    ? circRNA 富集
    ? 其他等

  2. 樣本打斷
    打斷方法:酶切、超聲波處理、噴霧器

  3. cDNA合成
    是否用標(biāo)記保留鏈特異信息?

  4. 上機(jī)測(cè)序

轉(zhuǎn)錄組核心數(shù)據(jù)分析

數(shù)據(jù)獲取

需要的數(shù)據(jù):參考基因組數(shù)據(jù)fasta、GFF注釋信息、雙端測(cè)序的fastq文件
我這里用的是普通栽培稻(Oryza sativa L.)的參考基因組和、GFF文件和SRR17439319數(shù)據(jù)。
參考步驟:https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置時(shí),需要在bin目錄下執(zhí)行./vdb-config --interactive,然后彈出一大堆亂七八糟的之后,按X退出即可。再執(zhí)行./fastq-dump,若沒(méi)有報(bào)錯(cuò),而是幫助信息的話(huà)即可以使用。

測(cè)序數(shù)據(jù)質(zhì)量控制

測(cè)序數(shù)據(jù)分析前需要經(jīng)過(guò)數(shù)據(jù)預(yù)處理,并檢查數(shù)據(jù)GC含量、序列重復(fù)成俗、是否存在接頭等。

  1. 質(zhì)量評(píng)估:
    使用 FastQC 檢測(cè)原始數(shù)據(jù)質(zhì)量
fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq
  1. 質(zhì)量控制
    使用 Trimmomatic 去除低質(zhì)量reads。
    Trimmomatic 詳細(xì)說(shuō)明參考:http://m.itdecent.cn/p/a8935adebaae
    FastQC和Trimmomatic的安裝及使用參考:http://m.itdecent.cn/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
    用法:
java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
test_1.fq.gz test_2.fq.gz \
test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10 
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76

在質(zhì)控后,再質(zhì)檢一次,對(duì)比看看有什么不同。

reads比對(duì)

將 reads 匹配到參考基因組或轉(zhuǎn)錄組的相應(yīng)位置上
? 非剪接比對(duì):轉(zhuǎn)錄組
Bowtie、BWA
? 剪接比對(duì):參考基因組
STAR、HISAT、Topha
對(duì)鑒定SNP做了優(yōu)化: GSNAP、MapSplice等

HISAT2比對(duì)流程

① 建立基因組索引

extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位點(diǎn)提取出來(lái)
extract_exons.py genome.gtf > genome.exon # 把exon提取出來(lái)
hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是輸出文件的前綴

②利用注釋文件比對(duì)

hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam 
## -p 線(xiàn)程數(shù) 
## --known-splicesite-infile 輸入剪切位點(diǎn)文件
## --dat 轉(zhuǎn)錄本拼接
##-x index 庫(kù)文件前綴CDS 和 exon 前 . 
## -1 -2 雙端測(cè)序 fastq的名字, 如是單端測(cè)試 –U 
## -S 輸出文件,是比對(duì)的 SAM 文件

沒(méi)有注釋文件的比對(duì)方法

hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam

③ SAM 文件處理
使用 samtools 對(duì) SAM 文件排序并轉(zhuǎn)化為 BAM 文件。samtools是一個(gè)用于操作sam和bam文件的工具合集,包含有許多命令。

samtools view -bS SRAxxx.sam > SRAxxx.bam  # 查看bam文件內(nèi)容
samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam  # 按比對(duì)位置排序+格式轉(zhuǎn)換
samtools index rice.bam  # 建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并為一個(gè)文件。因?yàn)槊總€(gè)文件的sam文件表頭都一樣,所以用-h指定某一個(gè)文件的表頭作為總文件的表頭。

## -@ 額外線(xiàn)程數(shù)
## -m 每個(gè)線(xiàn)程最大占用內(nèi)存,單位 K/M/G,根據(jù)實(shí)際情況調(diào)整。
## -o 輸出文件

④比對(duì)結(jié)果可視化
比對(duì)結(jié)果使用 IGV 、Genome Maps 和Sacant 等可視化查看。
例如:IGV 通過(guò)讀入基因組和注釋信息以及BAM 文件展示比對(duì)結(jié)果。
需要額外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai

⑤比對(duì)結(jié)果評(píng)估
比對(duì)結(jié)果評(píng)估工具:RSeQC、Qualimap

  • Reads 匹配百分比評(píng)估預(yù)測(cè)精度和DNA污染程度或參考基因組的選擇是否適合;
  • Reads 隨機(jī)性分布 評(píng)估reads打斷的隨機(jī)程度;
  • 匹配Reads的GC含量,與PCR偏差有關(guān)。
    RSeQC的下載:pip install RSeQC
    使用:bam_stat.py -i test.bam > test.bam.stat

基于NGS的轉(zhuǎn)錄本定量---StringTie

  1. reads 計(jì)算策略
    ① 只選唯一匹配 reads:用于估計(jì)基因水平的 reads 匹配數(shù),常用工具如
    HTSeq-count、featureCounts;
    ② 保留多重匹配的 reads:利用統(tǒng)計(jì)算法將多重比對(duì)reads定位到對(duì)于的轉(zhuǎn)錄本異構(gòu)體上,如 Cufflinks、StringTie、RSEM等

計(jì)算FPKM

stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam

-p 線(xiàn)程數(shù)
-G 參考基因組注釋
-e 只估計(jì)已給參考基因組注釋的基因豐度
-A 基因豐度估計(jì)輸出文件
-o 輸出文件

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容