RNA-seq
轉(zhuǎn)錄組
轉(zhuǎn)錄組學(xué)(transcriptomics)的研究對(duì)象是全基因組尺度下所有轉(zhuǎn)錄本(transcript),即轉(zhuǎn)錄組(transcriptome)
轉(zhuǎn)錄本測(cè)定研究
基于雜交的基因芯片技術(shù)
將熒光標(biāo)記的cDNA制成微陣列探針來(lái)測(cè)定樣本中特定轉(zhuǎn)錄本含量。又稱(chēng)為 基因芯片(Gene Chip)、微陣列(Microarry)。
獲取表達(dá)量的步驟:
提取RNA -> 反轉(zhuǎn)錄 (->擴(kuò)增)->標(biāo)記->雜交->掃描->獲得原始數(shù)據(jù)
局限性:
? 只能檢測(cè)已知或;確定性的序列
? 無(wú)法檢測(cè)新發(fā)現(xiàn)的,未放置到芯片上的基因
? 有部分探針的信號(hào)可能會(huì)收到非特異性雜交或個(gè)體序列差異的影響
基于NGS的RNA-seq
基于高通量二代測(cè)序技術(shù)的轉(zhuǎn)錄組學(xué)研究方法。
特點(diǎn):
高通量、低成本;不依賴(lài)已知轉(zhuǎn)錄本探針,可以測(cè)全轉(zhuǎn)錄組;對(duì)于低表達(dá)豐度的轉(zhuǎn)錄本靈敏
度高;以reads數(shù)量腐酸表達(dá),比芯片的熒光信號(hào)更為精確。
應(yīng)用和最新進(jìn)展
- 差異表達(dá)分析
- 可變剪接
- 共表達(dá)網(wǎng)絡(luò)
- 轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)
- 根據(jù)文庫(kù)構(gòu)建方法帶來(lái)的變種
? ssRNA-seq
? small RNA-seq
? ribo-zero-ssRNA-seq
? circ-RNA-seq
RNA-seq 試驗(yàn)設(shè)計(jì)
- 生物學(xué)重復(fù)
生物學(xué)重復(fù)用于排除隨機(jī)誤差,通常3~5個(gè),不同性質(zhì)的樣本可能需求重復(fù)量不同 - 樣本提取
液氮或轉(zhuǎn)錄阻斷劑瞬時(shí)猝滅,低溫保存,長(zhǎng)時(shí)間保存可能會(huì)降解 - 文庫(kù)構(gòu)建
非鏈特異性文庫(kù) RNA-seq:無(wú)法區(qū)分打碎的片段轉(zhuǎn)錄自正義鏈還是反義鏈;
鏈特異性文庫(kù) ssRNA-seq:建庫(kù)時(shí)保留了轉(zhuǎn)錄本方向信息?;虮磉_(dá)定位更準(zhǔn)確,可變剪切、雙向轉(zhuǎn)錄等。 - 測(cè)序策略
單端測(cè)序 single-end:通常用于特殊測(cè)序,如small RNAseq;
雙端測(cè)序 pair-end:有利于基因注釋、轉(zhuǎn)錄本異構(gòu)體鑒定。 - 測(cè)序深度
ENCODE推薦不進(jìn)行可變剪接時(shí),僅計(jì)算表達(dá)量最少 5M 有效 reads,如果需要鑒定新轉(zhuǎn)錄本、檢測(cè)低表達(dá)基因、檢測(cè)可變剪接等,需要適當(dāng)增加測(cè)序深度。普通雙端150bp測(cè)序平臺(tái)有參轉(zhuǎn)錄組測(cè)序通常 6Gb數(shù)據(jù),特殊文庫(kù)需要數(shù)據(jù)倍增。 - 測(cè)序平臺(tái)
RNA-seq 文庫(kù)制備
- 總RNA提取
將 RNA 從特定組織中分離并于脫氧核糖核酸酶混合,降解樣本中的DNA,然后用凝膠和毛細(xì)管電泳檢測(cè) RNA 降解量,評(píng)估 RNA 樣本質(zhì)量。
依據(jù)文庫(kù)要求檢查完整性分值,如果不合格將不適合建庫(kù)測(cè)序。一些特殊文庫(kù)對(duì)RNA提取要求很高,如全長(zhǎng)轉(zhuǎn)錄組文庫(kù),需要特殊提取流
程保證RNA 完整性。
RNA分離純化
? poly A 富集(RNA-seq 常用策略)
? rRNA 移除(rRNA占細(xì)胞中總RNA的比例超過(guò)90%)
? small RNA 富集
? circRNA 富集
? 其他等樣本打斷
打斷方法:酶切、超聲波處理、噴霧器cDNA合成
是否用標(biāo)記保留鏈特異信息?上機(jī)測(cè)序
轉(zhuǎn)錄組核心數(shù)據(jù)分析
數(shù)據(jù)獲取
需要的數(shù)據(jù):參考基因組數(shù)據(jù)fasta、GFF注釋信息、雙端測(cè)序的fastq文件
我這里用的是普通栽培稻(Oryza sativa L.)的參考基因組和、GFF文件和SRR17439319數(shù)據(jù)。
參考步驟:https://blog.csdn.net/sunchengquan/article/details/79781366
注意:配置時(shí),需要在bin目錄下執(zhí)行./vdb-config --interactive,然后彈出一大堆亂七八糟的之后,按X退出即可。再執(zhí)行./fastq-dump,若沒(méi)有報(bào)錯(cuò),而是幫助信息的話(huà)即可以使用。
測(cè)序數(shù)據(jù)質(zhì)量控制
測(cè)序數(shù)據(jù)分析前需要經(jīng)過(guò)數(shù)據(jù)預(yù)處理,并檢查數(shù)據(jù)GC含量、序列重復(fù)成俗、是否存在接頭等。
- 質(zhì)量評(píng)估:
使用 FastQC 檢測(cè)原始數(shù)據(jù)質(zhì)量
fastqc –o fastqc_results –f fastq test_1.fastq test_2.fastq b_1.fastq b_2.fastq
- 質(zhì)量控制
使用 Trimmomatic 去除低質(zhì)量reads。
Trimmomatic 詳細(xì)說(shuō)明參考:http://m.itdecent.cn/p/a8935adebaae
FastQC和Trimmomatic的安裝及使用參考:http://m.itdecent.cn/p/bc3ad9379e3e?utm_campaign=hugo&utm_content=note&utm_medium=seo_notes&utm_source=recommendation
用法:
java -jar /Path/To/trimmomatic.jar PE -threads 2 -phred33 \
test_1.fq.gz test_2.fq.gz \
test_1.trimed.fq.gz test_1.un.fq.gz test_2.trimed.fq.gz test_2.un.fq.gz \
ILLUMINACLIP:/path/to/Trimmomatic/adapters/TruSeq3-PE-2.fa:2:30:10
LEADING:3 TRAILING:3 SLIDINGWINDOW:4:20 MINLEN:76
在質(zhì)控后,再質(zhì)檢一次,對(duì)比看看有什么不同。
reads比對(duì)
將 reads 匹配到參考基因組或轉(zhuǎn)錄組的相應(yīng)位置上
? 非剪接比對(duì):轉(zhuǎn)錄組
Bowtie、BWA
? 剪接比對(duì):參考基因組
STAR、HISAT、Topha
對(duì)鑒定SNP做了優(yōu)化: GSNAP、MapSplice等
HISAT2比對(duì)流程
① 建立基因組索引
extract_splice_sites.py tair10.gtf > genome.ss # 把剪切位點(diǎn)提取出來(lái)
extract_exons.py genome.gtf > genome.exon # 把exon提取出來(lái)
hisat2-build --ss genome.ss --exon genome.exon genome.fasta genome # 最后的genome是輸出文件的前綴
②利用注釋文件比對(duì)
hisat2 -p 4 --known-splicesite-infile genome.ss --dta -x tair10 -1 test_1.trimed.fq.gz -2 test_2.trimed.fq.gz -S test.sam
## -p 線(xiàn)程數(shù)
## --known-splicesite-infile 輸入剪切位點(diǎn)文件
## --dat 轉(zhuǎn)錄本拼接
##-x index 庫(kù)文件前綴CDS 和 exon 前 .
## -1 -2 雙端測(cè)序 fastq的名字, 如是單端測(cè)試 –U
## -S 輸出文件,是比對(duì)的 SAM 文件
沒(méi)有注釋文件的比對(duì)方法
hisat2 -p 18 --dta -x ~/genome/rice -1 /path/to/Rice_1.fq.gz -2 /path/to/Rice_.fq.gz -S rice.sam
③ SAM 文件處理
使用 samtools 對(duì) SAM 文件排序并轉(zhuǎn)化為 BAM 文件。samtools是一個(gè)用于操作sam和bam文件的工具合集,包含有許多命令。
samtools view -bS SRAxxx.sam > SRAxxx.bam # 查看bam文件內(nèi)容
samtools sort -@ 2 -o SRAxxx.sort.bam SRAxxx.bam # 按比對(duì)位置排序+格式轉(zhuǎn)換
samtools index rice.bam # 建立bam文件索引
samtools merge -@ 4 -h SRR1582649.bam merged.bam SRRxxx1.bam SRRxxx2.bam SRRxxx3.bam # 把生成的bam文件合并為一個(gè)文件。因?yàn)槊總€(gè)文件的sam文件表頭都一樣,所以用-h指定某一個(gè)文件的表頭作為總文件的表頭。
## -@ 額外線(xiàn)程數(shù)
## -m 每個(gè)線(xiàn)程最大占用內(nèi)存,單位 K/M/G,根據(jù)實(shí)際情況調(diào)整。
## -o 輸出文件
④比對(duì)結(jié)果可視化
比對(duì)結(jié)果使用 IGV 、Genome Maps 和Sacant 等可視化查看。
例如:IGV 通過(guò)讀入基因組和注釋信息以及BAM 文件展示比對(duì)結(jié)果。
需要額外添加 BMA 的索引:samtools index test_sorted.bam test_sorted.bai
⑤比對(duì)結(jié)果評(píng)估
比對(duì)結(jié)果評(píng)估工具:RSeQC、Qualimap
- Reads 匹配百分比評(píng)估預(yù)測(cè)精度和DNA污染程度或參考基因組的選擇是否適合;
- Reads 隨機(jī)性分布 評(píng)估reads打斷的隨機(jī)程度;
- 匹配Reads的GC含量,與PCR偏差有關(guān)。
RSeQC的下載:pip install RSeQC
使用:bam_stat.py -i test.bam > test.bam.stat
基于NGS的轉(zhuǎn)錄本定量---StringTie
- reads 計(jì)算策略
① 只選唯一匹配 reads:用于估計(jì)基因水平的 reads 匹配數(shù),常用工具如
HTSeq-count、featureCounts;
② 保留多重匹配的 reads:利用統(tǒng)計(jì)算法將多重比對(duì)reads定位到對(duì)于的轉(zhuǎn)錄本異構(gòu)體上,如 Cufflinks、StringTie、RSEM等
計(jì)算FPKM
stringtie -p 10 -G test.gtf -e -A test.exp -o test.out test.sorted.bam
-p 線(xiàn)程數(shù)
-G 參考基因組注釋
-e 只估計(jì)已給參考基因組注釋的基因豐度
-A 基因豐度估計(jì)輸出文件
-o 輸出文件