高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(四):DeepTools學(xué)習(xí)筆記

前言

開(kāi)題啦,所以需要整合自己之前處理過(guò)的數(shù)據(jù)包括可視化作圖,在GALAXY上翻到DeepTools正好有著一點(diǎn)用處,適當(dāng)?shù)母懔艘徊ㄊ虑?,順帶記錄一下。GALAXY上可以可視化操作,其實(shí)也是一個(gè)考慮的選項(xiàng)。

現(xiàn)有資源

比對(duì)完成后的bam文件,參考基因組:hg19, 基因位置注釋文件:RefGeneReg.bed,涉及到數(shù)據(jù)保密,不使用自己的數(shù)據(jù)進(jìn)行演示
安裝好的deeptools(使用anaconda,此處不贅述,安裝后配置deeptools及環(huán)境即可,不需要自己去配置環(huán)境)

官網(wǎng)

What can deeptools do for you

Basic workflow

manual book


正文

deeptools 上接比對(duì)好的bam文件或者轉(zhuǎn)換好的bigwig文件,可以進(jìn)行bam文件的處理及數(shù)據(jù)質(zhì)控,對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析包括作圖,而且可以根據(jù)提供的bed文件繪制熱圖/密度圖

DEEPTOOLS的三大功能

  • BAM & bigWig file processing
  • Tools for QC
  • Heatmap and summary plot
  • Miscellaneous(此處不涉及)

額外參數(shù)提示

# 處理器數(shù)目設(shè)定
-p max/2

# 針對(duì)指定區(qū)域進(jìn)行處理
--region chr2:10000-20000

# ignoreDuplicates參數(shù)去除重復(fù)序列,針對(duì)匹配到同一方向同一起點(diǎn)的序列,只保留一個(gè)
-- ignoreDuplicates

# 匹配得分閾值設(shè)定
--minMappingQuality

# warning,deeptools是在scaling data做低質(zhì)量數(shù)據(jù)去除和去重,所以如果數(shù)據(jù)質(zhì)量較差及重復(fù)數(shù)據(jù)很多,盡量事先使用samtools進(jìn)行提前處理

功能一:BAM & bigwig file processing

multiBamSummary

multiBigwigSummary

correctGCbias

bamCoverage

bamCompare

bigwigCompare

computeMatrix

考慮到實(shí)際上bigwig是bam的另一種形式的存在,且函數(shù)運(yùn)用和bam差不多,這里著重介紹一下bam文件的處理的幾個(gè)函數(shù):
multiBamSummary
bamCoverage

bamCompare
computeMatrix

multiBamSummary

可以用來(lái)處理bam文件在基因組上覆蓋情況,默認(rèn)輸出npz文件,銜接plotCorrelationplotPCA進(jìn)行作圖。
有兩種模式,binsBED-file,bins是給定bin size在全基因組范圍內(nèi)進(jìn)行coverage的統(tǒng)計(jì),bed-file模式則是給定region進(jìn)行coverage的統(tǒng)計(jì)。

# bin mode
multiBamSummary bins --bamfiles file1.bam file2.bam -out results.npz

# BED-file mode
multiBamSummary BED-file --BED selection.bed --bamfiles file1.bam file2.bam -out results.npz

EXAMPLE

deepTools2.0/bin/multiBamSummary bins \
 --bamfiles testFiles/*bam \ # using all BAM files in the folder
 --minMappingQuality 30 \
 --region 19 \ # limiting the binning of the genome to chromosome 19
 --labels H3K27me3 H3K4me1 H3K4me3 HeK9me3 input \
 -out readCounts.npz --outRawCounts readCounts.tab

head readCounts.tab
'chr'   'start' 'end'   'H3K27me3'      'H3K4me1'       'H3K4me3'       'HeK9me3'       'input'
 19 10000   20000   0.0     0.0     0.0     0.0     0.0
 19 20000   30000   0.0     0.0     0.0     0.0     0.0
 19 30000   40000   0.0     0.0     0.0     0.0     0.0
 19 40000   50000   0.0     0.0     0.0     0.0     0.0
 19 50000   60000   0.0     0.0     0.0     0.0     0.0
 19 60000   70000   1.0     1.0     0.0     0.0     1.0
 19 70000   80000   0.0     1.0     7.0     0.0     1.0
 19 80000   90000   15.0    0.0     0.0     6.0     4.0
 19 90000   100000  73.0    7.0     4.0     16.0    5.0

bamCoverage

可以用來(lái)將bam file轉(zhuǎn)換成bigwig file,同時(shí)可以設(shè)定binSize參數(shù)從而的獲取不同的分辨率,在比較非一批數(shù)據(jù)的時(shí)候,還可以設(shè)定數(shù)據(jù)normalizeTo1X到某個(gè)值(一般是該物種基因長(zhǎng)度)從而方便進(jìn)行比較。
單純的可以當(dāng)作bigwig轉(zhuǎn)換工具。

EXAMPLE

bamCoverage --bam a.bam -o a.SeqDepthNorm.bw \
    --binSize 10
    --normalizeTo1x 2150570000
    --ignoreForNormalization chrX
    --extendReads

bamCompare

可以用來(lái)的處理treat組和control組的數(shù)據(jù)轉(zhuǎn)換成bigwig文件,給出一個(gè)binsize內(nèi)結(jié)合強(qiáng)度的比值(默認(rèn)log2處理)。

EXAMPLE

bamCompare -b1 treatment.bam -b2 control.bam -o log2ratio.bw --normalizeTo1x 2451960000

computeMatrix

該功能可以計(jì)算每個(gè)基因區(qū)域的結(jié)合得分,生成中間文件用以給plotHeatmap和plotProfiles作圖。


數(shù)據(jù)傳遞鏈

computeMatrix有兩種模式,scale-regions mode和reference-point mode

區(qū)別展示圖

scale-regiuons mode簡(jiǎn)單來(lái)說(shuō)會(huì)將給定bed file范圍內(nèi)的結(jié)合信號(hào)做一個(gè)統(tǒng)計(jì)(指的是一段長(zhǎng)度),并將基因長(zhǎng)度統(tǒng)一scale到設(shè)定regionBdoyLength的長(zhǎng)度,加上統(tǒng)計(jì)基因上游和下游Xbp的信號(hào)(beforeRegionStartLength參數(shù)和afterRegionStartLength參數(shù))

EXAMPLE

computeMatrix scale-regions -p 10 \
    -R gene19.bed geneX.bed \
    -S test1.bw test2.bw \
    -b 3000 -a 3000 \
    --regionBodyLength 5000 \   
    --skipZeros \
    -o heatmap.gz 

reference-point mode則是給定一個(gè)bed file,以某個(gè)點(diǎn)為中心開(kāi)始統(tǒng)計(jì)信號(hào)(TSS/TES/center)。但實(shí)際上我在嘗試的時(shí)候regionBdoyLength參數(shù)也還是可以用的,所以估計(jì)和scale-regions區(qū)別也不是太大,主要是作圖的一點(diǎn)區(qū)別。

EXAMPLE

computeMatrix reference-point \ # choose the mode
       --referencePoint TSS \ # alternatives: TES, center
       -b 3000 -a 10000 \ # define the region you are interested in
       -R testFiles/genes.bed \
       -S testFiles/log2ratio_H3K4Me3_chr19.bw  \
       --skipZeros \
       -o matrix1_H3K4me3_l2r_TSS.gz \ # to be used with plotHeatmap and plotProfile
       --outFileSortedRegions regions1_H3K4me3_l2r_genes.bed

功能二:Tools for QC

plotCorrelation

plotPCA

plotFingerprint

bamPEFragmentSize

computeGCBias

plotCoverage

包括PCA作圖,correlation作圖等,都是運(yùn)用multiBamSummary得到npz文件統(tǒng)計(jì)樣本間的相關(guān)系數(shù)作圖和PCA分析作圖,沒(méi)有需求故此處不做介紹。


功能三:Heatmaps and summary plots

plotHeatmap

plotProfile

plotEnrichment

plotHeatmap

主要用來(lái)畫(huà)熱圖(雖然沒(méi)什么用)并包含聚類(lèi)功能(雖然也沒(méi)什么用)。 =,=
上游數(shù)據(jù)是computeMatrix得到的gz file
注意:作圖會(huì)把之前computeMatrix時(shí)候提交的多個(gè)bed文件分開(kāi)作圖,還是很好的,如果針對(duì)單個(gè)bed file進(jìn)行作圖,還可以使用kmean參數(shù)設(shè)定clustering個(gè)數(shù)

EXAMPLE

plotHeatmap -m matrix_two_groups.gz \ #輸入gz文件
     -out ExampleHeatmap2.png \ 
     --colorMap RdBu \ #指定顏色
     --whatToShow 'heatmap and colorbar' \ #指定輸出geatmap和colorbar
     --zMin -3 --zMax 3 \ #指定colorbar的范圍
     --kmeans 4 #設(shè)定聚類(lèi)個(gè)數(shù)
EXAMPLE FIGURE

類(lèi)似于顏色,邊框,legend等參數(shù)都可以調(diào),詳情請(qǐng) plotHeatmap -h

plotProfile

主要用來(lái)畫(huà)密度圖
上游數(shù)據(jù)是computeMatrix得到的gz file
注意:默認(rèn)針對(duì)單個(gè)bw文件作圖或者把多個(gè)bw文件畫(huà)在一個(gè)圖里面(perGroup參數(shù)),同樣也可以使用kmeanhclust聚類(lèi)

EXAMPLE

plotProfile -m matrix.mat.gz \
      --perGroup \
      --kmeans 2 \
      -out ExampleProfile3.png
# 其他參數(shù)
-z 給bed文件一個(gè)名稱(chēng)
--samplesLabel  給bw文件一個(gè)名稱(chēng)
--startLabel
--endLabel

EXAMPLE FIGURE

填充方式,顏色,title,labs參數(shù)等都可以調(diào),詳情請(qǐng)plotProfile -h

結(jié)語(yǔ)

事實(shí)上,deeptools就是用來(lái)對(duì)單個(gè)或者多個(gè)比對(duì)好的bam文件進(jìn)行信息統(tǒng)計(jì)并進(jìn)行可視化分析的,所以包括ChIP-seq和RNA-seq及其它類(lèi)型的二代測(cè)序結(jié)果都是可以借以分析的。學(xué)習(xí)結(jié)束!


以下為高通量測(cè)序數(shù)據(jù)處理系列快速通道:

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(零):NGS分析如何選擇合適的參考基因組和注釋文件

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(一):比對(duì)軟件STAR的使用

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(二):Read Counts的提取

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(三):Pathway Analysis及GSEA

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(四):DeepTools學(xué)習(xí)筆記

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(五):上傳二代測(cè)序數(shù)據(jù)到GEO

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(六):什么是測(cè)序深度和測(cè)序覆蓋度?

高通量測(cè)序數(shù)據(jù)處理學(xué)習(xí)記錄(七):使用ChIPQC包檢查ChIP-seq的質(zhì)量

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容