2022-03-24利用BatMeth2分析甲基化數(shù)據

詳細參考路徑為:https://www.dna-asmdb.com/tools/batmeth2-tutorial/bt2-pipeline.html

https://batmeth2-docs.readthedocs.io/en/latest/function/PlotMeth.html

BatMeth2軟件介紹:

Batmeth2是一款操作簡便的亞硫酸氫鹽測序(BS-Seq)分析流程工具包,它可以在允許不同長度插入缺失(Indel)情況下準確地完成亞硫酸測序序列比對。為了方便DNA甲基化數(shù)據分析,BatMeth2可以從raw reads測序數(shù)據比對到數(shù)據可視化、并最后生成HTML可視化報告文件。

相關功能包括:

亞硫酸氫鹽測序數(shù)據比對;

甲基化水平計算,包括單堿基水平的甲基化水平、基因組區(qū)域或者基因轉座子等功能區(qū)域的甲基化水平;

差異甲基化胞嘧啶/區(qū)域(DMC/DMR)檢測功能;

甲基化水平可視化。

這些功能可以作為一個全流程使用,也可以分步單獨運行,非常有利于亞硫酸氫鹽數(shù)據分析。

BatMeth2 安裝

一、安裝要求

GCC(v4.8),GSL

SAMtools(建議>1.3.1版本)

Fastp,如果將原始數(shù)據做為輸入文件,需要這個軟件,否則不必

Fastp下載:wget http://opengene.org/fastp/fastp

Fastp權限更改: chmod 744 fastp

二、安裝Batmeth2的過程

下載軟件安裝包BatMeth2-master.zip(https://github.com/GuoliangLi-HZAU/BatMeth2)

解壓軟件安裝包BatMeth2-master.zip

將解壓后的軟件目錄“BatMeth2-master”修改為“BatMeth2”

安裝過程

cd BatMeth2

./configure

make

make copy

如果不需要gzip格式的進程文件,你可以使用以下過程安裝軟件:

cd BatMeth2

./configure

make nogzip

make copy-nogzip

BatMeth2的二進制文件將創(chuàng)建于bin目錄下

BatMeth2 分析流程

為了更方便地完成DNA甲基化數(shù)據分析,我們打包了所有功能,以完成易于使用的自動運行包,用于DNA甲基化分析。在執(zhí)行BatMeth2期間,會生成有關樣本統(tǒng)計信息的html報告。

在進行數(shù)據分析前,需要準備基因組和索引文件

首先準備fasta格式的參考基因組

對于WGBS數(shù)據,建立索引:

BatMeth2 index -g GENOME.fa

對于RRBS數(shù)據,建立索引:

BatMeth2 index_rrbs -g GENOME.fa

數(shù)據分析

對于原始數(shù)據,運行命令

###### COMMANDBatMeth2 pipel --fastp ~/location/to/fastp -1 Raw_reads_1.fq.gz -2 Raw_read_2.fq.gz -g ./batmeth2index/genome.fa -o meth -p 6 --gff ./gene.gff

經過質量過濾后的數(shù)據,運行命令:

###### COMMANDBatMeth2 pipel -1 Clean_reads_1.fq.gz -2 Clean_read_2.fq.gz -g ./batmeth2index/genome.fa -o meth -p 6 --gff ./gene.gff

BatMeth2 分析流程主要包含:測序序列質量過濾、DNA甲基化序列比對、DNA甲基化水平計算、DNA甲基化水平功能注釋以及DNA甲基化水平可視化等功能。

主要參數(shù)如下:

數(shù)據質量控制

--fastp fastp程序路徑, 如果未指定--fastp參數(shù),輸入文件應該使用質控后的數(shù)據

序列比對

--aligner 指定比對程序,默認BatMeth2,可選程序bwa-meth, bsmap, bismark2, no(輸出目錄下已有比對結果文件)

必要參數(shù)

-i? 輸入文件,如果是雙端數(shù)據,請使用-1, -2參數(shù),輸入文件可以使用逗號分隔

-1? 輸入文件左端的文件,如果是單端請使用-i參數(shù)

-2? 輸入文件右端的文件

-g? 比對使用的參考基因組路徑

-p? 線程數(shù),默認6

-O? 輸出結果目錄,默認是輸出到當前目錄下(./)

-o? 輸出文件的前綴

選用其他比對軟件時:

--go 選用其他比對軟件(bsmap/bwa-meth/bismark)進行比對時,需指定該軟件對應的基因組索引文件

計算甲基化水平

--Qual? ? ? 當read質量分數(shù)>=Q,用于甲基化水平分析,默認是10

--redup? ? ? 去除PCR冗余,0或者1,默認是0.

--region? ? 設置計算甲基化水平區(qū)間大小,可用于后續(xù)差異分析,默認參數(shù)是1000bp。

-f? ? ? ? ? 對于sam格式輸出文件,包含methState屬性。[0或者1],默認為0

--coverage? 設置最小的覆蓋度,默認是5

--binCover? 每個區(qū)域最小的nCs,默認是3

--chromstep? 染色體使用100000bp的重疊滑動窗口,步長為50000bp。 默認為:50000(bp)

DNA甲基化功能注釋

--gtf/--gff/--bed? Gtf文件,gff文件或者bed文件

--distance? ? ? ? 分布于基因bocy和上下游的DNA甲基化水平。設置上游和下游的距離,默認是2000bp

--step? ? ? ? ? ? 基因及其兩側序列使用序列長度的5%的重疊滑動窗口,步長為序列長度的2.5%,默認步長為0.025(2.5%)

-C? ? ? ? ? ? ? ? 測序覆蓋度不能超過該數(shù)值,默認是1000

--coverage? ? ? ? 設置最小的覆蓋度,默認是5

--binCover? ? ? ? 每個區(qū)域最小的nCs,默認是3

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容