Hi,大家好。最近在幫師姐分析甲基化,順便就把甲基化分析過(guò)程整理一下。
我們先來(lái)看看什么是DNA甲基化。
DNA甲基化(DNA methylation)為DNA化學(xué)修飾的一種形式,能夠在不改變DNA序列的前提下,改變遺傳表現(xiàn)。所謂DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5號(hào)碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。大量研究表明,DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式的改變,從而控制基因表達(dá)[2]。
在成熟體細(xì)胞組織中,DNA甲基化一般發(fā)生于CpG雙核苷酸(CpG dinucleotide)部位;而非CpG甲基化則于胚胎干細(xì)胞中較為常見(jiàn)[1,2]。植物體內(nèi)胞嘧啶的甲基化則可分為對(duì)稱(chēng)的CpG(或CpNpG),或是不對(duì)稱(chēng)的CpNpNp形式(C與G是堿基;p是磷酸根;N指的是任意的核苷酸)。DNA甲基化可以理解為基因組上的表觀修飾,也就是說(shuō)甲基化可以導(dǎo)致基因失活,去甲基化則代表基因的激活與表達(dá)。
從公司拿到DNA甲基化測(cè)序數(shù)據(jù)后,我們就可以進(jìn)行DNA甲基化分析了。
DNA甲基化數(shù)據(jù)處理所使用的軟件為Bismark(https://www.bioinformatics.babraham.ac.uk/projects/bismark/).
依賴(lài)軟件
需要用戶(hù)提前安裝好Bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)和Hisat2(https://ccb.jhu.edu/software/hisat2/index.shtml),bam文件輸出需要提前安裝Samtools(http://samtools.sourceforge.net/)
一、下載軟件
我們可以從官網(wǎng)直接下載,也可以從GitHut(https://github.com/FelixKrueger/Bismark)下載

下載好,進(jìn)入Bismark
git clone https://github.com/FelixKrueger/Bismark.git
cd Bismark
./bismark_genome_preparation –version

接下來(lái)分析,我們使用軟件中的示例文件,在travis_files文件中
cd travis_files
ls

二、對(duì)基因組構(gòu)建索引
/bismark/bismark_genome_preparation --path_to_aligner /usr/bin/bowtie2/ --verbose /data/travis_files
結(jié)果生成Bisulfite_Genome文件夾,使用tree命令查看文件夾下都有什么文件

三、運(yùn)行bismark, 進(jìn)行比對(duì)
對(duì)于雙端測(cè)序
bismark --genome ./travis_files/ -1 ./travis_files/test_R1.fastq.gz -2 ./travis_files/test_R2.fastq.gz -p 2 -o ./results/
這里將輸出兩個(gè)文件:
- test_R1_bismark_bt2_pe.bam (contains all alignments plus methylation call strings)
- test_R1_bismark_bt2_PE_report.txt (contains alignment and methylation summary)
四、刪除重復(fù)數(shù)據(jù)
./deduplicate_bismark --bam ./results/test_R1_bismark_bt2_pe.bam --output_dir ./results/
五、提取甲基化位點(diǎn)
./bismark_methylation_extractor -p --gzip --bedGraph --buffer_size 10G --cytosine_report --comprehensive --genome_folder ./travis_files/ ./results/test_R1_bismark_bt2_pe.bam -o ./results/
--cytosine_report生成基因組中所有cytosine的全基因組甲基化報(bào)告。
--comprehensive會(huì)合并正反鏈的數(shù)據(jù),輸出CpG/CHG/CHH三種類(lèi)型的甲基化文件,包含了胞嘧啶所有的組合形式,但我們最關(guān)注的是CpG位點(diǎn)的甲基化。

六、生成處理報(bào)告和總結(jié)報(bào)告
./bismark2report
./bismark2summary
結(jié)果解析
bismark2report此腳本使用Bismark比對(duì)報(bào)告來(lái)生成圖形HTML報(bào)告頁(yè)。
即test_R1_bismark_bt2_PE_report.html, 它包括了比對(duì)信息,甲基化信息,M-bias等,我們可以簡(jiǎn)單看一下







前面已經(jīng)提到使用--comprehensive,會(huì)輸出CpG/CHG/CHH三種類(lèi)型的甲基化文件,其中CpG_context_test_R1_bismark_bt2_pe.txt.gz即為CpG甲基化位點(diǎn)的文件。
less CpG_context_test_R1_bismark_bt2_pe.txt.gz

文件中每一列含義
第一列是測(cè)序信息
第二列為甲基化狀態(tài),+為甲基化,-為為甲基化
第三列為染色體
第四列為起始位置(等于終止位置)
第五列為methylation call strings, 即大寫(xiě)就是甲基化
-
z- C in CpG context - unmethylated -
Z- C in CpG context - methylated -
x- C in CHG context - unmethylated -
X- C in CHG context - methylated -
h- C in CHH context - unmethylated -
H- C in CHH context - methylated -
u- C in Unknown context (CN or CHN) - unmethylated -
U- C in Unknown context (CN or CHN) - methylated -
.- not a C or irrelevant position
test_R1_bismark_bt2_pe.bismark.cov.gz提供了每個(gè)位點(diǎn)的甲基化比例
less test_R1_bismark_bt2_pe.bismark.cov.gz

第一列為染色體
第二列為起始位置
第三列為終止位置
第四列為甲基化比例
第五列為甲基化個(gè)數(shù)
第六列為未甲基化個(gè)數(shù)
如何你還有其他問(wèn)題,可以直接看軟件里面README.md,也可以咨詢(xún)我。
參考:
1.Dodge, Jonathan E.; Bernard H. Ramsahoyeb, Z. Galen Woa, Masaki Okanoa, En Li. De novo methylation of MMLV provirus in embryonic stem cells: CpG versus non-CpG methylation. Science Direct. May 2002 [2007-06-23].
2.百度百科
- DNA甲基化測(cè)序數(shù)據(jù)處理(一):數(shù)據(jù)比對(duì)http://m.itdecent.cn/p/5d7e550abc1a?from=singlemessage