DNA甲基化數(shù)據(jù)分析(一)

Hi,大家好。最近在幫師姐分析甲基化,順便就把甲基化分析過(guò)程整理一下。
我們先來(lái)看看什么是DNA甲基化。
DNA甲基化(DNA methylation)為DNA化學(xué)修飾的一種形式,能夠在不改變DNA序列的前提下,改變遺傳表現(xiàn)。所謂DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5號(hào)碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。大量研究表明,DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式的改變,從而控制基因表達(dá)[2]。
在成熟體細(xì)胞組織中,DNA甲基化一般發(fā)生于CpG雙核苷酸(CpG dinucleotide)部位;而非CpG甲基化則于胚胎干細(xì)胞中較為常見(jiàn)[1,2]。植物體內(nèi)胞嘧啶的甲基化則可分為對(duì)稱(chēng)的CpG(或CpNpG),或是不對(duì)稱(chēng)的CpNpNp形式(C與G是堿基;p是磷酸根;N指的是任意的核苷酸)。DNA甲基化可以理解為基因組上的表觀修飾,也就是說(shuō)甲基化可以導(dǎo)致基因失活,去甲基化則代表基因的激活與表達(dá)。

從公司拿到DNA甲基化測(cè)序數(shù)據(jù)后,我們就可以進(jìn)行DNA甲基化分析了。

DNA甲基化數(shù)據(jù)處理所使用的軟件為Bismark(https://www.bioinformatics.babraham.ac.uk/projects/bismark/).

依賴(lài)軟件
需要用戶(hù)提前安裝好Bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)和Hisat2(https://ccb.jhu.edu/software/hisat2/index.shtml),bam文件輸出需要提前安裝Samtools(http://samtools.sourceforge.net/)

一、下載軟件
我們可以從官網(wǎng)直接下載,也可以從GitHut(https://github.com/FelixKrueger/Bismark)下載

image.png

下載好,進(jìn)入Bismark

git clone https://github.com/FelixKrueger/Bismark.git
cd Bismark 
./bismark_genome_preparation –version
image.png

接下來(lái)分析,我們使用軟件中的示例文件,在travis_files文件中

cd travis_files
ls 
image.png

二、對(duì)基因組構(gòu)建索引

/bismark/bismark_genome_preparation --path_to_aligner /usr/bin/bowtie2/ --verbose /data/travis_files

結(jié)果生成Bisulfite_Genome文件夾,使用tree命令查看文件夾下都有什么文件


image.png

三、運(yùn)行bismark, 進(jìn)行比對(duì)
對(duì)于雙端測(cè)序

bismark --genome ./travis_files/ -1 ./travis_files/test_R1.fastq.gz -2 ./travis_files/test_R2.fastq.gz -p 2 -o ./results/

這里將輸出兩個(gè)文件:

  1. test_R1_bismark_bt2_pe.bam (contains all alignments plus methylation call strings)
  2. test_R1_bismark_bt2_PE_report.txt (contains alignment and methylation summary)

四、刪除重復(fù)數(shù)據(jù)

./deduplicate_bismark --bam ./results/test_R1_bismark_bt2_pe.bam --output_dir ./results/

五、提取甲基化位點(diǎn)

./bismark_methylation_extractor -p --gzip --bedGraph --buffer_size 10G --cytosine_report --comprehensive --genome_folder ./travis_files/ ./results/test_R1_bismark_bt2_pe.bam -o ./results/

--cytosine_report生成基因組中所有cytosine的全基因組甲基化報(bào)告。
--comprehensive會(huì)合并正反鏈的數(shù)據(jù),輸出CpG/CHG/CHH三種類(lèi)型的甲基化文件,包含了胞嘧啶所有的組合形式,但我們最關(guān)注的是CpG位點(diǎn)的甲基化。


image.png

六、生成處理報(bào)告和總結(jié)報(bào)告
./bismark2report
./bismark2summary

結(jié)果解析
bismark2report此腳本使用Bismark比對(duì)報(bào)告來(lái)生成圖形HTML報(bào)告頁(yè)。
即test_R1_bismark_bt2_PE_report.html, 它包括了比對(duì)信息,甲基化信息,M-bias等,我們可以簡(jiǎn)單看一下


image.png

image.png

image.png

image.png

image.png

image.png

image.png

前面已經(jīng)提到使用--comprehensive,會(huì)輸出CpG/CHG/CHH三種類(lèi)型的甲基化文件,其中CpG_context_test_R1_bismark_bt2_pe.txt.gz即為CpG甲基化位點(diǎn)的文件。

less CpG_context_test_R1_bismark_bt2_pe.txt.gz
image.png

文件中每一列含義
第一列是測(cè)序信息
第二列為甲基化狀態(tài),+為甲基化,-為為甲基化
第三列為染色體
第四列為起始位置(等于終止位置)
第五列為methylation call strings, 即大寫(xiě)就是甲基化

  • z - C in CpG context - unmethylated
  • Z - C in CpG context - methylated
  • x - C in CHG context - unmethylated
  • X - C in CHG context - methylated
  • h - C in CHH context - unmethylated
  • H - C in CHH context - methylated
  • u - C in Unknown context (CN or CHN) - unmethylated
  • U - C in Unknown context (CN or CHN) - methylated
  • . - not a C or irrelevant position

test_R1_bismark_bt2_pe.bismark.cov.gz提供了每個(gè)位點(diǎn)的甲基化比例

less test_R1_bismark_bt2_pe.bismark.cov.gz
image.png

第一列為染色體
第二列為起始位置
第三列為終止位置
第四列為甲基化比例
第五列為甲基化個(gè)數(shù)
第六列為未甲基化個(gè)數(shù)

如何你還有其他問(wèn)題,可以直接看軟件里面README.md,也可以咨詢(xún)我。

參考:
1.Dodge, Jonathan E.; Bernard H. Ramsahoyeb, Z. Galen Woa, Masaki Okanoa, En Li. De novo methylation of MMLV provirus in embryonic stem cells: CpG versus non-CpG methylation. Science Direct. May 2002 [2007-06-23].
2.百度百科

  1. DNA甲基化測(cè)序數(shù)據(jù)處理(一):數(shù)據(jù)比對(duì)http://m.itdecent.cn/p/5d7e550abc1a?from=singlemessage
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容