一、解釋一
這里注意HaplotypeCaller只能處理單樣本文件,當(dāng)有多樣本時(shí),官方建議使用HaplotypeCaller對(duì)單bam文件分別進(jìn)行變異檢測(cè),生成GVCF文件,GVCF會(huì)記錄每一個(gè)位點(diǎn)到情況,包括有無(wú)突變,VCF只記錄突變位點(diǎn)情況,之后在下一步對(duì)GVCF文件進(jìn)行合并。
作者:Wei_Sun
鏈接:http://m.itdecent.cn/p/c92780b13242
來(lái)源:簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
二、解釋二
gvcf文件與vcf文件都是vcf文件,不同之處在于gvcf文件會(huì)記錄更多的信息,這里更多的信息指的是未突變的位點(diǎn)的覆蓋情況,從下面的圖我們可以直觀的看出兩者的區(qū)別

可以看到,gvcf文件也分兩種,一種是-erc gvcf ,另一種是 -erc bp_resolution,這兩種gvcf文件的區(qū)別在于前一種gvcf文件記錄非突變位點(diǎn)的時(shí)候,以塊的形式來(lái)記錄,而后一種gvcf文件則是對(duì)非突變和突變位點(diǎn)一視同仁,前一種方式是為了有效的壓縮文件的行數(shù)和大小,對(duì)后續(xù)的分析沒(méi)有影響,因此這里推薦使用前一種gvcf文件。
那么為什么要使用gvcf文件而不是vcf文件呢?這里主要的原因在于多個(gè)樣本的vcf文件進(jìn)行合并的時(shí)候,需要區(qū)分./.和0/0的情況,./.是未檢出的基因型,而0/0是未突變的基因型,如果僅使用普通的vcf文件進(jìn)行合并,那么就無(wú)法區(qū)分這兩種情況,進(jìn)而對(duì)合并結(jié)果產(chǎn)生偏差。實(shí)際上,我們也可以直接將gvcf文件和vcf文件使用bcftools merge進(jìn)行merge,但是這樣拿到的結(jié)果會(huì)有偏差,因?yàn)関cf文件沒(méi)有未突變的位點(diǎn)的情況。
————————————————
版權(quán)聲明:本文為CSDN博主「卡西莫多的禮物」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_35696312/article/details/88343352
三、總結(jié):
在處理單樣本時(shí):
可以直接使用VCF文件
在處理多樣本時(shí):
由于使用普通的vcf文件進(jìn)行合并,無(wú)法區(qū)分./.和0/0的情況(./.是未檢出的基因型,而0/0是未突變的基因型),會(huì)使結(jié)果出現(xiàn)偏差。所以,當(dāng)有多樣本時(shí),官方建議使用HaplotypeCaller對(duì)單bam文件分別進(jìn)行變異檢測(cè),生成GVCF文件之后在下一步對(duì)GVCF文件進(jìn)行合并。