gvcf文件與vcf文件

一、解釋一

這里注意HaplotypeCaller只能處理單樣本文件,當(dāng)有多樣本時(shí),官方建議使用HaplotypeCaller對(duì)單bam文件分別進(jìn)行變異檢測(cè),生成GVCF文件,GVCF會(huì)記錄每一個(gè)位點(diǎn)到情況,包括有無(wú)突變,VCF只記錄突變位點(diǎn)情況,之后在下一步對(duì)GVCF文件進(jìn)行合并。

作者:Wei_Sun
鏈接:http://m.itdecent.cn/p/c92780b13242
來(lái)源:簡(jiǎn)書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。

二、解釋二

gvcf文件與vcf文件都是vcf文件,不同之處在于gvcf文件會(huì)記錄更多的信息,這里更多的信息指的是未突變的位點(diǎn)的覆蓋情況,從下面的圖我們可以直觀的看出兩者的區(qū)別

image.png

可以看到,gvcf文件也分兩種,一種是-erc gvcf ,另一種是 -erc bp_resolution,這兩種gvcf文件的區(qū)別在于前一種gvcf文件記錄非突變位點(diǎn)的時(shí)候,以塊的形式來(lái)記錄,而后一種gvcf文件則是對(duì)非突變和突變位點(diǎn)一視同仁,前一種方式是為了有效的壓縮文件的行數(shù)和大小,對(duì)后續(xù)的分析沒(méi)有影響,因此這里推薦使用前一種gvcf文件。

那么為什么要使用gvcf文件而不是vcf文件呢?這里主要的原因在于多個(gè)樣本的vcf文件進(jìn)行合并的時(shí)候,需要區(qū)分./.和0/0的情況,./.是未檢出的基因型,而0/0是未突變的基因型,如果僅使用普通的vcf文件進(jìn)行合并,那么就無(wú)法區(qū)分這兩種情況,進(jìn)而對(duì)合并結(jié)果產(chǎn)生偏差。實(shí)際上,我們也可以直接將gvcf文件和vcf文件使用bcftools merge進(jìn)行merge,但是這樣拿到的結(jié)果會(huì)有偏差,因?yàn)関cf文件沒(méi)有未突變的位點(diǎn)的情況。
————————————————
版權(quán)聲明:本文為CSDN博主「卡西莫多的禮物」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_35696312/article/details/88343352

三、總結(jié):

在處理單樣本時(shí):
可以直接使用VCF文件
在處理多樣本時(shí):
由于使用普通的vcf文件進(jìn)行合并,無(wú)法區(qū)分./.和0/0的情況(./.是未檢出的基因型,而0/0是未突變的基因型),會(huì)使結(jié)果出現(xiàn)偏差。所以,當(dāng)有多樣本時(shí),官方建議使用HaplotypeCaller對(duì)單bam文件分別進(jìn)行變異檢測(cè),生成GVCF文件之后在下一步對(duì)GVCF文件進(jìn)行合并。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容