SNP過濾時(shí)常用參數(shù)的解析(群體遺傳)

關(guān)于為何要進(jìn)行SNP的過濾:

第一,低質(zhì)量和無信息的SNP會(huì)影響后續(xù)群體結(jié)構(gòu)或GWAS的分析結(jié)果,甚至影響后續(xù)對(duì)生物學(xué)問題的解釋;第二,群體研究時(shí),由于測(cè)序的個(gè)體較多檢測(cè)出來的變異位點(diǎn)經(jīng)常會(huì)數(shù)以千萬計(jì),進(jìn)一步過濾會(huì)減少后續(xù)分析時(shí),對(duì)計(jì)算資源的需求。

indel鄰近區(qū)域的SNP和10bp范圍內(nèi)的SNP cluster

這兩個(gè)參數(shù)并非通用,為什么要考慮它們見圖片中的描述


圖片1.jpg

10bp范圍內(nèi)有3個(gè)以上的SNP,去除掉

#標(biāo)出10bp范圍3個(gè)SNP的 ”SnpCluster“
gatk VariantFiltration -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.vcf -cluster 3 -window 10 -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf
#去除上一步標(biāo)出的SnpCluster"
gatk SelectVariants -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf -select "FILTER == SnpCluster" --invertSelect

去除indel附近5bp范圍內(nèi)的SNP

bcftools filter -g 5 -O v -o 1-SnpGap5.vcf ../324.wgs.PASS.ANN.vcf.gz

基因型的質(zhì)量

除了考慮位點(diǎn)的質(zhì)量之外,還要考慮每個(gè)個(gè)體在這個(gè)位點(diǎn)上的基因型,只保留基因型上GQ值大于20,大于5條reads覆蓋的基因型,否則設(shè)為miss即 ./.

vcftools --vcf 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf --minDP 5 --minGQ 20 --recode --recode-INFO-all --out test-minDP5-minGQ20.vcf

其他常見的過濾參數(shù)主要有:

最小等位基因頻率(Minor Allele frequencies)

MAF是次要等位基因頻率。它是指群體中第二多的等位基因頻率假設(shè)某一位點(diǎn),檢測(cè)到了A,T和C三種堿基,A出現(xiàn)20次,T出現(xiàn)10次,C出現(xiàn)5次,則第二多的T的等位基因頻率為10/35

下圖所示的是不同SNP之間AF的差異??偣灿?24個(gè)二倍體個(gè)體,共648個(gè)位點(diǎn),有些變異堿基只出現(xiàn)了1次或2次。

示例文件.png

缺失比例(missing rates)

假如缺失比例為0.05,總共100個(gè)個(gè)體的情況下,則該SNP在100*0.05=5個(gè)個(gè)體中丟失。

bi-allelic位點(diǎn)

為什么一般只保留bi-allelic SNP,要去除multi-allelic SNP?

bi-allelic位點(diǎn)是指基因組的某個(gè)位置上有兩個(gè)allele,其中參考基因組在該位點(diǎn)上的堿基算作一個(gè)allele,樣本在該位置上的變異算作一個(gè)allele。所以bi-allelic 位點(diǎn)即該位點(diǎn)只有一種變異。例如下圖所示的位點(diǎn)7只有一種變異,樣本1-3的deletion。


example1.png

而下圖所示的位點(diǎn)7則是一個(gè)multi-allelic位點(diǎn),有參考基因組的G和樣本2的C和樣本3的T兩種SNP。


example2.png

質(zhì)量(Quality)

在將樣本的reads比對(duì)到參考基因組上后,比對(duì)到某個(gè)SNP的reads數(shù)量越多,則該SNP的Q值越大即越可信。

連鎖不平衡(LD)

進(jìn)行群體遺傳結(jié)構(gòu)分析時(shí),如果位點(diǎn)之間有強(qiáng)連鎖的關(guān)系則會(huì)影響分析的結(jié)果,因此需要過濾掉互相之間連鎖不平衡的SNP。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容