關(guān)于為何要進(jìn)行SNP的過濾:
第一,低質(zhì)量和無信息的SNP會(huì)影響后續(xù)群體結(jié)構(gòu)或GWAS的分析結(jié)果,甚至影響后續(xù)對(duì)生物學(xué)問題的解釋;第二,群體研究時(shí),由于測(cè)序的個(gè)體較多檢測(cè)出來的變異位點(diǎn)經(jīng)常會(huì)數(shù)以千萬計(jì),進(jìn)一步過濾會(huì)減少后續(xù)分析時(shí),對(duì)計(jì)算資源的需求。
indel鄰近區(qū)域的SNP和10bp范圍內(nèi)的SNP cluster
這兩個(gè)參數(shù)并非通用,為什么要考慮它們見圖片中的描述

10bp范圍內(nèi)有3個(gè)以上的SNP,去除掉
#標(biāo)出10bp范圍3個(gè)SNP的 ”SnpCluster“
gatk VariantFiltration -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.vcf -cluster 3 -window 10 -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf
#去除上一步標(biāo)出的SnpCluster"
gatk SelectVariants -V 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter.vcf -O 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf -select "FILTER == SnpCluster" --invertSelect
去除indel附近5bp范圍內(nèi)的SNP
bcftools filter -g 5 -O v -o 1-SnpGap5.vcf ../324.wgs.PASS.ANN.vcf.gz
基因型的質(zhì)量
除了考慮位點(diǎn)的質(zhì)量之外,還要考慮每個(gè)個(gè)體在這個(gè)位點(diǎn)上的基因型,只保留基因型上GQ值大于20,大于5條reads覆蓋的基因型,否則設(shè)為miss即 ./.
vcftools --vcf 324.wgs.call.SNP.Filter-SOR.ANN.vcfFliter.10-3filter-2.vcf --minDP 5 --minGQ 20 --recode --recode-INFO-all --out test-minDP5-minGQ20.vcf
其他常見的過濾參數(shù)主要有:
最小等位基因頻率(Minor Allele frequencies)
MAF是次要等位基因頻率。它是指群體中第二多的等位基因頻率假設(shè)某一位點(diǎn),檢測(cè)到了A,T和C三種堿基,A出現(xiàn)20次,T出現(xiàn)10次,C出現(xiàn)5次,則第二多的T的等位基因頻率為10/35
下圖所示的是不同SNP之間AF的差異??偣灿?24個(gè)二倍體個(gè)體,共648個(gè)位點(diǎn),有些變異堿基只出現(xiàn)了1次或2次。

缺失比例(missing rates)
假如缺失比例為0.05,總共100個(gè)個(gè)體的情況下,則該SNP在100*0.05=5個(gè)個(gè)體中丟失。
bi-allelic位點(diǎn)
為什么一般只保留bi-allelic SNP,要去除multi-allelic SNP?
bi-allelic位點(diǎn)是指基因組的某個(gè)位置上有兩個(gè)allele,其中參考基因組在該位點(diǎn)上的堿基算作一個(gè)allele,樣本在該位置上的變異算作一個(gè)allele。所以bi-allelic 位點(diǎn)即該位點(diǎn)只有一種變異。例如下圖所示的位點(diǎn)7只有一種變異,樣本1-3的deletion。

而下圖所示的位點(diǎn)7則是一個(gè)multi-allelic位點(diǎn),有參考基因組的G和樣本2的C和樣本3的T兩種SNP。

質(zhì)量(Quality)
在將樣本的reads比對(duì)到參考基因組上后,比對(duì)到某個(gè)SNP的reads數(shù)量越多,則該SNP的Q值越大即越可信。
連鎖不平衡(LD)
進(jìn)行群體遺傳結(jié)構(gòu)分析時(shí),如果位點(diǎn)之間有強(qiáng)連鎖的關(guān)系則會(huì)影響分析的結(jié)果,因此需要過濾掉互相之間連鎖不平衡的SNP。