【Plink】Error: Multiple instances of '_' in sample ID.?

前言

將vcf轉(zhuǎn)化為plink格式時(shí),命令如下:

plink --vcf  snp.vcf --recode --allow-extra-chr --out test

出現(xiàn)錯(cuò)誤:

Error: Multiple instances of '_' in sample ID.
If you do not want '_' to be treated as a FID/IID delimiter, use --double-id or
--const-fid to choose a different method of converting VCF sample IDs to PLINK
IDs, or --id-delim to change the FID/IID delimiter.

原因

報(bào)錯(cuò)信息中已有提示。

plink默認(rèn)使用下劃線對(duì)樣本名進(jìn)行分隔,分隔的兩個(gè)字段分別作為ped文件中的family id和sample id, 如果vcf中的樣本名含有多個(gè)下劃線,無(wú)法正確進(jìn)行劃分,軟件會(huì)報(bào)錯(cuò)。

解決方法

方法一:修改樣本名

假設(shè)你的vcf文件樣本名在第7行:

sed -i '7s/_/-/g' snp.vcf

方法二:修改--id-delim

--id-delim參數(shù)設(shè)定默認(rèn)分隔符是下劃線,可以設(shè)置成其他字符,以達(dá)到正確區(qū)分的目的。

方法三:加入--double_id或--const-fid參數(shù)

通過(guò)加入?yún)?shù)指定family_id的設(shè)定方式,有兩種參數(shù)。

第一種--double_id, 將family id和sample id保持相同。對(duì)于植物基因組分析而言,常忽略父母本,加入這個(gè)參數(shù)即可:

plink --vcf  snp.vcf --recode --allow-extra-chr --double_id --out test

第二種--const-fid將family id設(shè)置成一個(gè)常量(默認(rèn)值是0)。

https://cloud.tencent.com/developer/article/1556166
https://www.cog-genomics.org/plink2/input

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容