GWAS學(xué)習(xí)筆記(2)-GWAS分析具體流程

y一、認(rèn)識(shí)文件名

  1. 五大格式文件:
    ped&map
    bed&fam&bim
  2. 各自存儲(chǔ)何種數(shù)據(jù)
五種格式

①ped(pedigree,家系):包含樣本的譜系信息和基因型信息,必須與fam文件一起,前6個(gè)字段與fam文件對應(yīng)

ped

②map:和ped文件一起,表示每個(gè)SNP的信息,共4列

就是檢測出來的SNP位置信息


map

Plink程序識(shí)別二進(jìn)制文件,需要通過相應(yīng)命令將其轉(zhuǎn)化成二進(jìn)制。

--make-bed

③bed(二進(jìn)制文件)
④fam(記錄每個(gè)樣本家系的信息)
family
⑤bim(對map文件的拓展)
binary+map

二、GWAS分析流程

  1. 基因型數(shù)據(jù)質(zhì)控
    1)按分型百分比過濾
    一般剔除缺失率在20%以上的位點(diǎn)
    2)按等位基因頻率過濾
    去除第二等位基因頻率小于5%的位點(diǎn)
    3)多等位位點(diǎn)的過濾
    根據(jù)軟件,有些軟件不支持多等位位點(diǎn)
    4)哈迪溫伯格平衡過濾
    人類中一般將不符合哈迪溫伯格平衡的位點(diǎn)過濾掉,動(dòng)植物不使用該過濾

  2. LD衰減分析(選做)
    LD連鎖不平衡
    LD系數(shù):r^2=0,群體中兩個(gè)位點(diǎn)完全不相關(guān),=1說明完全相關(guān)(完全連鎖)
    一般而言,兩個(gè)位點(diǎn)在基因組上離得越近,相關(guān)性就越強(qiáng),LD系數(shù)越大;反之,LD系數(shù)就越小。
    →隨著位點(diǎn)間的距離不斷增加,LD系數(shù)通常情況下會(huì)慢慢下降,常用LD衰減圖呈現(xiàn)
    GWAS標(biāo)記量 = 基因組大小/LD衰減距離

  3. 群體結(jié)構(gòu)(Q)和親緣關(guān)系(K)
    目的:對群體結(jié)構(gòu)和親緣關(guān)系進(jìn)行評估以確定使用的統(tǒng)計(jì)模型和獲得相應(yīng)的矩陣
    關(guān)聯(lián)結(jié)果出現(xiàn)假陽性的兩個(gè)主要因素

  4. 關(guān)聯(lián)分析
    (1)選擇正確的統(tǒng)計(jì)方法:
    小標(biāo)記量:t-test或ANOVA
    case/control質(zhì)量性狀:卡方檢驗(yàn),OR檢驗(yàn),邏輯回歸
    數(shù)量性狀:一般使用多種模型(GLM/MLM/EMMAX/fast-LMM)同時(shí)分析
    (2)確定顯著性閾值,一般為1/有效的分子標(biāo)記數(shù)
    (3)結(jié)果解讀
    可視化:
    曼哈頓圖,
    分位點(diǎn)圖(QQplot),隨機(jī)預(yù)測出的P和實(shí)際算出來P的比較,是否異常顯著
    cmplotR包

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容