y一、認(rèn)識(shí)文件名
- 五大格式文件:
ped&map
bed&fam&bim - 各自存儲(chǔ)何種數(shù)據(jù)
五種格式
①ped(pedigree,家系):包含樣本的譜系信息和基因型信息,必須與fam文件一起,前6個(gè)字段與fam文件對應(yīng)
ped
②map:和ped文件一起,表示每個(gè)SNP的信息,共4列
就是檢測出來的SNP位置信息
map
Plink程序識(shí)別二進(jìn)制文件,需要通過相應(yīng)命令將其轉(zhuǎn)化成二進(jìn)制。
--make-bed
③bed(二進(jìn)制文件)
④fam(記錄每個(gè)樣本家系的信息)
family
⑤bim(對map文件的拓展)
binary+map
二、GWAS分析流程
基因型數(shù)據(jù)質(zhì)控
1)按分型百分比過濾
一般剔除缺失率在20%以上的位點(diǎn)
2)按等位基因頻率過濾
去除第二等位基因頻率小于5%的位點(diǎn)
3)多等位位點(diǎn)的過濾
根據(jù)軟件,有些軟件不支持多等位位點(diǎn)
4)哈迪溫伯格平衡過濾
人類中一般將不符合哈迪溫伯格平衡的位點(diǎn)過濾掉,動(dòng)植物不使用該過濾LD衰減分析(選做)
LD連鎖不平衡
LD系數(shù):r^2=0,群體中兩個(gè)位點(diǎn)完全不相關(guān),=1說明完全相關(guān)(完全連鎖)
一般而言,兩個(gè)位點(diǎn)在基因組上離得越近,相關(guān)性就越強(qiáng),LD系數(shù)越大;反之,LD系數(shù)就越小。
→隨著位點(diǎn)間的距離不斷增加,LD系數(shù)通常情況下會(huì)慢慢下降,常用LD衰減圖呈現(xiàn)
GWAS標(biāo)記量 = 基因組大小/LD衰減距離群體結(jié)構(gòu)(Q)和親緣關(guān)系(K)
目的:對群體結(jié)構(gòu)和親緣關(guān)系進(jìn)行評估以確定使用的統(tǒng)計(jì)模型和獲得相應(yīng)的矩陣
關(guān)聯(lián)結(jié)果出現(xiàn)假陽性的兩個(gè)主要因素關(guān)聯(lián)分析
(1)選擇正確的統(tǒng)計(jì)方法:
小標(biāo)記量:t-test或ANOVA
case/control質(zhì)量性狀:卡方檢驗(yàn),OR檢驗(yàn),邏輯回歸
數(shù)量性狀:一般使用多種模型(GLM/MLM/EMMAX/fast-LMM)同時(shí)分析
(2)確定顯著性閾值,一般為1/有效的分子標(biāo)記數(shù)
(3)結(jié)果解讀
可視化:
曼哈頓圖,
分位點(diǎn)圖(QQplot),隨機(jī)預(yù)測出的P和實(shí)際算出來P的比較,是否異常顯著
cmplotR包


