GWAS基石---混合線性模型

??使用混合線性模型(linear mixed model)做GWAS可以有效校正群體結(jié)構(gòu)和群體內(nèi)復(fù)雜的親緣關(guān)系。因此,目前絕大多數(shù)的GWAS都是使用的混合線性模型。近年來,大量的算法也被提出用于提高混合線性模型的計(jì)算效率。我們耳熟能詳?shù)淖鯣WAS的軟件基本也都是基于混合線性模型的,如GAPIT、GCTA、GEMMA,EMMAX等。今天就來談?wù)勈裁词腔旌暇€性模型。


GWAS.png

??首先要了解GWAS分析是主要使用單點(diǎn)掃描模型,一次只分析一個(gè)標(biāo)記,一個(gè)標(biāo)記一個(gè)標(biāo)記地計(jì)算效應(yīng)值,所以稱之為掃描。先說明幾個(gè)問題:

1. 為什么要掃描,不能一次性全部分析出來嗎?
??最早做GWAS時(shí),標(biāo)記密度較稀疏,人們覺得標(biāo)記于標(biāo)記之間應(yīng)該是獨(dú)立的,因此不需要使用多元回歸,只需要使用單變量回歸即可。此外,一般來說GWAS分析的標(biāo)記數(shù)都是大于樣本數(shù)的。這種數(shù)據(jù)稱為高維數(shù)據(jù),是無法直接運(yùn)用多元回歸去求解的。這個(gè)情況類似于給你10個(gè)條件,卻要你求100個(gè)未知數(shù)。高維數(shù)據(jù)的多元回歸需要增加懲罰項(xiàng)(也稱正則化)或者使用貝葉斯方法才可以完成。

2. 一般線性模型Y=X\beta + Z_{k}\gamma_{k} + e做GWAS的缺陷是什么?
??我們研究的表型絕大多數(shù)都同是受到多個(gè)基因影響。現(xiàn)在對(duì)于復(fù)雜性狀,學(xué)界比較認(rèn)可的模型是微效多基因模型:復(fù)雜性狀受少數(shù)幾個(gè)主效基因和大量微效基因控制。因此,使用一般線性模型進(jìn)行單點(diǎn)掃描時(shí),認(rèn)為表型僅受該標(biāo)記影響。這是不符合模型假設(shè)的,對(duì)于復(fù)雜性狀一個(gè)標(biāo)記能解釋表型變異的5%已經(jīng)非常高了。因此,我們求解時(shí)會(huì)造成嚴(yán)重的高估位點(diǎn)效應(yīng)值,產(chǎn)生假陽性。

??混合線性模型GWAS的一般形式如下:
Y=X\beta+Z_{k}\gamma_{k}+\xi+e
??其中X\beta是固定效應(yīng),Z_{k}\gamma_{k}是當(dāng)前標(biāo)記效應(yīng)(也被當(dāng)做固定效應(yīng)處理),\xi \sim {\mit{N}}(0,K\phi^{2})為多基因效應(yīng)(其中K是標(biāo)記計(jì)算得到的親緣關(guān)系矩陣)。多基因效應(yīng)這個(gè)概念比較復(fù)雜,實(shí)際上就是每個(gè)分析樣本的遺傳效應(yīng)(即所有標(biāo)記效應(yīng)值的和)。這一項(xiàng)主要是大量的微效基因效應(yīng)添加到模型中以校正遺傳背景。因此混合線性模型比一般線性模型更符合微效多基因的假設(shè)了。


如果\xi \sim {\mit{N}}(0,K\phi^{2})是所有標(biāo)記的效應(yīng)總和,K是怎么來的?K\phi^{2}又是什么意思?

下次講解親緣關(guān)系矩陣K的推導(dǎo)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容