a√1区2区在线观看,日韩在线黄视频,伊人大香蕉色网

??使用混合線性模型（linear mixed model)做GWAS可以有效校正群體結(jié)構(gòu)和群體內(nèi)復(fù)雜的親緣關(guān)系。因此，目前絕大多數(shù)的GWAS都是使用的混合線性模型。近年來，大量的算法也被提出用于提高混合線性模型的計(jì)算效率。我們耳熟能詳?shù)淖鯣WAS的軟件基本也都是基于混合線性模型的，如GAPIT、GCTA、GEMMA，EMMAX等。今天就來談?wù)勈裁词腔旌暇€性模型。

GWAS.png

??首先要了解GWAS分析是主要使用單點(diǎn)掃描模型，一次只分析一個(gè)標(biāo)記，一個(gè)標(biāo)記一個(gè)標(biāo)記地計(jì)算效應(yīng)值，所以稱之為掃描。先說明幾個(gè)問題:

1. 為什么要掃描，不能一次性全部分析出來嗎？
??最早做GWAS時(shí)，標(biāo)記密度較稀疏，人們覺得標(biāo)記于標(biāo)記之間應(yīng)該是獨(dú)立的，因此不需要使用多元回歸，只需要使用單變量回歸即可。此外，一般來說GWAS分析的標(biāo)記數(shù)都是大于樣本數(shù)的。這種數(shù)據(jù)稱為高維數(shù)據(jù)，是無法直接運(yùn)用多元回歸去求解的。這個(gè)情況類似于給你10個(gè)條件，卻要你求100個(gè)未知數(shù)。高維數(shù)據(jù)的多元回歸需要增加懲罰項(xiàng)(也稱正則化)或者使用貝葉斯方法才可以完成。

2. 一般線性模型 $Y=X\beta + Z_{k}\gamma_{k} + e$ 做GWAS的缺陷是什么？
??我們研究的表型絕大多數(shù)都同是受到多個(gè)基因影響。現(xiàn)在對(duì)于復(fù)雜性狀，學(xué)界比較認(rèn)可的模型是微效多基因模型：復(fù)雜性狀受少數(shù)幾個(gè)主效基因和大量微效基因控制。因此，使用一般線性模型進(jìn)行單點(diǎn)掃描時(shí)，認(rèn)為表型僅受該標(biāo)記影響。這是不符合模型假設(shè)的，對(duì)于復(fù)雜性狀一個(gè)標(biāo)記能解釋表型變異的5%已經(jīng)非常高了。因此，我們求解時(shí)會(huì)造成嚴(yán)重的高估位點(diǎn)效應(yīng)值，產(chǎn)生假陽性。

??混合線性模型GWAS的一般形式如下：
$Y=X\beta+Z_{k}\gamma_{k}+\xi+e$
??其中 $X\beta$ 是固定效應(yīng)， $Z_{k}\gamma_{k}$ 是當(dāng)前標(biāo)記效應(yīng)（也被當(dāng)做固定效應(yīng)處理）， $\xi \sim {\mit{N}}(0,K\phi^{2})$ 為多基因效應(yīng)（其中K是標(biāo)記計(jì)算得到的親緣關(guān)系矩陣）。多基因效應(yīng)這個(gè)概念比較復(fù)雜，實(shí)際上就是每個(gè)分析樣本的遺傳效應(yīng)（即所有標(biāo)記效應(yīng)值的和）。這一項(xiàng)主要是大量的微效基因效應(yīng)添加到模型中以校正遺傳背景。因此混合線性模型比一般線性模型更符合微效多基因的假設(shè)了。