Wang WYS, Barratt BJ, Clayton DG, Todd JA (2005) Genome-wide association studies: theoretical and practical concerns. Nat Rev Genet 6:109–118. doi: 10.1038/nrg1522
摘要|為了完全了解常見(jiàn)疾病基礎(chǔ)的等位基因變異,需要對(duì)具有和不具有疾病的許多個(gè)體進(jìn)行完全的基因組測(cè)序。這在技術(shù)上仍然不可行。然而,最近已經(jīng)可能通過(guò)在全基因組關(guān)聯(lián)研究中對(duì)大量常見(jiàn)SNP進(jìn)行基因分型來(lái)進(jìn)行基因組的部分調(diào)查。在這里,我們概述了需要考慮的主要因素 - 包括常見(jiàn)疾病的等位基因結(jié)構(gòu),樣本大小,地圖密度和樣本收集偏差的模型,以便優(yōu)化識(shí)別真正的疾病易感性位點(diǎn)的成本效率。
常見(jiàn)疾病的發(fā)展起因于許多環(huán)境因素和許多基因的等位基因之間的復(fù)雜相互作用。識(shí)別影響發(fā)展疾病風(fēng)險(xiǎn)的等位基因?qū)⒂兄诹私饧膊〔∫蚝蛠喎诸?lèi)。在過(guò)去30年中,多因素人類(lèi)疾病的遺傳研究已經(jīng)確定了?50個(gè)基因及其等位基因變異,可以認(rèn)為是不可逆的或真陽(yáng)性1,2。然而,可能有數(shù)百個(gè)易感基因座增加了每種常見(jiàn)疾病的風(fēng)險(xiǎn)。關(guān)鍵問(wèn)題是如何利用我們對(duì)基因組序列及其在群體中的變化的知識(shí)的顯著的最近的改進(jìn),以及基因分型技術(shù)的進(jìn)步,以最低的成本加速易感性基因座發(fā)現(xiàn)。
在本期雜志的一篇附隨評(píng)論中,Hirschorn和Daly3為全基因組關(guān)聯(lián)方法提出了一個(gè)案例,“其中跨基因組的一組密集的SNP被基因分型以檢測(cè)最常見(jiàn)的遺傳變異在疾病中的作用或確定作為疾病風(fēng)險(xiǎn)因素的可遺傳數(shù)量性狀“。他們建議謹(jǐn)慎使用最新的高通量方法進(jìn)行基因分型4 - 8,因?yàn)槭〉某杀緦?duì)于設(shè)計(jì)和執(zhí)行具有低統(tǒng)計(jì)功效和不充分的質(zhì)量控制的研究可能是巨大的。在這里,在全基因組關(guān)聯(lián)研究和最小化每個(gè)真陽(yáng)性的成本的上下文中,我們更詳細(xì)地討論使用大樣本大小根據(jù)可行的最小等位基因風(fēng)險(xiǎn)的理由,檢測(cè),單核苷酸多態(tài)性的選擇基因分型,研究設(shè)計(jì)效率和這些數(shù)據(jù)的統(tǒng)計(jì)分析的某些方面。我們不主張放棄對(duì)共同疾病的聯(lián)系研究9-12。我們還不能說(shuō)是否LINKAGE ANALYSIS方法在一般意義上是“失敗”的,因?yàn)閹缀跛幸寻l(fā)表的研究都使用小樣本大小13(少于500個(gè)受影響的SIB對(duì)),所以這不能單獨(dú)用作執(zhí)行的理由全基因組關(guān)聯(lián)研究?;蚪M范圍的鏈接分析將仍然是一個(gè)重要的方法,直到技術(shù)可用,允許在實(shí)際成本和高吞吐量關(guān)聯(lián)分析罕見(jiàn)和共同變體。
此外,如前所述14,我們查看全基因組關(guān)聯(lián)研究本身不是一種新的方法,而是作為一種更成本有效的方式來(lái)調(diào)查共同遺傳變異相比基因功能候選基因方法。后一種方法已經(jīng)成功,但是由于迄今為止僅研究了少量基因,并且如我們所討論的,樣品量可能太小,盡管進(jìn)行了大量的研究和大量的努力,但很少有真正的陽(yáng)性。通過(guò)利用位于鄰近基因座(鏈接區(qū)域(LD))的等位基因的非隨機(jī)關(guān)聯(lián),這是基因組5,15-18的重要和廣泛的特征,現(xiàn)在可以在關(guān)聯(lián)研究中調(diào)查sig-發(fā)生在高LD區(qū)域的大量基因的共同變異的顯著比例。可以獲得成本效率,因?yàn)椴槐貙?duì)與其他SNP處于強(qiáng)LD的SNP進(jìn)行基因分型;這可以通過(guò)選擇捕獲區(qū)域中大多數(shù)等位基因變異的SNP的子集(稱(chēng)為標(biāo)簽SNP(參見(jiàn)在線鏈接框))來(lái)完成。將討論該策略的理由和限制,同時(shí)銘記標(biāo)簽SNP在檢測(cè)稀有可疑性變體方面的不足,并且根據(jù)定義,它們?cè)诘蚅D區(qū)域缺乏成本節(jié)約優(yōu)勢(shì),這可能構(gòu)成20%的人類(lèi)基因組。除了討論這些更實(shí)際的問(wèn)題,我們首先討論關(guān)于兩個(gè)尚未知的參數(shù)的理論考慮,這些參數(shù)決定了關(guān)聯(lián)研究的潛在穩(wěn)定性 - 群體中易感性等位基因的頻率及其影響的大小疾病表型。
常見(jiàn)疾病的等位基因譜
疾病的等位基因譜或結(jié)構(gòu)指存在的疾病變異的數(shù)量,它們的等位基因頻率和它們賦予的風(fēng)險(xiǎn)9,20,21。來(lái)自理論模型和實(shí)際實(shí)驗(yàn)的許多來(lái)源提供了對(duì)常見(jiàn)疾病的等位基因結(jié)構(gòu)的了解,表明涉及的基因座的多樣性及其作用范圍。不管在疾病之間不同的光譜的確切形狀如何,傾向于疾病的變體的等位基因頻率和它們的表型效應(yīng)的強(qiáng)度表明遺傳相關(guān)性研究的潛在統(tǒng)計(jì)學(xué)力量,并因此表明它們成功的可能性和成本每個(gè)真陽(yáng)性結(jié)果。在這里,我們首先討論這兩個(gè)因素可能對(duì)全基因組關(guān)聯(lián)研究的可行性的影響,然后提供迄今為止已知的常見(jiàn)疾病的等位基因譜的概述。應(yīng)該注意的是,其他因素也影響統(tǒng)計(jì)能力 - 例如,混雜因素,如人口結(jié)構(gòu)和地理,錯(cuò)誤分類(lèi)錯(cuò)誤和選擇偏差 - 其中一些因素將在后面的章節(jié)中討論。
對(duì)關(guān)聯(lián)研究的影響。圖1顯示如果易感性等位基因具有小于0.1的小分子頻率(MAF)和它們的效應(yīng)大小小于1.3的ODDS比率,則超過(guò)10,000個(gè)病例和10,000個(gè)對(duì)照(或10,000個(gè)家族)將需要對(duì)疾病協(xié)會(huì)實(shí)現(xiàn)令人信服的統(tǒng)計(jì)支持。我們無(wú)法以任何準(zhǔn)確性估計(jì)疾病易感性等位基因在該范圍之外的比例(即,優(yōu)勢(shì)比為1.3或更高和MAF> 0.1的那些),因此在全基因組關(guān)聯(lián)研究中是可行的,這個(gè)限制在下面討論。然而,我們建議,與目前的候選基因和基于連鎖的方法相比,旨在檢測(cè)這種等位基因的研究 - 需要分析數(shù)千個(gè)樣品,而不是數(shù)百個(gè)樣品 - 將提供每個(gè)真陽(yáng)性結(jié)果的總體更低的成本。
對(duì)6,000個(gè)病例和6,000個(gè)對(duì)照(或6,000個(gè)家庭,具有2個(gè)親本和受影響的后代)的研究將在理想條件下提供約0%,3%,43%和94%的功率以檢測(cè)疾病易感性變異,優(yōu)勢(shì)比1.3和MAF為0.01,0.02,0.05和0.1,以相應(yīng)的順序,P <10-6的顯著水平(圖1)。由于需要允許任何給定基因座或區(qū)域與疾病真正相關(guān)的非常小的先驗(yàn)概率3,14,22,24,103,104,已經(jīng)提出了P <10-6級(jí)的顯著性閾值用于全基因組關(guān)聯(lián)研究。對(duì)于優(yōu)勢(shì)比為1.2或更小(例如,對(duì)于MAF為0.1的34%)的功率存在急劇的下降(圖1)。相反,對(duì)于優(yōu)勢(shì)比為2,即使對(duì)于MAF為0.005,也存在76%的功率。然而,我們懷疑這種高比值比在常見(jiàn)疾病中很少見(jiàn)(見(jiàn)下文)。
毫無(wú)疑問(wèn),即使是最佳設(shè)計(jì)的研究,目標(biāo)是最小MAF為10%和優(yōu)勢(shì)比為1.3,由于許多因素,包括基因型和表型的錯(cuò)誤分類(lèi)和混雜因素,將具有比預(yù)期更低的功率,所以甚至更大的樣本大小可能是必需的。然而,應(yīng)當(dāng)注意,在12,000例病例和對(duì)照的研究中,例如,可以在幾乎沒(méi)有功率損失的階段進(jìn)行基因分型。這提供了基因分型成本的顯著節(jié)省,因?yàn)榇蠖鄶?shù)基因分型在樣品總數(shù)(約20-30%)的第一階段進(jìn)行(參見(jiàn)REFS 3,25,關(guān)于這些方法)。
在下面的章節(jié)中,我們討論常見(jiàn)疾病的等位基因譜的理論模型,并估計(jì)其可能的分布。
易感基因座的等位基因頻率。兩種極化視圖主導(dǎo)了許多關(guān)于常見(jiàn)疾病的等位基因頻率的文獻(xiàn)9,21。常見(jiàn)疾病/常見(jiàn)變異(CDCV)假說(shuō)提出,如其名稱(chēng)所暗示的,常見(jiàn)疾病是常見(jiàn)變異的結(jié)果20。在這種模式下,疾病易感性被認(rèn)為是由幾種常見(jiàn)變異體的聯(lián)合作用引起的,而無(wú)關(guān)的受影響個(gè)體具有顯著比例的疾病等位基因。
CDCV的極端替代方案是經(jīng)典疾病異質(zhì)性假說(shuō)(或多重稀有變異假說(shuō)),其中疾病易感性是由于不同個(gè)體的不同遺傳變異,疾病易感性等位基因具有低人口頻率26(MAF小于大于0.01)。
最常見(jiàn)的疾病的等位基因譜可能落在這兩個(gè)極端之間。經(jīng)典異質(zhì)性模型,其中多個(gè)稀有變體貢獻(xiàn)附加地和獨(dú)立地(在生物學(xué)意義上),導(dǎo)致相關(guān)受試者的性狀之間的相關(guān)性與它們之間的關(guān)系的距離線性地下降27(圖2)。這是疾病等位基因共享的線性減少與關(guān)系的增加的關(guān)系的結(jié)果。相反,如果一種常見(jiàn)疾病主要是由于幾個(gè)基因座與常見(jiàn)等位基因的相互依賴(lài)的相互作用,則具有相關(guān)性程度的風(fēng)險(xiǎn)的下降將比線性下降更快。這種相關(guān)性是否適用于不同的常見(jiàn)疾病和性狀的研究產(chǎn)生了不同的結(jié)果,為一些癌癥28和身高29中的遺傳加和性提供了支持,并且在1型糖尿病30中具有非加和性(參見(jiàn)在線鏈接框)。
用于支持這兩個(gè)假設(shè)的論據(jù)在很大程度上基于人口遺傳理論,因此將受這些理論的基本假設(shè)的影響20,31。經(jīng)驗(yàn)證據(jù)表明高頻和低頻等位基因都有助于常見(jiàn)疾病2,32-38。例如,在對(duì)映射的量化位點(diǎn)(QTL)的評(píng)價(jià)中,大約50%的候選因果變異體具有超過(guò)0.05的MAF,而另一半具有較低的MAF9。我們建議,最好避免罕見(jiàn)的與常見(jiàn)的疾病易感性等位基因的極化,而是考慮疾病變異體的等位基因譜與所有變體(有或沒(méi)有表型效應(yīng))在人類(lèi)中的差異基因組(圖3)。最中性的假說(shuō)是疾病變體的等位基因譜與所有遺傳變體的一般譜一致17,39,40。在這種中性模型下,雖然大多數(shù)易感變異是罕見(jiàn)的(MAF小于0.01),MAF大于0.01的SNP將占個(gè)體之間的遺傳差異的90%以上并且應(yīng)該顯著地促進(jìn)表型17,41。與總體等位基因譜相比,CDCV模型可以被認(rèn)為是朝向常見(jiàn)變異的轉(zhuǎn)變,并且異質(zhì)性模型朝向罕見(jiàn)變異40轉(zhuǎn)移(圖3)?;蚪M的蛋白編碼區(qū)具有比一般基因組更低的MAF的多態(tài)性,因此,導(dǎo)致非同義變化的疾病變體42,43可能導(dǎo)致罕見(jiàn)的變化。不同的進(jìn)化力可導(dǎo)致不同的光譜移動(dòng);例如,PURIFYING SELECTION可能會(huì)導(dǎo)致罕見(jiàn)的shift31。相比之下,由免疫應(yīng)答介導(dǎo)的疾病,如自身免疫性疾病,可能是由陽(yáng)性選擇的等位基因引起的,以提供對(duì)傳染病的抗性,因此達(dá)到更高的人群頻率36。類(lèi)似地,諸如2型糖尿?。▍⒁?jiàn)在線鏈接框)的代謝疾病,其中選擇等位基因用于對(duì)饑餓或能量平衡的適應(yīng)性反應(yīng),可能影響現(xiàn)代環(huán)境中的易感性 - 節(jié)儉基因假說(shuō)44。因此,等位基因譜將在不同的常見(jiàn)疾病之間變化,并且可能由等位基因頻率26,32的復(fù)雜混合組成,接近圖1中所示的彎曲L形分布。注意,如果表示0和1.0之間的等位基因頻率,則曲線將是U形,而在僅考慮次要等位基因時(shí)代替0至0.5)。
對(duì)于基因組作為整體,已經(jīng)預(yù)測(cè),對(duì)于MAF大于0.01(REFS 41,45)的預(yù)期的10至15百萬(wàn)個(gè)SNP,大約一半具有大于0.1的MAF,另一半具有MAF, 0.01至0.1由于賦予輕度至中度風(fēng)險(xiǎn)的疾病變異數(shù)可能很大(如下一部分所解釋?zhuān)?,則除非等位基因譜的變化是嚴(yán)重的 - 鑒于遺傳和環(huán)境的多樣性,這似乎不大可能在常見(jiàn)疾病中的作用 - 可能有數(shù)百種常見(jiàn)的和罕見(jiàn)的變體,其導(dǎo)致每種常見(jiàn)人類(lèi)疾病的家族聚集。
作為示例,使用圖3中的假設(shè)頻譜, 3,考慮一種復(fù)雜的疾病,其中有20個(gè)疾病易感性變異在中性模型下促成該疾病,其中這些變異體的MAF大于0.1,并且它們的優(yōu)勢(shì)比足夠高以使它們?cè)谌蚪M中被鑒定協(xié)會(huì)研究。在這種情況下,罕見(jiàn)的移位可能導(dǎo)致?10個(gè)變體,MAF大于0.1,并且共同移位可能導(dǎo)致?40個(gè)變體。對(duì)全基因組關(guān)聯(lián)分析的意義是基于常見(jiàn)變異體的存在的實(shí)驗(yàn)可能產(chǎn)生大量的陽(yáng)性結(jié)果,除非等位基因譜中存在極端的變化
與疾病易感性變異相關(guān)的風(fēng)險(xiǎn)。關(guān)于等位基因結(jié)構(gòu)的第二個(gè)主要問(wèn)題是由個(gè)體變體賦予的遺傳風(fēng)險(xiǎn)的分布。雖然不可能預(yù)測(cè)任何給定的常見(jiàn)疾病的等位基因效應(yīng)的準(zhǔn)確分布,但是幾個(gè)證據(jù)線指向潛在的潛在分布。例如,這些證據(jù)來(lái)自于在果蠅,作物和家畜中的QTL研究中使用誘變,選擇和連鎖方法,以及對(duì)人類(lèi)疾病的嚙齒動(dòng)物模型的研究。這些研究表明遺傳變異體的表型效應(yīng)大小的分布與少數(shù)具有大效應(yīng)的遺傳基因座和具有小效應(yīng)的大量基因座的存在一致9,46-54。所得到的彎曲的L形分布已經(jīng)通過(guò)使用指數(shù)或者分布(參見(jiàn)圖4中的圖,其具有與圖3中的曲線不同的形狀和原點(diǎn))來(lái)建模。這些結(jié)果與目前的進(jìn)化理論一致,其中通過(guò)將基因DRIFT和突變效應(yīng)分解為經(jīng)典適應(yīng)模型55,QTL效應(yīng)的預(yù)期分布是指數(shù)56。最近的研究結(jié)果表明,等位基因變異頻繁影響基因表達(dá)和外顯子剪接57-60-這可能具有比影響人類(lèi)表型的多影響更小的效應(yīng)。并且具有影響基因表達(dá)調(diào)節(jié)的等位基因的基因座可以通過(guò)連鎖分析61,62檢測(cè)。
迄今為止已經(jīng)確定的大多數(shù)不可辯駁的疾病易感性變異體 - 主要來(lái)自功能 - 候選者相關(guān)性研究 - 具有1.1-1.5級(jí)(REFS 1,2)的等位基因比值比,并且對(duì)家族性復(fù)發(fā)風(fēng)險(xiǎn)很少11,22, 63。例如,假設(shè)等位基因的效應(yīng)和基因座之間的相互作用的乘法模型,頻率為0.1的疾病易感性等位基因使風(fēng)險(xiǎn)增加1.5倍將導(dǎo)致SIBLING相對(duì)復(fù)發(fā)風(fēng)險(xiǎn)(?s)小于1.02,
所有?s為5,將等于1.2%的貢獻(xiàn)。預(yù)期QTL將會(huì)結(jié)合并不是不合理
類(lèi)似尺寸的數(shù)量性狀的貢獻(xiàn)效應(yīng)。然而,我們不知道這是否是常見(jiàn)疾病中有代表性的效應(yīng)大小范圍,因?yàn)樵谠O(shè)計(jì)良好的關(guān)聯(lián)研究中僅評(píng)估了基因組的一小部分(參見(jiàn)例如,T1DBase數(shù)據(jù)庫(kù)在在線鏈接在1型糖尿病中研究的基因的框)。然而,我們認(rèn)為,進(jìn)行全基因組關(guān)聯(lián)研究是不明智的,沒(méi)有足夠的能力來(lái)檢測(cè)這種量級(jí)的疾病和數(shù)量性狀的影響。
全基因組關(guān)聯(lián)研究中的SNP選擇為了以統(tǒng)計(jì)學(xué)上有效的方式靶向占據(jù)> 0.1的MAF范圍和> 1.3的優(yōu)勢(shì)比的變異,我們需要知道群體中的所有常見(jiàn)變異,控制取自。雖然最近我們對(duì)人類(lèi)基因組變異的了解有了快速增長(zhǎng)17 - 主要是以單核苷酸多態(tài)性的形式 - 多達(dá)30%的常見(jiàn)變異可能仍未被檢測(cè)到。這可以通過(guò)進(jìn)一步的基因組重測(cè)序校正更大的一組無(wú)關(guān)的個(gè)體(在后面的部分討論)。