Rakyan2011 表觀基因組范圍的關聯(lián)研究

Rakyan VK, Down TA, Balding DJ, Beck S (2011) Epigenome-wide association studies for common human diseases. Nat Publ Gr 12:529–541. doi: 10.1038/nrg3000

摘要| 盡管全基因組關聯(lián)研究(GWAS)在鑒定與常見疾病相關的基因座方面的成功,但大部分的因果關系仍然不明。 基因組技術的最新進展使我們能夠開始大規(guī)模研究人類疾病相關的表觀遺傳變異,特別是DNA甲基化的變異。 這種表觀基因組范圍的關聯(lián)研究(EWAS)提供新的機會,但也產(chǎn)生在GWAS中未遇到的新挑戰(zhàn)。 我們討論EWAS設計,隊列和樣本選擇,統(tǒng)計顯著性和功效,混雜因素和隨訪研究。

闡明人類復雜疾?。ㄒ部蓳Q成整個生物界所有有意義的性狀)的遺傳和非遺傳決定因素是生物醫(yī)學研究的主要挑戰(zhàn)之一。近年來,全基因組關聯(lián)研究(GWASs)已經(jīng)為150多種疾病和其他性狀發(fā)現(xiàn)了> 800個SNP關聯(lián)1。盡管對于任何人類復雜疾病還不知道完整的遺傳基礎,但是對外顯子 - 并且最終完整的基因組 - 的確定有望識別大多數(shù)致病性遺傳變異。然而,現(xiàn)在越來越感興趣探索非遺傳變異,包括表觀遺傳因素如何影響復雜的疾病病因2-4。
細胞的表觀基因組是高度動態(tài)的,由遺傳和環(huán)境因素的復雜相互作用控制5。正常細胞功能依賴于表觀基因組穩(wěn)態(tài)的維持,這進一步突出表現(xiàn)在表觀基因組擾動和人類疾病,特別是癌癥之間的許多報告的關聯(lián)4。然而,迄今為止這種關聯(lián)的大多數(shù)研究已經(jīng)進行或者具有不足的基因組覆蓋(例如,幾十到幾百個基因座),但是足夠的樣品量,或者具有更接近全基因組的覆蓋度(數(shù)千個基因座)但樣本量不足。因此,對于任何人類復雜疾病,我們仍然不知道可歸因于個體間表觀基因組變異的表型變異的比例。這個問題只能通過大規(guī)模,系統(tǒng)的表觀基因組等價的GWAS-表觀基因組范圍的關聯(lián)研究(EWASs)來闡明,如2008年首次提出的(參考文獻6)。至少對于DNA甲基化(DNAm),現(xiàn)在可以獲得在分辨率和通量上與高度成功的GWAS芯片直接相當?shù)募夹g,其允許大約500,000(500K)SNP的基因分型。
但是,如何進行EWAS?除了GWAS和EWAS共有的考慮因素(例如,適當?shù)募夹g和樣品量),EWAS的設計在樣品選擇方面有特定的考慮。 DNAm模式對組織和發(fā)育階段是特異性的,它們也隨時間而變化。此外,EWAS關聯(lián)可以是所涉及的表型的因果性和相應的 - 與GWAS的區(qū)別,提出了相當大的挑戰(zhàn)。在這里,我們在設計和分析有效的EWAS的背景下討論這些考慮,記住EWAS可能隨著信息和經(jīng)驗的積累而演變,就像GWAS一樣。

表觀遺傳變異和復雜疾病

表觀遺傳信息的類型。哺乳動物中的表觀遺傳信息可以以多種形式傳播,包括有絲分裂穩(wěn)定的DNAm,組蛋白和非編碼RNA(ncRNA)的翻譯后修飾。對于DNAm,主要形式是在胞嘧啶 - 鳥嘌呤二核苷酸(CpG)的背景下胞嘧啶的甲基化。然而,最近的研究結果表明CpH甲基化(其中H = C / A / T)可能比以前更常見的7.8。由十一位易位(TET)甲基胞嘧啶雙加氧酶催化,5-羥甲基化9,10胞嘧啶(hmC)是另一種形式的DNAm。雖然細節(jié)仍不清楚,越來越多的證據(jù)表明hmC在基因調控和分化中的作用11。組蛋白修飾包括(僅舉幾個)核心組蛋白的氨基末端尾中的一個或多個氨基酸的單 - ,二 - 或三甲基化,乙酰化和瓜氨酸化5。最近,已經(jīng)發(fā)現(xiàn)ncRNA可以自我繁殖并且獨立于下面的DNA而被傳遞;換句話說,他們可以“表觀遺傳”地傳遞監(jiān)管信息12,13。這樣的ncRNA包括短微小RNA(miRNA),PIWI相互作用RNA(piRNA)和大型基因間非編碼RNA(lincRNA)等。

健康和疾病的表觀遺傳變異。考慮到二倍體人類表觀基因組含有> 108個Cs(其中> 107個是CpG)和> 108個組蛋白尾巴,所有潛在的變化,目前未知但是潛在的表觀遺傳標記的范圍。最經(jīng)研究的表觀遺傳標記是DNAm,BOX 1討論DNAm變化的最常見的特征和背景。在單個CpG位點的DNAm變異被稱為甲基化可變位置(MVP),其可以被認為是SNP14的表觀遺傳學等價物。很少,每個等位基因的僅兩條DNA鏈之一上的CpG被甲基化。這被稱為半甲基化,并且它可能反映在增殖細胞中DNAm維持中的復制后滯后。如果DNAm在多個相鄰的CpG位點被改變,這被稱為差異甲基化區(qū)(DMR)。 DMR在長度上變化相當大:它們通常<1kb,但是它們可以超過1Mb15。
直到最近,MVP和DMR主要在核心啟動子,CpG島(CGI)和印跡差異甲基化區(qū)域(iDMR)的背景下進行研究;然而,越來越清楚的是DNAm是高度動態(tài)的,甚至在這些區(qū)域之外。例如,最近的一項研究發(fā)現(xiàn),組織和癌癥特異性DMRs優(yōu)先發(fā)生在鄰近CGI的區(qū)域 - 所謂的CGI海岸16。 DNAm還在沉默重復元件中具有關鍵作用,這也可能對疾病病因17,18造成影響。
DNAm變異在復雜疾病中的作用主要在癌癥的背景中探討,可以被認為是早期EWAS。這些研究的結果已被廣泛討論4,19,關鍵的一般結論是腫瘤發(fā)展與CGI的DNAm增加,重復元件的損失印跡和表觀遺傳重塑相關,特別是衛(wèi)星DNA的DNAm損失20, 21。對于非惡性的,常見的復雜疾病,例如糖尿病或自身免疫,表觀遺傳組分僅剛剛開始研究。支持表觀遺傳組分參與這些疾病的觀察包括以下。首先,對于任何復雜疾病的單卵雙生子協(xié)調幾乎從未100%。近來,對于系統(tǒng)性紅斑狼瘡22和自閉癥譜系障礙23不一致的單性雙胞胎的小規(guī)模EWAS已經(jīng)在單卵型對中發(fā)現(xiàn)了疾病相關的表觀遺傳學差異。其次,幾種復雜疾?。ɡ?型糖尿?。┑陌l(fā)病率在一般人群中上升,并且在移民人口中經(jīng)常改變,這表明非遺傳因素的作用。第三,流行病學證據(jù)表明,在子宮或早期兒童環(huán)境中次優(yōu)的可能對成年期的疾病結果(例如2型糖尿?。┯杏绊?,這種現(xiàn)象稱為“發(fā)育重編程”(參考文獻25)目前,子宮環(huán)境的分子記憶的主要候選是表觀遺傳修飾,包括DNAm26-28。

表觀遺傳變異作為疾病的結果或原因。如上所述,表觀遺傳變異可以是疾病的病因或可以作為疾病的結果而出現(xiàn)。作為疾病的結果,直接或間接可能出現(xiàn)表觀遺傳變異 - 其實例可包括自身免疫性疾病中免疫相關細胞的長期改變,2型糖尿病中改變的代謝調節(jié)或體細胞突變誘導的表觀遺傳改變癌癥。然而,將其與導致疾病過程的表觀遺傳變異區(qū)分開并不是直截了當?shù)模ㄎ覀儗⒃谙旅娓敿毜赜懻摚?,但是永遠不是至關重要的;這是因為它將有助于闡明疾病相關變異的功能作用及其在診斷或治療方面的潛在效用。實現(xiàn)這一目標的關鍵步驟是確定變異是否存在于任何明顯的疾病跡象之前。在這方面,考慮如何在疾病之前出現(xiàn)這樣的表觀遺傳變異是有用的。首先,它可以是遺傳的,因此存在于所有組織中,包括胚系(即,跨代表觀遺傳),盡管這種現(xiàn)象的程度尚不完全清楚。第二,它可以隨機出現(xiàn),如果發(fā)生在早期(例如子宮內)發(fā)展中,則出現(xiàn)全身性[29,30],或者可以局限于一個或幾個組織31,32,如果它發(fā)生在出生后或在成人期間。第三,它可能是環(huán)境誘導,通過成人生活方式相關因素,如飲食或吸煙33,甚至在子宮內;即,發(fā)育重編程(如上所述)。
還有可能的是,潛在的基因型影響表觀遺傳變異,最近由幾個研究表明34-39。含有影響甲基化狀態(tài)的遺傳變異的基因座被稱為甲基化數(shù)量性狀基因座(methQTLs)34。在大多數(shù)甲基喹唑啉酮中,與順式基因型的相關性是最顯著的。有一些證據(jù)表明遺傳變異也可以影響反式的表觀遺傳狀態(tài),但這似乎不像順式效應那樣普遍。此外,重要的是要注意,在大多數(shù)這些以前的研究中,真正的致病性遺傳變異沒有明確地鑒定,并且大多數(shù)甲基化QTL在順式基因型和表觀基因型之間沒有表現(xiàn)出嚴格的一對一關系;相反,指定的基因型產(chǎn)生增加的甲基化概率。 Feinberg和Irizarry2最近爭論的小鼠和人類基因組中的遺傳變異的存在,不改變平均表型,而是表型的變異性;這可以通過可變甲基化區(qū)域進行表觀遺傳學調節(jié)(VMR,參見框1)。 MetQTLs的存在為綜合GWAS和EWAS揭示通過表觀遺傳變異發(fā)揮其功能的基因型提供了強有力的論證(稍后討論)。
這些methQTLs也會影響等位基因特異性甲基化(ASM,參見BOX 1)。在這種情況下,穩(wěn)態(tài)甲基化水平在同一細胞內的兩個等位基因不同。然而,ASM也可以在沒有任何特定基因型 - 表觀遺傳型相關性的情況下發(fā)生。例如,親本印記,X染色體失活和一個等位基因的隨機單等位基因甲基化都是ASM的實例,其不是由甲基化和非甲基化等位基因之間的基礎基因型差異引起的。
最后,還值得考慮的是,在一些情況下,疾病相關的表觀遺傳變異可能在疾病發(fā)作之前出現(xiàn),但可能不是疾病本身的原因。這種類型的epi現(xiàn)象可能是由于混雜,其中環(huán)境因素(如吸煙)或遺傳變異誘導異常的表觀遺傳狀態(tài)和疾病。
表觀遺傳變異和復雜疾病之間的這些潛在關系對EWAS的設計和分析有重要的影響。首先,它們將確定待采樣的最相關的組織和細胞類型。第二,反向因果關系和混雜是EWAS設計的特殊問題。盡管有相當多的證據(jù)表明癌癥中的表觀遺傳干擾4和其他非惡性疾病的新證據(jù)22,23,40-42,但是這些研究都沒有能夠最終區(qū)分因果性和后果性遺傳變異:長期以來被認識的問題43 。雖然任何EWAS與疾病的關聯(lián)都是潛在的進步,但是能夠識別因果關系的方向將極大地幫助確定表觀遺傳變異的有用性,例如,疾病進展的標記,通過治療逆轉的目標與epi藥物(即,對epi基因組有影響的藥物),或通過監(jiān)測藥物誘導表觀遺傳變化的動力學的藥物反應的措施。

分析表觀遺傳變異

支持大規(guī)模GWAS的主要發(fā)展之一是引入強大但可負擔的基因分析技術,特別是SNP陣列。只有最近有表觀基因組分析技術達到大型EWAS變得可行的階段。為了使這些研究成為可能,標記或分子必須是穩(wěn)定的,適合于高通量分析,并且在常規(guī)臨床樣品中容易獲得。自動化全基因組譜分析方法也必須可用。目前,DNAm(特別是CpG甲基化)是EWAS最合適的標記。其他表觀遺傳標記可能與DNAm一樣重要(或更多),但是,在臨床標本中既不容易獲得,也不適于高通量加工。此外,在不同的表觀遺傳標記之間有許多完善的相關性,因此分析DNAm可以,雖然間接提供組蛋白修飾狀態(tài)和RNA動力學的信息5。
原則上,基于排序和基于陣列的分析技術可以用于EWAS。這兩種技術的最常見的平臺已被廣泛審查44和獨立基準45,46,并在BOX 2中列出。作為這種類型的研究的典型,選擇取決于平衡覆蓋,分辨率,準確性,特異性,吞吐量和成本47。最終,基于測序的技術可能占據(jù)主導地位,但我們認為,基于陣列的方法(如用于GWAS的方法)是目前最適合EWAS的方法。如BOX 2所述,有定制和現(xiàn)成平臺的選項,涵蓋上述選擇。
其中,最近發(fā)布的Illumina 450K Infinium Methylation BeadChip似乎是第一波EWAS最有希望的,提供了全基因組覆蓋(> 450K CpG位點),分辨率(單堿基對)和吞吐量(每個芯片12個樣本和每次運行多達96個樣本)。

研究EWAS的設計

在本節(jié)中,我們討論EWAS的最有信息的研究設計,關于研究主題的類型和解決反向因果關系的問題。圖1示出了所討論的四個示例的一些優(yōu)點和缺點。

回顧性(病例對照)。最常用的GWAS設計涉及基于其表型招募的不相關個體(例如,病例和對照)。許多病例對照樣品已經(jīng)可用,在一些情況下具有可以與表觀基因組數(shù)據(jù)整合的基因型和表達數(shù)據(jù)。然而,回顧性研究不能確定確定的表觀遺傳變異是否歸因于疾病相關的遺傳差異,疾病后過程或疾病相關藥物干預。使用病例對照研究來鑒定表觀遺傳變異和臨床相關表型之間的關聯(lián)的早期實例包括關于代謝功能障礙48和用他莫西芬治療的研究49。

父子孫對。這些可用于EWAS,其目的在于鑒定表觀遺傳標記的跨代傳播(BOX 3)。最近已經(jīng)證明,喂養(yǎng)F0代雄性小鼠高脂肪或低蛋白飲食從斷奶到交配時間,結果F1代后代變化的代謝型胎兒28,50。由于精子將非常少的(如果有的話)細胞質材料傳遞給后代,這些實施例表明由F0雄性的次優(yōu)飲食誘導的表觀遺傳變異體的跨代傳播。使用親代 - 后代三重體的表觀基因組譜的類似策略可用于人類。例如,如果有證據(jù)表明父親環(huán)境影響后代的表型結果,可以在后代中進行綜合表觀基因組和基因組譜,以鑒定改變的表觀遺傳變異。然后遺傳信息可用于消除遺傳修飾因子引起表觀遺傳變異的可能性。這樣的研究設計將需要使用能夠檢測等位基因特異性差異的分析方法,需要足夠的功率,并需要對父母環(huán)境暴露的可靠測量。

單純雙胞胎。與感興趣的疾病無關的單純雙胞胎代表了EWAS的有用資源,因為任何已鑒定的疾病相關的表觀遺傳變異體不能由種系遺傳變異引起32,51。然而,除非雙胞胎縱向招募,這是很少可能的,這些研究不能用于區(qū)分原因和后果的原因前面討論的原因。招募大量不一致的同卵雙胞胎為一個良好的研究是一個潛在的問題,但一些大型雙資源可用(見更多信息)。

縱向隊列??v向隊列設計在最初無疾病的人(理想地從出生)在多年的過程中,記錄疾病事件和其他表型變化和采取生物樣品。它們建立起來是昂貴的,但是許多這樣的研究已經(jīng)在進行,其中一些涉及用于EWAS的適當?shù)慕M織(參見更多信息)。例如,英國1946年的出生隊列52提供了超過5000個人的樣本和數(shù)據(jù)(迄今為止)65年。與許多病例對照設計相比,這些研究的兩個主要優(yōu)點是避免了由于病例和對照的招募中的差異而導致的混雜以及由于在風險因子的測量中的病例對照差異而導致的偏差。縱向研究對于建立疾病相關表觀遺傳變異的時間起源和穩(wěn)定性也是非常有價值的,從而有助于區(qū)分因果遺傳變異與后果變異。如果還記錄了環(huán)境影響,可以將這些影響與表觀遺傳變化相關聯(lián)
縱向疾病不和諧單卵雙胞胎隊列將傳達排除遺傳影響疾病相關的外來遺傳變異的額外優(yōu)勢,但這種隊列很少可用于常見疾病的EWAS。以下討論折衷的兩階段研究設計,其涉及用于發(fā)現(xiàn)階段的疾病不一致的單合子雙胞胎隊列和用于復制階段的不同的縱向隊列。

EWAS的組織選擇

在GWAS中,大多數(shù)組織類型適合于鑒定種系遺傳變異,通常使用從患者血液或血液細胞衍生的細胞系中提取的DNA。然而,疾病相關的表觀遺傳變異可以是組織特異性的。由于大多數(shù)EWAS使用活體個體,DNA樣品只能從某些來源容易地獲取,例如血液,頰,唾液,毛囊,尿和糞便。例如,血液和血液亞型與自身免疫性疾病或基于血液的癌癥相關,并且如果表觀遺傳變異體存在于全體范圍內,則任何組織都將足夠(如果在早期胚胎發(fā)生中在發(fā)育重編程期間誘導的情況) 。然而,對于許多疾病,需要探索替代的組織來源。這些可以包括測定無細胞的血清DNA - 包括來自流入血液的增殖細胞的DNA(如對于大多數(shù)癌癥發(fā)生的)或死后DNA,但是如果目的是建立因果關系,則后者是不太合適的選擇。事實上,直到表觀基因組譜可以以非侵入性方式(例如,通過成像技術53)和/或使用小組織生物體54常規(guī)執(zhí)行,仍然是執(zhí)行有效的挑戰(zhàn)
用于腦基礎和某些其他疾病的EWAS。
另一個重要問題是組織異質性。所有組織由多種細胞類型組成(例如,血液含有> 50種不同的細胞類型)。如果疾病相關變異局限于僅代表抽樣組織的一小部分的某種細胞類型,則可能無法檢測到變異。疾病狀態(tài)本身也可以改變組織中細胞類型的組成(例如,發(fā)炎組織將具有略微不同的細胞類型與非發(fā)炎組織的組成)。因此,測量的病例和對照之間的表觀遺傳學差異可能僅反映細胞類型組成的差異,而不是真實的表觀遺傳學差異。最后,血斑(或Guthrie)卡是另一個有價值的DNA來源。這些在出生后立即在許多發(fā)達國家常規(guī)使用臍帶或腳跟血液。在幾個國家已經(jīng)建立了包括DNA和可能的其他組織的生物庫,以及表型信息更多信息)。

EWAS設計示例

沒有一個適合所有目的的EWA??S設計;相反,最合適的設計取決于所需的結果。這可以從可以進行的許多可能的EWAS設計中的兩個假設示例的形式來最好地示出。

疾病風險表觀遺傳標記的EWAS。讓我們假設我們有興趣識別在自身免疫性疾病發(fā)作之前出現(xiàn)的DNAm變體。我們可以開始通過對與疾病不一致的單卵雙胞胎進行全基因組DNAm分析來鑒定免疫效應細胞中疾病相關的MVP(即與疾病相關的血細胞亞群),這不是由于遺傳變異。然后我們可以采取這些MVP,并在來自前瞻性隊列的相同類型的免疫效應細胞中檢測它們,以在疾病發(fā)生之前和之后取樣的無關個體中的這些位點處觀察DNAm??梢栽诩膊“l(fā)作之前被驗證的任何MVP因而是候選因果變化,并且不能歸因于疾病后效應,例如長期藥物或免疫相關效應。主要的隨訪研究可以包括與基因表達和其他表觀遺傳標記的相關性,以調查受影響的途徑??偟膩碚f,這個EWAS設計結合了來自兩個獨立隊列的疾病相關組織的分析,允許發(fā)現(xiàn)和驗證MVP并消除各種混雜因素。
藥物反應表觀遺傳標記的EWAS。幾個癌癥研究已確定可能潛在地用于監(jiān)測疾病進展甚至對治療的反應的表觀遺傳變異4。這些變體中的一些通過測定由原發(fā)性腫瘤脫落到患者血清中的DNA來檢測,因此提供相對直接的評估進展的方法55。 EWAS還可以在藥物治療之前,期間和之后測量患有特定形式的癌癥的單身病人的血清中的DNAm狀態(tài)。這可能潛在識別預測對實時治療的最佳反應的表觀遺傳標記。癌癥相關的表觀遺傳變異體(即遺傳或環(huán)境)的根本原因不需要知道,也不需要直接分析原發(fā)性腫瘤,因為該變異體是進展或反應的有效量度。

EWAS的統(tǒng)計考慮

樣本量大小和功效。在2005年,正如GWAS波即將破裂一樣,Wang等人發(fā)表了一篇有影響的評論,爭論大樣本量來檢測小的影響,他們強調了次要等位基因頻率(MAF)和效應大小的作用在確定SNP關聯(lián)測試的能力。他們還討論了群體遺傳學理論的MAF譜的預測與群體內的SNP以及預測效應大小分布的(限制的)理論和數(shù)據(jù)。相應的論證對于EWAS來說并不那么引人注目,但是相關的參數(shù)甚至更難以預測,因為數(shù)據(jù)和相關理論的缺乏。 DNA等位基因通常不會跨細胞變化,并且現(xiàn)在可以以低錯誤率進行分型。相比之下,甲基化狀態(tài)可以是組織特異性的,并且可以在組織內的細胞,細胞內的等位基因(ASM)以及在罕見的情況下在等位基因內的DNA鏈(半甲基化)之間變化。因此,對于來自一個個體的組織樣品,在CpG位點測量的甲基化狀態(tài)在0和1之間,因為它是細胞,等位基因和鏈的平均值,并且由測量誤差進一步模糊。在這里,我們使用關于DNAm變體的頻譜的有限的可用信息,以及它們對常見疾病的效應大小,暫時提出在三種情況下的功率計算。目前尚不清楚擬議的情景是多么現(xiàn)實,但我們希望至少能夠刺激對EWAS設計的這一重要方面的進一步討論和調查。
最近的甲基化分析報道,平均68%的CpG位點在人外周血單核細胞中甲基化57。在基因組上下文中存在巨大差異:高CpG密度區(qū)域中的CpG位點幾乎總是未甲基化的,CGI和5'-UTR也是如此。相比之下,3'-UTR,內含子和重復元件主要是甲基化的。 ASM的速率估計在0.3%和0.6%之間(大于單獨印記的比率)。發(fā)現(xiàn)半甲基化是罕見的(<0.2%,其包括非CpG甲基化和不完全的bisulphite轉化)。甲基化譜不對稱:幾乎沒有接近100%甲基化的位點,但幾乎完全未甲基化的位點并不罕見。
在圖1在圖2a,b中,三種不同類別的個體('甲基化','中間'和'非甲基化')的假設甲基化譜已經(jīng)組合以在病例和對照中產(chǎn)生總頻率譜。這些形成了表1中報道的功效模擬的基礎。病例和對照之間的平均甲基化率的差異提供了效應大小的流行概述,但它不反映甲基化譜的差異或其他特征的差異。它也不反映甲基化率的相對量級,而如果對照中罕見的表觀基因型在病例中幾乎不存在,則這可能比更常見的表觀基因型的平均率的相同差異更重要。
賠率比率是二元表型的遺傳效應大小的公認的度量。如果我們認為病例(或對照)中某個位點的平均甲基化率代表在病例(或對照)組織樣本中隨機選擇的DNA鏈的甲基化概率,則我們可以計算甲基化優(yōu)勢比(methor) 。該methOR與普通優(yōu)勢比相同,除了采樣單元是DNA鏈而不是個體。因此,methOR是來自待甲基化的隨機病例的組織樣品中的隨機DNA鏈的可能性,除以對照的相同幾率。這提供了結合相對幅度的效應大小的測量,但是,與速率的平均差異一樣,它也不允許甲基化譜的特征(例如其方差)的情況和對照之間的差異。至于其他比值比,methOR在前瞻性和回顧性研究中是可比的,其價值僅衡量關聯(lián),并不暗示因果關系。
表1給出了來自圖1的三組甲基化譜的基于模擬的功率估計。 2.他們有類似的甲基化,雖然病例對照差異的平均甲基化率是相同的a和b,但不是c。 a和b之間的功率值不同的事實強調了沒有效應大小的單數(shù)量度,因為功率取決于病例和對照中的整個甲基化譜。然而,對于在我們的模擬中進行的邏輯回歸分析,methOR給出了比速率差異更好的功率指導。當methOR為1.25左右時,800個病例+ 800個對照的樣本量足以在情景c而不是a或b時在α= 10-6的顯著性水平下實現(xiàn)80%的功率(參見下一節(jié)討論基因組EWAS的廣泛意義)。當methOR為約1.5時,400 + 400的樣本大小對于b和c而不是α在α= 10-6處給出80%的功率。
目前對于涉及疾病的表觀遺傳變異體的甲基化譜的實際差異知之甚少,并且關于樣本大小的建議將需要與新出現(xiàn)的數(shù)據(jù)一起演變。最近關于吸煙對甲基化的影響的報告58鑒定了位于凝血因子II(凝血酶)受體樣3(F2RL3)中的CpG位點處的一個強締合,其中中值甲基化率為95%,從未吸煙, 83%為重度吸煙者,給出12%的差異和methOR = 2.7。甲基化狀態(tài)在從未吸煙的人中比在重吸煙者(四分位數(shù)范圍分別為0.94-0.96和0.78-0.88)不太可變。對于這樣強烈的影響,65名重度吸煙者和56名非吸煙者的樣本量足以檢測這種關聯(lián)。然而,已知吸煙是健康的最重要的環(huán)境因素之一,因此感興趣的其他效應大小可能小得多。如果我們將1.5作為目標methOR值,那么追求具有少于400個案例和400個控制的EWAS似乎不具有成本效益,其中800個將優(yōu)選實現(xiàn)良好的權力。這遠遠小于2000案例和控制,這成為威康信托案例控制聯(lián)盟(WTCCC)研究59后GWAS的事實上的標準最低樣本量,反映了EWAS和GWAS的效應大小不能直接比較的事實。似乎可能的是,效應大小和因此功率將根據(jù)基因組背景顯著變化,在這種情況下,P值的全基因組排序不令人滿意60和考慮功率的貝葉斯支持措施更合適。然而,目前仍有一些信息用于通知貝葉斯效應大小的先前分布。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容