Dating genomic variants and shared ancestry in population-scale sequencing data
2020 年發(fā)表在 PLoS Biology 上。通訊作者與第一作者為牛津大學?Li Ka Shing Centre for Health Information and Discovery 大數據研究中心的 Patrick K. Albers。
研究者們希望開發(fā)出一種非參數的,不受 demographic、選擇作用、以及二者導致的 geneolgy 的影響的,并且對基因頻率以及基因組分析中常出現的一些 error 都 robust 的研究等位基因出現時間的方法。(嚯,野心好大)
這一方法的原理與用 coalescent model 計算個體基因組之間最近共同祖先時間 TMRCA 的方法相似。不同的是,這一方法可以在連續(xù)的時間尺度上計算,而不是 discretized timescale。

在變異周圍的基因組區(qū)域上,有個體間的譜系樹。假設 derived allele 在樹上單次起源,對兩條染色體計算 MRCA,如果兩條染色體都攜帶 derived allele(concordant),則 MRCA(圖中藍色節(jié)點)比實際的突變事件更近;如果它們一個攜帶 derived allele、一個攜帶 ancestral allele(discordant),則 MRCA(圖中紅色節(jié)點)會比實際的突變事件更古老。
對每一對染色體,使用簡單隱馬爾科夫模型,估計 MRCA 不變的區(qū)域,也就是從 focal position 向兩側出發(fā),離最近的可檢測到的重組事件的距離。對于 ancestral segment,能夠獲得遺傳距離以及從 MRCA 到現存染色體的過程中發(fā)生的突變的數目。
對每一對染色體,用概率模型估算 TMRCA 的后驗概率,用累積分布來表示。結合 concordant 和 discordant pairs 的累積分布,就能夠估計突變起源時間的復合后驗分布(composite posterior distribution)。