人類基因組的Phasing原理是什么?

人類基因組的Phasing原理是什么?
什么是Phasing?

Phasing,或者說Genotype Phasing,它的中文名有很多:基因定相、基因分型、單倍體分型、單倍體構(gòu)建等在不同的語境下都有人說過。但不管如何,所謂Phasing就是要把一個二倍體(甚至是多倍體)基因組上的等位基因(或者雜合位點),按照其親本正確地定位到父親或者母親的染色體上,最終使得所有來自同一個親本的等位基因都能夠排列在同一條染色體里面。

現(xiàn)在流行的NGS測序技術(shù),都是把序列打亂混在一起測序的,測完之后,我們是無法直接區(qū)分這些序列中哪一個是父源,哪一個是母源的。我們通常都只是檢測出基因組上有哪些變異,以及這些變異的堿基組成(純合、雜合),也就是平時所說的基因型(Genotype)。只有經(jīng)過Phasing,才能夠?qū)崿F(xiàn)這個區(qū)分(圖1)。

image

圖1. 變異位點經(jīng)過Phasing和不經(jīng)過Phasing的示意圖。右上圖代表通常的Genotype,右下圖代表Phasing之后的情況,實現(xiàn)了親本的區(qū)分。

為什么要Phasing

因為Phasing很重要。Phasing的重要性可以分為兩個方面。一方面, Phasing與遺傳變異的功能詮釋密切相關(guān)。這體現(xiàn)在遺傳咨詢師或者科學家需了解基因突變的相位后, 才能更好地判斷基因突變是否會產(chǎn)生臨床表型。比如在一個基因上發(fā)生多個Loss of function variants(LOF),通常當這些變異出于不同的單倍型時(這稱為trans-configuration),即兩個拷貝的姐妹基因都發(fā)生了變異, 才會導致基因表達計量(Gene expression dosage)的錯誤且產(chǎn)生危害。而當它們出于同一個單倍型時(這稱為cis-configuration),因為還有一個正常拷貝的基因(作為備胎), 基因表達很可能不會發(fā)生改變也不會產(chǎn)生危害。

另一方面, Phasing在遺傳學研究中也有諸多應用,具體如下:

  • 第一、人群Phasing后形成的單倍型參考序列集(Reference panel)是基因型推斷(Imputation)必須的數(shù)據(jù)材料。而基因型推斷(Imputation)是基因型-表型關(guān)聯(lián)分析研究中必不可少的環(huán)節(jié)。高質(zhì)量的Reference Panel能提升關(guān)聯(lián)分析的統(tǒng)計功效;

  • 第二、除了Reference Panel的制造需要使用Phasing技術(shù)之外,對被研究的對象進行預先Phasing(Pre-phasing)也可以極大地提高基因型推斷(Imputation)的準確性;

  • 第三、使用多個位點組成的Haplotype,而不是簡單的單位點基因型, 可實現(xiàn)群體遺傳歷史的推斷;

  • 第四、可通過Phased后的家系人群單倍型序列,估算染色體重組率、重組熱點等重要遺傳參數(shù);

  • 第五、Phasing可用于探測頻發(fā)突變、選擇信號以及基因表達的順勢調(diào)控。

Phasing說起來容易,做起來卻很難

雖然Phasing理解起來并不難,但實現(xiàn)起來卻不容易,即使在理論上也是如此。這需要相關(guān)的統(tǒng)計學和計算機算法技術(shù),求解的過程往往還是一個NP問題。目前通常采用馬爾科夫鏈蒙特卡洛算法來完成,因此,Phasing算法本身基本都是計算密集型的,做起來也比較耗時間,有時即使是在超算集群中也得跑很長時間。

Phasing的方法有哪些

Phasing的方法總結(jié)起來主要有三個:家系分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing)下面我就來逐一展開對其方法進行說明。

目前,基因定相****最準確的方法****是利用家系數(shù)據(jù)來實現(xiàn)。具體來說,就是除了被研究的這個個體之外,同時對其父親和母親的基因組進行測序。有了這三個人的數(shù)據(jù)之后,就可以很容易地區(qū)分出這個樣本的兩個單倍體。為了便于理解,我打個比方,比如我們知道他/她的基因組某一個位置上的基因型是AB,而父親的基因型是AA,母親的基因型是BB,那么我們就可以清楚地知道他/她這個基因上的A是來自于父親染色體,而B則是屬于母親染色體的,更多的具體情況可以參看下面這個示意圖。

image

圖2. 家系數(shù)據(jù)實現(xiàn)對子/女基因組的Phasing示意圖

這個方法的一大優(yōu)點就是定相(Phasing)的過程非常直接、簡單,不需要進行復雜的統(tǒng)計學計算,就可以準確地實現(xiàn)長距離的定相,并且還能夠知道每一個基因型的親本來源到底是什么,比如在上面的例子中,我們可以知道A和B分別屬于父本和母本(如上圖)。這個親本來源的問題對于研究或者治療許多復雜疾病的意義是十分重大的,比如最近發(fā)表在《Science》上的一個研究中發(fā)現(xiàn),影響小孩發(fā)生孤獨癥(也稱自閉癥)的基因突變中父親的影響更大,除此之外還有很多母源或者父源性的疾?。ㄟ@里面其實還涉及到Transmitted和Non-Transmitted Chromosome的問題),這些類型的結(jié)果如果沒有家系的數(shù)據(jù)是無法得出的。

對于這個方法來說,家系越龐大它的Phasing效果會越好。萬一很不幸我們沒能湊齊一家三口(Trio樣本)僅有雙樣本的情況,也不用灰心,雖然效果會差一些,但還是會比沒有任何族譜信息的數(shù)據(jù)要好。

家系Phasing的這個方法雖有很多難以比擬的好處,但也有一些比較明顯的缺點。比如,我們?yōu)榱藢@個人進行定相分析,就不得不多測另外兩個人的基因組。這一方面大大增加了原有的成本;另一方面則是有些人由于各種各樣的原因已經(jīng)難以獲取其雙親的樣本數(shù)據(jù)了;另外,這個方法其實也無法完成對該個體所有變異的完全定相,比如當碰到父、母和子/女都是雜合突變的位點時,就無法區(qū)分了。這樣的位點雖然在基因組上不是最主要的,但是也大約占到了總變異位點數(shù)的13%左右,或者說有大約五分之一的雜合突變位點注意只是占所有雜合的比例)是這種不可Phasing的狀態(tài),詳細的分類情況可以參考下表:

image

表1. 能夠被Phasing和不能夠被Phasing的SNPs位點分類

LD Phasing是另外一個非常常用的基因定相方法,它是利用群體中大量無血緣關(guān)系的個體,依據(jù)基本的連鎖不平衡(Linkage disequilibrium,LD)遺傳原理和相關(guān)數(shù)學模型,推斷群體中每個個體的單倍體的方法,因此它也是計算量最大的一個。

我們知道人這個物種在減數(shù)分裂產(chǎn)生生殖細胞的過程中姐妹染色單體會發(fā)生重組,這個重組的發(fā)生率每代大約是10^-8,雖然很低,但是隨著一代接一代不斷地繁衍下去,經(jīng)過足夠長的時間之后(比如說無窮!無窮!無窮!)。

image

那么從理論上來講,來自同一祖先的兩條染色就會被均勻地重組一個遍。然而,遺憾的是我們現(xiàn)代人還是Too Youg Too Simple!從最早的證據(jù)來看現(xiàn)代人的共同祖先大概起源于15萬-19萬年前(第三次走出非洲的時間),所以至今我們也不過才經(jīng)歷了6,000-7,600代而已。

這么少的代數(shù)也就意味著染色體的重組其實還很有限,因此人類基因組中許多相鄰的區(qū)域往往都是“黏”在一起遺傳下去的,這也就是所謂的存在連鎖不平衡的遺傳現(xiàn)象,這些“黏”在一起的區(qū)塊稱為“連鎖不平衡區(qū)塊”(LD Block)。

常見變異——那些在人群中頻率占比達到5%以上的變異——所存在的連鎖不平衡區(qū)塊(LD Block,Tajima’s D > 0.5)的長度大多集中在50Kbp-60Kbp。并且LD區(qū)塊的長度在不同的人群中是不同的,比如,非洲人的LD區(qū)塊就比歐洲人和亞洲人的更短。為什么呢?這是因為非洲人比歐洲人或者亞洲人都要更古老,他們的基因組相比于另外的兩個人群發(fā)生了更多次數(shù)的重組,所以LD區(qū)塊的長度就更短了。

LD區(qū)塊的存在就意味著我們可以通過構(gòu)建相關(guān)的數(shù)學模型,來把這樣的連鎖關(guān)系求解出來。在開展大規(guī)模的基因組研究計劃時(如Hapmap、國際千人基因組、Haplotype reference consortium以及各國家的國家基因組計劃),通過構(gòu)建基于隱馬爾可夫模型(HMM)等的Phasing算法就可以依據(jù)測序數(shù)據(jù)或者芯片數(shù)據(jù),反推出每個個體最有可能的單倍體,完成Phasing。

目前,適合于以上兩種Phasing方法(家系和LD Phasing)的最好工具是Beagle和Shapeit。這兩個工具都同時包含了用于家系(Related individual Phasing)和LD Phasing的模塊。并且都可以用于測序數(shù)據(jù)和芯片數(shù)據(jù),但其中的差別在此不贅述。

回過頭來想想LD Phasing方法的缺點是什么?其實通過上面的介紹,我想大家或多或少也注意到了,由于這個方法需要依據(jù)群體的信息,那么它所能夠Phasing的精度就會受到群體的制約。通常來說它只能針對群體中常見的變異(如頻率在5%以上的變異),在這方面它的效果確實非常棒,很多基因檢測公司甚至會把這個作為公司產(chǎn)品的買點,但對于罕見突變和個體特有的變異就不行了。雖然隨著人群基數(shù)的增大,它所能夠Phasing的變異范圍也會隨著不斷增加,比如從只能Phasing 5%以上頻率的變異,增大到能夠Phasing 1%以上頻率的變異,但說到底它還是難以實現(xiàn)對一個個體單倍體的完全定相。

那么,到底該怎么做才能實現(xiàn)完全定相呢?

正所謂,求人不如求己。由于有了以上的種種限制,于是科學家們就研發(fā)了第三類方法:****Physical Phasing——物理定相(或叫物理分型)」。它不需要家系數(shù)據(jù),也不借助LD關(guān)系,完全依賴自身的測序數(shù)據(jù),就可以完成基因的定相

我們都知道在第二代或者三代測序中,一條read、一對reads或者一個clone上的每一個堿基都必定來自同一個染色體(也就是同一個單倍體。對于每一個這樣的測序片段而言,它本身就是某一個單倍體的一個“局部”,因此現(xiàn)在的問題就變成了要如何把這些一個一個的小”局部“連成一個整體,接出完整的單倍體,從而實現(xiàn)定相,這就是Physical Phasing。而且如果測序序列足夠長(比如三代測序數(shù)據(jù)),深度足夠深,那么它就能夠?qū)崿F(xiàn)個體的完全定相,而且有必要的話還可以同時把這兩個單倍體的完整DNA序列組裝出來,形成姐妹染色單體,這兩個優(yōu)點是另外兩個方法難以比擬的。

長序列可以來自特殊建庫,如長度約是40Kbp的Fosmid建庫后的測序和組裝,或者是華大測序儀的Long Fragment Read(LFR)測序技術(shù),當然也可以是第三代測序的數(shù)據(jù)。

這也是我(礦工)在華大基因深度負責的第一個研究課題(我的博士論文也是基于該課題)。當時這一塊還比較空白,第三代測序技術(shù)也還不是很成熟,當時為了獲得長序列,我們采用了基于Fosmid構(gòu)建大長度克隆片段然后進行二代測序并組裝的方法(如下圖),成果發(fā)表在2015年的《Nature Biotechnology》上,我也是共同第一作者。

image

圖3. 基于Fosmid和二代測序技術(shù)相結(jié)合的de novo Phasing方法

由于我當時已經(jīng)為課題中的一些細節(jié)寫過兩篇文章,因此這里就不再展開,感興趣的話你也可以查看本文最后的推薦閱讀,這里我只介紹物理定相的基本原理??偟膩碚f,要把局部的小片段連成一個大片段,從而實現(xiàn)Phasing,這個過程要做的好就需要充分借助小片段上的雜合SNPs作為區(qū)分的標記。通過每個雜合位點上各個小片段中所含堿基的異同和彼此之間的重疊關(guān)系,我們可以把絕大部分的小片段分成兩類,然后通過一系列的連接、二分圖構(gòu)建、二分圖求解和重新組裝等方法,最后就可以把小片段逐步連成大片段,從而構(gòu)建出單倍體了,如下圖。

請橫著看

image

圖3.物理定相示意圖

物理定相的方法,往往要求每個片段中都能包含較多的雜合SNPs位點,但由于人類基因組中雜合SNPs位點之間的距離普遍在1.5Kbp左右——還是比較長的,因此測序片段本身就要足夠長,這就需要使用包括三代測序技術(shù)在內(nèi)的一些測序方法,因此它的成本會比較高。我目前所知道的在Physica Phasing方面做得比較好的機構(gòu)中,除了我們自己當時的小組之外,還有德國的馬克普朗克研究所( Max Planck Institute)Margret教授團隊和華大基因Brock Peter博士所在的研究組,他們建立了LFR的實驗和信息方法。

小結(jié)

關(guān)于Phasing原理的介紹到此就告一段落了,這里在介紹LD Phasing和物理定相的時候沒有從數(shù)學原理方面去展開,希望可以看起來比較通俗易懂,并且所有的Phasing算法都只對二倍體基因組比較有效,多倍體更加困難。在實際的項目中,我們還是需要根據(jù)樣本的特點、測序策略和結(jié)果預期,有針對性地選擇其中的一種或者多種進行組合,從而達到最有效的Phasing效果,評價Phasing效果好壞的指標有兩個:

第一,能夠被Phasing的變異位點越多越好;

第二,正確被Phasing的位點數(shù)占比越高越好。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容