Harnessing the power of RADseq for ecological and evolutionary genomics

存檔。

Andrews K R, Good J M, Miller M R, et al. Harnessing the power of RADseq for ecological and evolutionary genomics. Nature Reviews Genetics, 2016, 17(2): 81.



Harnessing the power of RADseq for ecological and evolutionary genomics

利用RADseq的力量進(jìn)行生態(tài)和進(jìn)化基因組學(xué)研究

Abstract?

????????基于限制性位點(diǎn)相關(guān) DNA 測(cè)序(RADseq)的高通量技術(shù)使得對(duì)包括非模式生物在內(nèi)的任何物種的成千上萬(wàn)個(gè)基因標(biāo)記的低成本發(fā)現(xiàn)和基因分型成為可能,這徹底改變了生態(tài)、進(jìn)化和保護(hù)遺傳學(xué)。這些方法之間的技術(shù)差異導(dǎo)致了對(duì)基因組學(xué)研究所有步驟的重要考慮,從可以解決的具體科學(xué)問(wèn)題,以及文庫(kù)準(zhǔn)備和測(cè)序的成本,到結(jié)果數(shù)據(jù)中固有的偏差和錯(cuò)誤的類型。在這篇綜述中,我們對(duì) RADseq 方法進(jìn)行了全面的討論,以幫助研究人員在眾多不同的方法中進(jìn)行選擇,避免從RADseq數(shù)據(jù)中得出錯(cuò)誤的科學(xué)結(jié)論,這個(gè)問(wèn)題在過(guò)去一直困擾著其他遺傳標(biāo)記類型。


????????限制性位點(diǎn)相關(guān)DNA測(cè)序(RADseq)的發(fā)展被認(rèn)為是過(guò)去十年最重要的科學(xué)突破之一1。RADseq通過(guò)利用下一代測(cè)序(NGS)的巨大通量,在一個(gè)簡(jiǎn)單而經(jīng)濟(jì)的實(shí)驗(yàn)中發(fā)現(xiàn)基因組中成百上千的多態(tài)遺傳標(biāo)記,從而推動(dòng)了生態(tài)、進(jìn)化和保護(hù)基因組學(xué)的研究2,3。與其他簡(jiǎn)化基因組測(cè)序方法類似,RADseq以基因組的一個(gè)子集為目標(biāo),因此提供了比全基因組測(cè)序更多的優(yōu)勢(shì),比如每個(gè)基因座的覆蓋深度更大(從而提高了對(duì)基因型調(diào)用的信度),以及在給定的預(yù)算下對(duì)更高數(shù)量的樣本進(jìn)行測(cè)序。此外,與其他許多獲得全基因組數(shù)據(jù)的方法不同,RADseq不需要任何正在研究的分類單元的基因組信息。因此,在非模式生物的生態(tài)學(xué)和進(jìn)化研究中,RADseq已成為最廣泛使用的高通量單核苷酸多態(tài)性(SNP)發(fā)現(xiàn)和基因分型的基因組方法。

????????術(shù)語(yǔ)RADseq最初用來(lái)描述一種特定的方法4,但后來(lái)被用來(lái)指一系列相關(guān)的技術(shù),這些技術(shù)依靠限制性內(nèi)切酶來(lái)確定要測(cè)序的位點(diǎn)集(BOX 1:補(bǔ)充材料S1(圖))。這些方法有時(shí)也被歸類為基因分型測(cè)序(GBS)技術(shù)5。與RADseq一樣,術(shù)語(yǔ)GBS最初用于描述一種特定的方法;然而,這個(gè)術(shù)語(yǔ)的描述性不如RADseq,后者抓住了這些方法的定義特征,即使用限制性內(nèi)切酶在全基因組的一組位點(diǎn)上獲得DNA序列。限制性內(nèi)切酶長(zhǎng)期以來(lái)一直被用于對(duì)整個(gè)基因組的位點(diǎn)進(jìn)行取樣,并產(chǎn)生關(guān)于群體水平變異的信息7,8,包括對(duì)人類基因變異的全基因組調(diào)查9。以前的這些技術(shù)側(cè)重于限制性切割位點(diǎn)內(nèi)的多態(tài)性或使用Sanger測(cè)序,而RADseq使用下一代測(cè)序來(lái)生成大量限制性切割位點(diǎn)附近的序列數(shù)據(jù)4,10,11。RADseq位點(diǎn)可以出現(xiàn)在基因組的所有區(qū)域(包括編碼區(qū)和非編碼區(qū)),而且由于切割位點(diǎn)的保守性,在親緣關(guān)系較近的物種內(nèi)或物種之間的個(gè)體通常共享大多數(shù)位點(diǎn)12。

????????在過(guò)去的幾年里,許多RADseq變異的發(fā)展有望提高靈活性(例如,在位點(diǎn)分析的數(shù)量上),同時(shí)減少生態(tài)學(xué)和進(jìn)化基因組學(xué)研究的財(cái)力和物力。然而,方法上的差異可以深刻地影響基因組研究的所有步驟,從研究設(shè)計(jì)和執(zhí)行,到結(jié)果數(shù)據(jù)輸出。所有的RADseq方法都能廣泛適用于各種分類單元和科學(xué)問(wèn)題(BOX 2)。盡管如此,部分技術(shù)已經(jīng)在某些系統(tǒng)中被更廣泛地使用,這通常是由于歷史偶發(fā)事件,而不是因?yàn)椴煌锓N不同方法間的相對(duì)適宜性(例如,簡(jiǎn)化多態(tài)序列復(fù)雜度測(cè)序(CRoPS),GBS和簡(jiǎn)化代表庫(kù)測(cè)序(RRLs)主要用于農(nóng)業(yè)物種13)。

????????在這篇綜述中,我們主要關(guān)注RADseq在自然種群的生態(tài)學(xué)和進(jìn)化遺傳學(xué)中的應(yīng)用(BOX2);然而,我們的許多討論也與RADseq的其他應(yīng)用有關(guān),例如農(nóng)業(yè)物種的性狀繪圖13。我們對(duì)已經(jīng)開(kāi)發(fā)的各種 RADseq技術(shù)進(jìn)行了概述,并強(qiáng)調(diào)了這些強(qiáng)大的方法可以幫助回答的一些研究問(wèn)題。我們還討論了許多不同方法之間的技術(shù)差異如何導(dǎo)致實(shí)驗(yàn)設(shè)計(jì)和分析中的權(quán)衡,并描述了設(shè)計(jì) RADseq 研究的一般考慮事項(xiàng)。


RADseq方法

????????RADseq 技術(shù)都共享幾個(gè)基本步驟(圖1)。所有的方法都是從相對(duì)高分子量的基因組 DNA開(kāi)始14,然后用一種或多種限制性內(nèi)切酶消化。所有的方法都添加特定的測(cè)序接頭,或雙鏈寡核苷酸,這是所有下一代測(cè)序平臺(tái)都需要的。在 RADseq 協(xié)議中添加的接頭可能包含條形碼,用于識(shí)別在單個(gè)文庫(kù)中一起測(cè)序(多路復(fù)用)的樣本個(gè)體。根據(jù)酶或使用過(guò)的酶,RADseq 協(xié)議還減少和/或選擇最適合下一代測(cè)序的 DNA 片段大小。

????????RADseq方法在酶消化、接頭連接、條形碼和大小選擇的順序和細(xì)節(jié)上有所不同,在每個(gè)位點(diǎn)可以產(chǎn)生的序列數(shù)據(jù)的類型也不同。這些差異可用于將技術(shù)分類為主要組(BOX 1)。下面,我們將討論在每個(gè)步驟中不同方法的重要差異,以及對(duì)文庫(kù)準(zhǔn)備、結(jié)果數(shù)據(jù)和隨后的生物信息學(xué)分析的一些后果。


圖1 對(duì)五種RADseq文庫(kù)準(zhǔn)備協(xié)議的逐步說(shuō)明。所有的實(shí)驗(yàn)方案都是從用一種或多種限制性內(nèi)切酶消化高分子量基因組DNA開(kāi)始的。對(duì)于大多數(shù)實(shí)驗(yàn)方案,測(cè)序接頭(寡核苷酸)在兩個(gè)階段添加,在實(shí)驗(yàn)早期的連接步驟中添加第一組寡核苷酸,在最后的PCR步驟中添加第二組寡核苷酸。第二組寡核苷酸延長(zhǎng)了總片段的長(zhǎng)度,生成了整個(gè)Illumina接頭序列。相比之下,原先的RADseq分三個(gè)階段添加接頭。對(duì)于Illumina測(cè)序,在每個(gè)DNA片段的兩端接頭必須是不同的,因此一些實(shí)驗(yàn)方案(例如,原始RADseq、雙消化RAD (ddRAD)和ezRAD)使用Y型接頭,從結(jié)構(gòu)上確保只有兩端是不同接頭的片段才會(huì)被PCR擴(kuò)增(這里用Y型接頭說(shuō)明)。其他實(shí)驗(yàn)方案(例如,通過(guò)測(cè)序進(jìn)行基因分型(GBS))僅僅依賴于這樣一個(gè)事實(shí),即沒(méi)有正確接頭的片段將不會(huì)被測(cè)序。為了生成測(cè)序理想長(zhǎng)度的片段,大多數(shù)方法使用common-cutter酶(例如,4-6 bp剪切)來(lái)生成一個(gè)廣泛的片段大小,然后直接選擇大小(例如,凝膠切割或磁珠,如ezRAD和ddRAD)或間接大小選擇(PCR擴(kuò)增和測(cè)序效率的結(jié)果,如GBS)。


開(kāi)始基因組DNA。

????????RADseq技術(shù)基于高分子量基因組DNA為起始材料進(jìn)行優(yōu)化,因此這些技術(shù)在高度降解的基因組DNA上表現(xiàn)不佳14。例如,在沒(méi)有特異性酶接頭的方法中(例如ezRAD和CRoPS),不靠近切割位點(diǎn)的起始基因組DNA的小片段可能最終會(huì)進(jìn)入測(cè)序文庫(kù),從而在非RAD位點(diǎn)上浪費(fèi)測(cè)序工作。原始的RADseq技術(shù)4也比其他方法需要更高分子量的DNA,因?yàn)闄C(jī)械剪切步驟對(duì)于酶消化后留下的相對(duì)較大的片段是最為一致和有效的(下面將討論)。

????????一般來(lái)說(shuō),更多的起始DNA通常是有益的,因?yàn)樗梢詼p少所需的PCR周期的數(shù)量,從而最小化PCR重復(fù)的問(wèn)題(下面討論)。一些最初描述協(xié)議的文獻(xiàn)建議相當(dāng)大量的DNA(對(duì)于原始RADseq每個(gè)樣本最多達(dá)1 ug15,對(duì)于RRLs則是5.5 ug10);然而,大多數(shù)RADseq方法在每個(gè)樣本所需的DNA總量上都有一定的靈活性,并且通常只需要50-100 ng的DNA就可以實(shí)現(xiàn)。有一個(gè)例外是PCR-free文庫(kù)制備方法的使用,它需要大量的起始DNA (例如,1 – 2 ug DNA),正如ezRAD的一種實(shí)現(xiàn)16。

限制性內(nèi)切酶消化。

????????RADseq協(xié)議使用的限制性內(nèi)切酶的數(shù)量和這些酶切割基因組的頻率是不同的,common cutters被定義為比rare cutters切割更頻繁的限制性內(nèi)切酶,通常是由酶切識(shí)別序列(切割位點(diǎn))的長(zhǎng)度決定的。根據(jù)測(cè)序位點(diǎn)與酶切位點(diǎn)在基因組中的分布的關(guān)系,技術(shù)也分為兩大類。原始的RADseq協(xié)議和2bRAD旨在所有的酶切位點(diǎn)產(chǎn)生序列數(shù)據(jù)。相比之下,所有其他技術(shù)都依賴于基因組片段的測(cè)序,這些片段由兩個(gè)酶切位點(diǎn)按照指定的基因組距離(通常為300-600 bp,距離由直接或間接的大小選擇決定;見(jiàn)下文)分離產(chǎn)生的。這些酶切位點(diǎn)可能來(lái)自相同的酶,也可能來(lái)自不同的酶,這取決于使用的是一種酶還是兩種酶(BOX 1)。對(duì)于每種方法,均可使用common cutters或rare cutters來(lái)調(diào)整產(chǎn)生的位點(diǎn)數(shù)量。例如,對(duì)于原始的RADseq協(xié)議,一個(gè)非常粗略的估計(jì)是,8-cutter每48= 65,536 bp進(jìn)行切割,而6-cutter每46= 4,096 bp進(jìn)行切割;這種計(jì)算可以根據(jù)識(shí)別序列和研究的基因組的GC含量進(jìn)行調(diào)整。

接頭連接。

????????RADseq技術(shù)間的不同之處在于接頭是如何構(gòu)建和連接到DNA片段的,以及它們是如何設(shè)計(jì)來(lái)確保只對(duì)目標(biāo)基因組DNA片段(即那些與限制性酶切位點(diǎn)相鄰的片段)進(jìn)行測(cè)序的。在某些情況下,接頭被設(shè)計(jì)成僅與特征性的單鏈粘性末端連接,該末端在消化后仍保留在限制性切割位點(diǎn)。許多基于Illumina測(cè)序的RADseq協(xié)議也使用Y型接頭,其結(jié)構(gòu)確保只有測(cè)序所需的結(jié)合接頭的片段被PCR擴(kuò)增(圖1)。有些技術(shù)采用專有的文庫(kù)準(zhǔn)備包進(jìn)行接頭連接(例如ezRAD、CRoPS和RRLs),這可能會(huì)增加文庫(kù)構(gòu)建的可靠性和試劑成本。使用專用試劑盒的接頭也會(huì)導(dǎo)致連接的特異性降低,因?yàn)檫@些接頭不會(huì)連接到粘性末端,所以序列數(shù)據(jù)可以從不鄰近限制性切割位點(diǎn)的降解DNA片段生成16。

大小選擇。

????????對(duì)于大多數(shù)協(xié)議,限制性內(nèi)切酶將基因組DNA剪切到一個(gè)廣泛的片段長(zhǎng)度范圍,然后使用一個(gè)大小選擇步驟來(lái)分離出理想長(zhǎng)度的片段進(jìn)行測(cè)序。這種方法導(dǎo)致了RADseq協(xié)議之間的關(guān)鍵區(qū)別(BOX 1):對(duì)于所有被兩個(gè)切割位點(diǎn)包圍的DNA片段進(jìn)行測(cè)序的方法來(lái)說(shuō),大小選擇步驟進(jìn)一步減少了要進(jìn)行基因分型的位點(diǎn)數(shù)量,因?yàn)槊總€(gè)潛在的位點(diǎn)都有一個(gè)特征性的片段大小,該大小由切割位點(diǎn)之間的距離決定。在這些技術(shù)中,大小選擇可以是間接完成的,如作為 PCR 擴(kuò)增或測(cè)序效率的結(jié)果 (例如GBS和CRoPS) ,或者是直接完成的,使用手工或自動(dòng)凝膠切割技術(shù)或磁珠(例如 RRLs、多重鳥(niǎo)槍槍基因分型 (MSG)、ezRAD 和雙消化RAD(ddRAD))。對(duì)于這些方法,跨文庫(kù)大小選擇的一致性對(duì)于產(chǎn)生跨樣本的可比對(duì)位點(diǎn)的數(shù)據(jù)至關(guān)重要;不一致會(huì)導(dǎo)致不同的文庫(kù)出現(xiàn)不同的位點(diǎn),導(dǎo)致測(cè)序工作的浪費(fèi)和高水平的基因型缺失。

????????相比之下,原始RADseq協(xié)議和2bRAD并沒(méi)有使用大小選擇步驟來(lái)減少要測(cè)序的位點(diǎn)集;相反,所有與限制性切割位點(diǎn)相鄰的位點(diǎn)都是這兩種方法的目標(biāo)。原始RADseq方法在單一酶切后使用機(jī)械剪切步驟來(lái)產(chǎn)生適合Illumina測(cè)序的片段。這種方法意味著每個(gè)測(cè)序片段都在一端有酶切位點(diǎn),在另一端有隨機(jī)剪切位點(diǎn),并且在每個(gè)位點(diǎn)產(chǎn)生一系列的片段大小。因此,大小選擇步驟并沒(méi)有進(jìn)一步減少位點(diǎn)集,只是被用來(lái)優(yōu)化Illumina測(cè)序效率和去除接頭二聚體。2bRAD方法在RADseq協(xié)議中是獨(dú)一無(wú)二的,因?yàn)樗褂肐IB限制性內(nèi)切酶來(lái)產(chǎn)生在所有位點(diǎn)都大小相同的短片段(33-36bp)。

條形碼。

????????內(nèi)置于接頭中的條形碼的使用,可以在某些協(xié)議進(jìn)行文庫(kù)準(zhǔn)備的早期對(duì)樣本個(gè)體進(jìn)行多路復(fù)用;這種多路復(fù)用有時(shí)被稱為池化,但不應(yīng)與將個(gè)體混合成一個(gè)條形碼相混淆(BOX 3)。在文庫(kù)準(zhǔn)備過(guò)程中,只要將帶有條形碼的接頭連接到每個(gè)樣本上,就可以對(duì)樣本進(jìn)行多路復(fù)用,這可以極大地減少大量樣本研究中后續(xù)步驟的時(shí)間和費(fèi)用。在文庫(kù)制備的早期,樣本的多路復(fù)用需要內(nèi)置條形碼的使用。專有工具包里的接頭沒(méi)有內(nèi)置條形碼,因此為了內(nèi)置條形碼需要定制接頭。許多技術(shù)也可用于組合條形碼,在這個(gè)方法中,每個(gè)樣本的DNA片段由兩個(gè)不同的識(shí)別符的獨(dú)特組合進(jìn)行識(shí)別,通常是一個(gè)內(nèi)置條形碼和一個(gè)Illumina index(6-8bp,位于接頭中間附近),在PCR階段被添加到DNA片段的另一端(例如Peterson等人所用的方法17)。另一種可供選擇的組合條形碼策略是使用兩個(gè)Illumina index,分別位于 DNA片段的兩端。但是,這種策略不允許在文庫(kù)準(zhǔn)備的早期對(duì)樣本進(jìn)行多路復(fù)用。另一種替代方法是在DNA片段的兩端都使用內(nèi)置條形碼;但是,所有的Illumina庫(kù)都至少有一個(gè)index,這意味著這種方法會(huì)在冗余的內(nèi)置條形碼上浪費(fèi)測(cè)序工作。組合條形碼減少了區(qū)分樣本個(gè)體所需的接頭總數(shù),例如,一組24個(gè)帶條形碼的接頭和16個(gè)index可以在一個(gè)測(cè)序通道中唯一地識(shí)別384個(gè)樣本。

測(cè)序數(shù)據(jù)類型。

????????目前大多數(shù)RADseq技術(shù)都使用Illumina測(cè)序技術(shù)。Illumina公司機(jī)器提供一系列的序列讀取長(zhǎng)度(目前是50-300個(gè)bp,在未來(lái)可能進(jìn)一步增加),也可以選擇單端測(cè)序,產(chǎn)生一個(gè)向前讀的DNA片段,或雙端測(cè)序,產(chǎn)生一個(gè)向前讀和一個(gè)反向讀取的片段。這些選項(xiàng)可以應(yīng)用于所有RADseq庫(kù),盡管雙端測(cè)序?qū)?bRAD沒(méi)有好處,因?yàn)?bRAD生成非常短的片段(33-36 bp)。對(duì)于所有其他方法,向前讀取是從限制性內(nèi)切酶切位點(diǎn)開(kāi)始,較長(zhǎng)的讀取通常捕獲更多的基因組序列。對(duì)于所有被兩個(gè)酶切位點(diǎn)進(jìn)行目標(biāo)位點(diǎn)切割的方法,反向讀取從第二個(gè)切割位點(diǎn)開(kāi)始,因此這些讀取將在基因組中每個(gè)位點(diǎn)的相同位置排列。

????????相比之下,使用原始RADseq協(xié)議的雙端測(cè)序會(huì)產(chǎn)生非常不同的數(shù)據(jù)類型。向前的讀取從酶切位點(diǎn)開(kāi)始,反向的讀取從隨機(jī)剪切端開(kāi)始,一般在400 - 700 bp處。因此,任何給定位點(diǎn)的反向讀取序列的長(zhǎng)度都是交錯(cuò)的18,這些數(shù)據(jù)可以用來(lái)組裝長(zhǎng)contigs。例如,如果文庫(kù)片段被裁剪成1kb,那么這些contigs可能長(zhǎng)達(dá)1 kb15,19。這些RAD contigs提高了旁系同源基因的識(shí)別20,為具有重要功能的基因位點(diǎn)的BLAST 搜索提供了更多的序列18,并為系統(tǒng)發(fā)育分析提供了單倍型數(shù)據(jù)。較長(zhǎng)的contig序列也可以在進(jìn)一步研究中對(duì)感興趣的目標(biāo)位點(diǎn)設(shè)計(jì)PCR引物或序列捕獲探針21,22。

????????對(duì)于所有的方法,雙末端測(cè)序產(chǎn)生的讀取對(duì)可以根據(jù)讀取長(zhǎng)度和片段大小范圍進(jìn)行重疊,因此,如果片段長(zhǎng)度小于200-300bp(例如一些使用GBS單個(gè)common cutter酶產(chǎn)生的片段),增加讀取長(zhǎng)度或使用雙末端測(cè)序可能無(wú)法獲得任何基因組序列信息。然而,重疊的讀取對(duì)可以用來(lái)提高讀取末端附近基因分型的準(zhǔn)確性,而這讀取末端往往有更高的測(cè)序錯(cuò)誤率23。

生物信息學(xué)分析。

????????對(duì)于所有使用RADseq方法生成的數(shù)據(jù),測(cè)序后分析通常共享幾個(gè)基本步驟。初始分析包括解復(fù)用和條形碼的修整(如果存在),根據(jù)預(yù)期的限制性內(nèi)切酶切割位點(diǎn)和序列質(zhì)量來(lái)過(guò)濾讀取,如果讀取質(zhì)量在接近讀取結(jié)束時(shí)下降,則可能進(jìn)行修整。對(duì)于某些RADseq方法,可以在初始分析時(shí)去除PCR重復(fù),以提高下游基因分型的準(zhǔn)確性(見(jiàn)下文)。如果有參考基因組,那么可以通過(guò)對(duì)該參考基因組的序列比對(duì)來(lái)確定位點(diǎn)?;蛘?,可以通過(guò)將相似的序列讀取聚類在一起來(lái)從頭組裝位點(diǎn),并假設(shè)一個(gè)位點(diǎn)上讀取之間的差異要么是測(cè)序錯(cuò)誤,要么是等位基因變異。發(fā)現(xiàn)位點(diǎn)后,利用原始RADseq得到的雙端數(shù)據(jù)可以生成長(zhǎng) contigs(見(jiàn)上文)。可采用最大似然或貝葉斯方法進(jìn)行基因分型;與貝葉斯方法相比,最大似然方法可能需要更高的覆蓋深度,特別是當(dāng)貝葉斯方法利用群體水平的等位基因頻率來(lái)設(shè)置基因型的先驗(yàn)概率時(shí)。

????????有幾個(gè)專門為分析RADseq數(shù)據(jù)設(shè)計(jì)的程序可用(例如,Stacks27、pyRAD28和UNEAK29,以及其他公開(kāi)可用的腳本和管道)。STACKS包含許多靈活的模塊來(lái)進(jìn)行所有部分的分析,從質(zhì)量過(guò)濾和位點(diǎn)識(shí)別(無(wú)論有無(wú)參考基因組)到基因分型和計(jì)算群體遺傳統(tǒng)計(jì)。pyRAD是專為系統(tǒng)發(fā)育應(yīng)用設(shè)計(jì)的,它能進(jìn)行質(zhì)量篩選和從頭位點(diǎn)識(shí)別和基因分型,它的優(yōu)勢(shì)是可以處理等位基因間的插入缺失變異,因此可能更適合研究更大尺度的分類群。UNEAK是TASSEL管道的一部分,用于與GBS數(shù)據(jù)進(jìn)行關(guān)聯(lián)映射30,并使用基于網(wǎng)絡(luò)的SNP檢測(cè)算法,但在某些方面,如修整讀取和從頭位點(diǎn)識(shí)別參數(shù)設(shè)置,它的靈活性比其他軟件稍差。RADseq數(shù)據(jù)還可以使用更多的遺傳軟件工具進(jìn)行分析,用于質(zhì)量過(guò)濾、比對(duì)到參考基因組和基因分型。

????????在基因分型之后,通常建議進(jìn)一步過(guò)濾,以剔除缺失數(shù)據(jù)比例較大的位點(diǎn)和/或樣本個(gè)體。在這個(gè)階段,過(guò)濾的適當(dāng)水平取決于研究目標(biāo)和隨后要進(jìn)行的分析,因?yàn)檫@些目標(biāo)和分析對(duì)缺失數(shù)據(jù)的敏感性不同,個(gè)體和位點(diǎn)的樣本量也不同。最近的一些出版物已經(jīng)強(qiáng)調(diào)了RADseq數(shù)據(jù)分析的細(xì)節(jié)是如何對(duì)分析結(jié)果產(chǎn)生重大影響的,特別是用于從頭位點(diǎn)識(shí)別的參數(shù)31-33。其中一些工作為如何將生物信息學(xué)工具應(yīng)用于RADseq數(shù)據(jù)提供了明確的建議??偟膩?lái)說(shuō),從質(zhì)量過(guò)濾到位點(diǎn)識(shí)別和基因分型,研究人員在分析的所有步驟中使用不同的參數(shù)是至關(guān)重要的,這能使他們批判性地評(píng)估結(jié)果的敏感性,并根據(jù)研究目標(biāo)優(yōu)化分析。


錯(cuò)誤和偏差的來(lái)源

????????RADseq方法與所有下一代測(cè)序方法共享一些測(cè)序和基因分型錯(cuò)誤的來(lái)源34。此外,在RADseq方法中有幾個(gè)獨(dú)特的潛在錯(cuò)誤和偏差來(lái)源,其影響可能因文庫(kù)準(zhǔn)備協(xié)議和統(tǒng)計(jì)分析的不同而不同。

等位基因丟失和無(wú)效等位基因。

????????當(dāng)一種多態(tài)性發(fā)生在限制性內(nèi)切酶識(shí)別位點(diǎn)時(shí),RADseq中就會(huì)出現(xiàn)等位基因丟失,導(dǎo)致無(wú)法在該位點(diǎn)切割基因組DNA。缺少完整識(shí)別位點(diǎn)的等位基因?qū)⒉粫?huì)被測(cè)序,因此是無(wú)效等位基因。如果一個(gè) SNP 出現(xiàn)在一個(gè)無(wú)效等位基因中,未能對(duì)該等位基因進(jìn)行測(cè)序可能會(huì)導(dǎo)致基因分型錯(cuò)誤,個(gè)體雜合的無(wú)效等位基因看上去就是純合子。缺乏限制切割位點(diǎn)也可能導(dǎo)致鄰近切割位點(diǎn)等位基因丟失,因?yàn)閷?duì)于使用大小選擇步驟減少位點(diǎn)集的方法來(lái)說(shuō),消化后片段長(zhǎng)度可能落在選定的大小范圍之外 ( 圖 2a) 。

????????等位基因丟失的頻率隨著限制酶識(shí)別位點(diǎn)的累積長(zhǎng)度的增加而增加,這是由于較長(zhǎng)序列中突變的概率增加了35。模擬研究還表明,在研究系統(tǒng)中,等位基因丟失隨著多態(tài)性總體水平的增加而增加,并且對(duì)ddRAD 產(chǎn)生的數(shù)據(jù)的影響大于對(duì)原始RADseq 產(chǎn)生的數(shù)據(jù)的影響,因?yàn)槲稽c(diǎn)取決于兩個(gè)切割點(diǎn)的存在,而不是一個(gè)切割點(diǎn)35,36。

????????由等位基因缺失引起的基因分型錯(cuò)誤會(huì)使群體遺傳統(tǒng)計(jì)產(chǎn)生偏差,包括對(duì)基因多樣性的低估、對(duì)FST的高估,并會(huì)隨著FST離群試驗(yàn)中假陽(yáng)性和假陰性的增加而增加35,36。然而,有證據(jù)表明,除非有效種群規(guī)模很大(Ne>105),否則這些偏差的影響可能是有限的35。通過(guò)從數(shù)據(jù)集中刪除帶有無(wú)效等位基因的位點(diǎn),可以在很大程度上補(bǔ)償FST偏差。從理論上講,帶有無(wú)效等位基因的位點(diǎn)應(yīng)該可以通過(guò)樣本個(gè)體的覆蓋深度差異來(lái)識(shí)別,因?yàn)橐恍﹤€(gè)體在該位點(diǎn)上缺少一個(gè)或兩個(gè)拷貝。然而,許多其他因素也會(huì)導(dǎo)致覆蓋深度的差異(見(jiàn)下文),所以這并不總是一個(gè)可靠的無(wú)效等位基因指標(biāo)。盡管如此,許多標(biāo)準(zhǔn)的過(guò)濾方法將刪除那些高無(wú)效等位基因的位點(diǎn),這些方法只保留那些在最低比例的樣本個(gè)體中成功進(jìn)行基因分型的位點(diǎn)。雖然刪除帶有無(wú)效等位基因的位點(diǎn)應(yīng)該可以主要補(bǔ)償偏差的FST估計(jì),但它可能對(duì)多樣性估計(jì)的偏差補(bǔ)償作用不大。帶有無(wú)效等位基因的位點(diǎn)被預(yù)測(cè)會(huì)更頻繁地出現(xiàn)在突變率更高和/或長(zhǎng)期遺傳多樣性水平更高的基因組區(qū)域,因此,如果數(shù)據(jù)集中沒(méi)有這些位點(diǎn),將會(huì)導(dǎo)致對(duì)整體基因組多樣性的系統(tǒng)低估36。


圖2?RADseq數(shù)據(jù)中錯(cuò)誤和偏差的來(lái)源。a|?使用大小選擇步驟減少要測(cè)序的位點(diǎn)數(shù)量的RADseq協(xié)議等位基因缺失的一個(gè)例子?;揖€表示一個(gè)個(gè)體內(nèi)的染色體,紅色方框表示限制性切割位點(diǎn),彩色方框表示雜合SNPs,方括號(hào)表示測(cè)序的基因組區(qū)域。單倍體1切割位點(diǎn)B的突變使包含SNP的消化后片段在單倍體1的大小選擇中太長(zhǎng)而無(wú)法保留,從而消除了該片段上任何位點(diǎn)測(cè)序的可能性,導(dǎo)致個(gè)體在雜合SNP上出現(xiàn)純合。b| 不同RADseq方案的雜合位點(diǎn)進(jìn)行PCR后產(chǎn)生片段的例子,其中生物信息學(xué)分析后保留了讀取。PCR重復(fù)與來(lái)自原始模板DNA的父片段具有相同的符號(hào)(圓形、方形、星號(hào)或三角形)。在 PCR 過(guò)程中,一些等位基因可能比其他等位基因擴(kuò)增得更多。對(duì)于所有的方案,PCR重復(fù)將在序列組成和長(zhǎng)度上與原始模板分子保持一致。對(duì)于原始 RADseq,這個(gè)特征(即相同的長(zhǎng)度)可以用于生物信息學(xué)上識(shí)別和刪除 PCR 重復(fù),因?yàn)榻o定位點(diǎn)上原始模板分子的長(zhǎng)度是不相同的。對(duì)于其他RADseq 方法,這一特征不能用于鑒定 PCR 重復(fù),因?yàn)榻o定位點(diǎn)上所有的原始模板分子的長(zhǎng)度是相同的。PCR重復(fù)的高頻率會(huì)導(dǎo)致雜合子以純合子的形式出現(xiàn),或?qū)е翽CR錯(cuò)誤表現(xiàn)成真正的多樣性。B部分是經(jīng)過(guò)參考文獻(xiàn)37的批準(zhǔn)改編。

PCR重復(fù)和基因分型錯(cuò)誤。

????????大多數(shù)下一代測(cè)序文庫(kù)制備方案都有一個(gè)PCR步驟,在此步驟中將從原始基因組DNA片段(稱為父片段)生成克隆DNA片段(稱為PCR重復(fù))37,38。在PCR過(guò)程中,隨機(jī)過(guò)程會(huì)導(dǎo)致單個(gè)樣本特定位點(diǎn)上一個(gè)等位基因比另一個(gè)等位基因擴(kuò)增得更多。這種潛在的偏斜可能會(huì)導(dǎo)致下游基因分型的錯(cuò)誤,因?yàn)殡s合子可以表現(xiàn)為純合子 (圖 2a),或者含有 PCR 錯(cuò)誤的等位基因可以表現(xiàn)為真正的等位基因(圖 2b)。研究報(bào)告表明,PCR重復(fù)可以高頻地發(fā)生在RADseq數(shù)據(jù)中(如20-60%的讀取18,37,38)。從理論上講,PCR不應(yīng)該在一個(gè)給定的位點(diǎn)上系統(tǒng)地偏愛(ài)一個(gè)等位基因而不是另一個(gè)等位基因,因此從大量位點(diǎn)估計(jì)的參數(shù)不太可能有很大的偏差。然而,如果存在PCR重復(fù),在個(gè)別位點(diǎn)上需要高基因分型準(zhǔn)確性的分析時(shí),如離群值測(cè)試或親子分配,就可能產(chǎn)生錯(cuò)誤的結(jié)果。

????????對(duì)于使用大多數(shù)下一代測(cè)序協(xié)議產(chǎn)生的序列數(shù)據(jù),PCR重復(fù)可以通過(guò)生物信息學(xué)方法識(shí)別和去除,以提高基因分型的準(zhǔn)確性。這在使用機(jī)械或隨機(jī)酶切片段的方案中是可能的,因?yàn)镻CR復(fù)制可以被確定為開(kāi)始和結(jié)束在基因組相同位置的片段。由于采用機(jī)械剪切步驟,該方法也可用于從雙端測(cè)序的原始RADseq序列數(shù)據(jù)中識(shí)別出PCR重復(fù)(圖 2b)。在某些情況下(當(dāng)正向和反向讀取之間的距離非常短或局部覆蓋率非常高時(shí)),該過(guò)濾將刪除那些不是重復(fù)但碰巧具有相同起點(diǎn)和終點(diǎn)的片段。然而,這種情況應(yīng)該很少發(fā)生,并應(yīng)該在基因分型準(zhǔn)確性方面表現(xiàn)保守。該方法不能用于除原始RADseq外其他任何RADseq協(xié)議中的PCR重復(fù)的識(shí)別,因?yàn)樵诮o定位點(diǎn)的所有片段都具有相同的起始和終止位置2。

????????最近開(kāi)發(fā)的另一種方法顯示了通過(guò)在測(cè)序接頭內(nèi)使用簡(jiǎn)并的堿基區(qū)域在PCR前標(biāo)記父片段來(lái)識(shí)別PCR重復(fù)的可能38-40。此方法可以合并到任何使用自定義設(shè)計(jì)的接頭的協(xié)議中。處理PCR重復(fù)的另一種方法是完全取消文庫(kù)準(zhǔn)備的PCR步驟,就像在ezRAD中使用Illumina PCR-free試劑盒一樣16。然而,PCR-free試劑盒目前非常昂貴,而且比其他RADseq協(xié)議需要更多的基因組DNA(1 ug)。

位點(diǎn)之間測(cè)序深度的差異。

????????由于在RADseq位點(diǎn)內(nèi)某些等位基因的優(yōu)先測(cè)序,PCR重復(fù)和等位基因缺失可能導(dǎo)致基因分型錯(cuò)誤,而其他一些現(xiàn)象可能導(dǎo)致某些位點(diǎn)優(yōu)先于其他位點(diǎn)測(cè)序。這些現(xiàn)象不應(yīng)造成基因分型錯(cuò)誤,但將需要更大的整體測(cè)序努力,以為那些較低頻率測(cè)序的位點(diǎn)獲得足夠的深度。一個(gè)眾所周知的現(xiàn)象是,在PCR過(guò)程中,片段會(huì)基于GC含量?jī)?yōu)先擴(kuò)增2,41-43,而這種偏差應(yīng)該會(huì)影響所有包含PCR步驟的RADseq方法。另一種現(xiàn)象是短片段比長(zhǎng)片段優(yōu)先擴(kuò)增。這個(gè)問(wèn)題會(huì)影響到所有序列片段被兩個(gè)切割位點(diǎn)裁切的RADseq方法(BOX 1),因?yàn)槊總€(gè)位點(diǎn)都有一個(gè)特定的片段長(zhǎng)度。這個(gè)問(wèn)題既不會(huì)影響2bRAD,因?yàn)樗械奈稽c(diǎn)在長(zhǎng)度上是一致的,也不會(huì)影響原始RADseq,因?yàn)槊總€(gè)位點(diǎn)都由不同的片段長(zhǎng)度表示。

????????另一種影響位點(diǎn)間覆蓋深度變化的現(xiàn)象是由原始RADseq的機(jī)械剪切引起的。小于10kb的片段剪切效率較低,因此來(lái)自較短限制性片段的位點(diǎn)比來(lái)自較長(zhǎng)片段的位點(diǎn)產(chǎn)生更少的讀取。然而,這一現(xiàn)象對(duì)大多數(shù)原始RADseq研究的影響應(yīng)該較小,這些研究通常使用將基因組DNA消化為大于10 kb片段的rare cutter。

????????當(dāng)各個(gè)位點(diǎn)的覆蓋率差別很大時(shí),獲得足夠數(shù)量的讀取以對(duì)低覆蓋率位點(diǎn)進(jìn)行準(zhǔn)確基因分型將需要增加所有位點(diǎn)的平均覆蓋深度。要做到這一點(diǎn),必須減少每個(gè)測(cè)序泳道復(fù)用的個(gè)體數(shù)量,這將增加研究項(xiàng)目的成本或減少可以分析的個(gè)體樣本的數(shù)量?;蛘?,如果可以從高覆蓋標(biāo)記獲得足夠的數(shù)據(jù),低覆蓋位點(diǎn)可以直接從數(shù)據(jù)集中刪除,這在實(shí)踐中很常見(jiàn)。


如何設(shè)計(jì)一個(gè)RADseq研究

????????為特定的應(yīng)用設(shè)計(jì)一個(gè)RADseq研究需要考慮幾個(gè)主要因素,包括最合適的RADseq方法、取樣和測(cè)序策略、預(yù)算和其他方法細(xì)節(jié)。表1總結(jié)了所選方法之間的權(quán)衡。

位點(diǎn)數(shù)量。

????????通過(guò)RADseq方法鑒定和基因分型的位點(diǎn)數(shù)量取決于基因組的大小、基因組中限制性切割位點(diǎn)的頻率和用于測(cè)序的切割位點(diǎn)的數(shù)量。計(jì)算工具可用來(lái)估計(jì)每個(gè)協(xié)議預(yù)期的位點(diǎn)數(shù)量42,44。針對(duì)所有的切割位點(diǎn)的RADseq方法(原始的RAD和2bRAD),或者使用common-cutter內(nèi)切酶的沒(méi)有直接大小選擇步驟的RADseq方法(GBS),通常可以提供更多的位點(diǎn),但是數(shù)量可以根據(jù)酶的選擇進(jìn)行調(diào)整。相比之下,涉及明確的大小選擇步驟的協(xié)議 (例如, ddRAD 和 ezRAD) 不僅可以通過(guò)選擇酶來(lái)調(diào)整位點(diǎn)數(shù)量,而且還可以通過(guò)改變選擇的大小范圍來(lái)調(diào)整位點(diǎn)數(shù)量,因此它們通常有更大的靈活性來(lái)提供更少的位點(diǎn)數(shù)量。此外,在任何RADseq協(xié)議中減少位點(diǎn)數(shù)量的另一種方法是為RADseq信息位點(diǎn)子集設(shè)計(jì)探針,并使用這些探針捕獲和測(cè)序選擇的位點(diǎn)(即RAD捕獲或Rapture22)。

????????最佳位點(diǎn)數(shù)取決于研究目的。研究重點(diǎn)在于估計(jì)中性或全基因組過(guò)程的,如系統(tǒng)發(fā)育關(guān)系、地理種群結(jié)構(gòu)、基因流、漸滲和個(gè)體近親繁殖(血統(tǒng)鑒定),通常只需要幾百到幾千個(gè)含有SNP的RADseq位點(diǎn)就可以對(duì)基因組進(jìn)行充分采樣12,18,45,46。相比之下,那些試圖描述整個(gè)基因組中重要功能區(qū)域的研究,比如那些表現(xiàn)出選擇特征的研究,則需要一組更大的標(biāo)記(例如,多達(dá)數(shù)萬(wàn)甚至數(shù)十萬(wàn)個(gè)RADseq位點(diǎn))24,47,48。在映射研究中,RADseq位點(diǎn)的最佳數(shù)量取決于沿著染色體的連鎖不平衡和重組模式的預(yù)期程度。例如,一個(gè)實(shí)驗(yàn)室F2雜交種群或一個(gè)近期的混合群體需要的位點(diǎn)比一個(gè)遠(yuǎn)緣雜交種群要少,盡管統(tǒng)計(jì)能力可能會(huì)隨著大量的后代和更多的標(biāo)記而增加。對(duì)于一個(gè)遠(yuǎn)緣雜交種群的關(guān)聯(lián)映射,就需要多得多的標(biāo)記。量化沿著染色體延伸的多樣性模式(例如,純合性的運(yùn)行)來(lái)估計(jì)最近的和歷史上的有效種群大小和近親繁殖也需要成千上萬(wàn)的位點(diǎn)46,49,50。

????????一些生物因素也可以增加目標(biāo)位點(diǎn)的數(shù)量。遺傳變異低的瓶頸期或小種群可能需要更多位點(diǎn)的測(cè)序來(lái)精確量化變異水平。具有全基因組復(fù)制或基因復(fù)制歷史的基因組,如鮭魚51或很多植物52,又或者轉(zhuǎn)座子或其他重復(fù)序列水平高的基因組,如一些植物53,可能需要大量的位點(diǎn)來(lái)補(bǔ)償對(duì)問(wèn)題位點(diǎn)的嚴(yán)格過(guò)濾(刪除)。

表1 五種RADseq方法之間的權(quán)衡


*估計(jì)如下:原始RADseq,假設(shè)是6-cutter或8-cutter;2bRAD,假設(shè)是識(shí)別位點(diǎn)包含5-7個(gè)特定核苷酸的IIB型酶;GBS,數(shù)據(jù)來(lái)自Elshire et al. 6;ddRAD,數(shù)據(jù)來(lái)自Peterson et al.的表117并允許兩倍的大小范圍;ezRAD,來(lái)自Toonen et al.16的具有參考基因組的物種的數(shù)據(jù)。? 基于目前測(cè)序技術(shù)的單端讀取長(zhǎng)度限制?!旒僭O(shè)多個(gè)樣本有單獨(dú)的條形碼?!部膳c標(biāo)準(zhǔn)凝膠設(shè)備配套使用。? 基于減少位點(diǎn)總數(shù)和長(zhǎng)度的能力。# 基于區(qū)分旁系同源和重復(fù)序列的位點(diǎn)長(zhǎng)度。


序列讀取的類型。

????????長(zhǎng)序列讀取和/或雙端序列讀取提供了許多優(yōu)勢(shì),包括改進(jìn)的位點(diǎn)識(shí)別、旁系同源或重復(fù)序列的區(qū)分和對(duì)重要功能位點(diǎn)的BLAST搜索。對(duì)于大多數(shù)RADseq協(xié)議來(lái)說(shuō),序列長(zhǎng)度主要受到測(cè)序技術(shù)的限制(例如,Illumina的讀取量通常可達(dá)150 bp,但在某些情況下可達(dá)300 bp)。許多研究問(wèn)題可以通過(guò)相對(duì)較短的讀取(例如,100 bp)和單端測(cè)序得到充分解決。然而,如上所述,通過(guò)使用原始RAD的雙端測(cè)序讀取(最多1 kb18)組裝contigs,可以獲得更長(zhǎng)的RADseq位點(diǎn),這種方法對(duì)于沒(méi)有參考基因組的復(fù)雜基因組尤其有利。在所有的方法中,2bRAD產(chǎn)生最短的讀取(33-36 bp),因此不推薦使用這種技術(shù)進(jìn)行從頭定位識(shí)別或者運(yùn)用到大型復(fù)雜基因組(例如人類基因組54),因?yàn)樽x取長(zhǎng)度實(shí)際上太短以至于無(wú)法進(jìn)行可靠的映射。

已有的基因組資源。

????????已有的參考序列為RADseq研究提供了諸多優(yōu)勢(shì)。參考基因組序列、一組組裝不良的基因組scaffolds甚至一組以前識(shí)別的RAD位點(diǎn)都可以極大地提高篩選旁系同源或重復(fù)序列、識(shí)別插入缺失變異和去除非目標(biāo)DNA序列(例如,細(xì)菌污染)的能力55。一個(gè)組裝良好的參考基因組提供了進(jìn)一步的優(yōu)勢(shì)。例如,映射研究可以利用位點(diǎn)的物理位置信息來(lái)推斷覆蓋多個(gè)位點(diǎn)的較大染色體區(qū)域的單倍型56。GBS和MSG方法就用這種方法進(jìn)行模式物種的性狀定位,模式物種親本祖先的染色體塊相當(dāng)大。種群基因組研究可以使用一個(gè)參考基因組組裝來(lái)進(jìn)行滑動(dòng)窗口分析,并增加統(tǒng)計(jì)能力來(lái)檢測(cè)感興趣的基因組區(qū)域,例如種群之間的差異選擇區(qū)域24,48。在沒(méi)有參考基因組的情況下,使用原始RADseq協(xié)議產(chǎn)生的長(zhǎng) contigs應(yīng)該能夠提供最大的能力來(lái)區(qū)分旁系同源或重復(fù)序列15,18,19。

測(cè)序覆蓋深度。

????????對(duì)所有RADseq方法產(chǎn)生的文庫(kù)進(jìn)行測(cè)序會(huì)產(chǎn)生不同深度的覆蓋,不同研究中對(duì)單個(gè)條形碼樣本的理想深度差異很大。在一種極端情況下,實(shí)驗(yàn)室用一個(gè)組裝良好的參考基因組來(lái)進(jìn)行映射研究只需要很低的覆蓋率(<1×)就能達(dá)到最佳效果57。對(duì)于二倍體的從頭位點(diǎn)發(fā)現(xiàn)和基因分型,就需要更高的覆蓋率(例如,10-20×)。如果從頭組裝是通過(guò)結(jié)合多個(gè)樣品的讀取來(lái)進(jìn)行的(盡管在進(jìn)行基因分型前必須對(duì)讀取進(jìn)行個(gè)體分離),那么更低的覆蓋率(例如,5×)就可以了。在多倍體類群中需要更高的覆蓋率,因?yàn)樵谙嗤淖x取下每一個(gè)單倍體基因組的覆蓋率降低了。另外,在某些情況下,個(gè)體可能被匯集成單個(gè)條形碼(BOX 3),由于沒(méi)有分配個(gè)體基因型,每個(gè)個(gè)體的覆蓋率要低得多。

預(yù)算。

????????RADseq數(shù)據(jù)的主要開(kāi)銷通常是測(cè)序本身。總的測(cè)序工作分為位點(diǎn)的數(shù)量、樣本和群體的數(shù)量以及每個(gè)個(gè)體每個(gè)位點(diǎn)所需的覆蓋率。然而,不同的協(xié)議在文庫(kù)準(zhǔn)備費(fèi)用以及文庫(kù)準(zhǔn)備費(fèi)用隨樣本數(shù)量的增加而增加的方式上也有很大的不同。例如,盡管原來(lái)的 RADseq 協(xié)議有相對(duì)大量的步驟,但樣本在協(xié)議的早期是多路復(fù)用的,隨后的步驟是對(duì)多達(dá)96個(gè)或更多的條形碼樣本進(jìn)行混合,因此在時(shí)間和金錢方面增加樣本的邊際成本都是最小的。相比之下,ezRAD 的成本大致與樣本成線性關(guān)系,因?yàn)橹钡阶詈蟛哦嗦窂?fù)用,所以這種方法可能最適合于少數(shù)樣本或樣本池16。一些RADseq協(xié)議還需要在專門的條形碼接頭上進(jìn)行初始資金投資,盡管對(duì)于大量的庫(kù)來(lái)說(shuō),一組這樣的寡核苷酸通常就足夠了。此外,一些RAD協(xié)議可能要求購(gòu)買專門的實(shí)驗(yàn)室設(shè)備。原始 RADseq 需要使用 DNA超聲波儀,而使用直接大小選擇步驟(例如 ddRAD和 ezRAD)的 RADseq 協(xié)議 可 以 通 過(guò) 使 用PippinPrep17來(lái)提高大小選擇的精確性和一致性,并減少交叉污染的可能性。

數(shù)據(jù)的可比對(duì)性。

????????在設(shè)計(jì)RADseq研究時(shí),最后要考慮的是跨測(cè)序運(yùn)行和跨實(shí)驗(yàn)室的數(shù)據(jù)一致性。大小選擇的不一致性可能會(huì)在使用大小選擇來(lái)減少位點(diǎn)集的方法的文庫(kù)之間產(chǎn)生差異。不同大小選擇技術(shù)(自動(dòng)或手動(dòng)凝膠提取與基于珠子的選擇)的一致性沒(méi)有被嚴(yán)格量化,但磁珠的一致性可能要低得多58。針對(duì)每個(gè)切割站點(diǎn)的方法(原始的RAD和2bRAD)通常被期望在文庫(kù)間更加一致;但是,這些方法容易產(chǎn)生其他的錯(cuò)誤(前面已經(jīng)討論過(guò))。根據(jù)限制性內(nèi)切酶的選擇,即使在不同的方法中,位點(diǎn)基因分型也可能有一定的一致性。例如,在ddRAD協(xié)議中使用SbfI和EcoRI酶測(cè)序的位點(diǎn)應(yīng)該是那些使用SbfI酶和原始RAD測(cè)序的位點(diǎn)的子集。

替代或補(bǔ)充方法。

????????雖然RADseq作為SNP基因分型和發(fā)現(xiàn)的工具有很多好處,但它并不是每一個(gè)生態(tài)和進(jìn)化研究的最佳選擇方法。轉(zhuǎn)錄組測(cè)序(RNA-seq)59和靶向(探針)捕獲60是兩種主要的利用下一代測(cè)序的替代簡(jiǎn)化基因組方法(BOX 4)。全基因組重測(cè)序和全基因組混樣測(cè)序又是另外的替代方法,能提供比簡(jiǎn)化基因組更多的基因組信息61-63。然而,盡管全基因組重測(cè)序?qū)τ诜N群研究的可行性越來(lái)越大,但很多生態(tài)和進(jìn)化問(wèn)題仍無(wú)法從全基因組數(shù)據(jù)的增加中獲得多少好處。例如,一項(xiàng)RADseq的研究使用數(shù)萬(wàn)個(gè)基于等位基因頻率或連鎖不平衡的標(biāo)記來(lái)檢測(cè)選擇,這項(xiàng)研究更有可能受到取樣個(gè)體數(shù)量的限制,而不是標(biāo)記密度的限制。

????????替代基因組方法也可用于補(bǔ)充 RADseq,以便在特定系統(tǒng)中進(jìn)行更全面或更靈活的調(diào)查。例如,隨著序列化和組裝技術(shù)的不斷改進(jìn),為非模式物種開(kāi)發(fā)從頭參考基因組正變得越來(lái)越可行64,65,而且這樣的參考為分析在種群水平取樣的RADseq數(shù)據(jù)提供了諸多優(yōu)勢(shì)24,47,48,55。轉(zhuǎn)錄組測(cè)序也可以通過(guò)靶向編碼(可能是功能性)序列來(lái)補(bǔ)充RADseq數(shù)據(jù),而RADseq同時(shí)查詢編碼位點(diǎn)和非編碼位點(diǎn)。RADseq也可以作為一個(gè)大研究的第一步來(lái)關(guān)注重要的位點(diǎn)。例如,RADseq可以提供全基因組掃描來(lái)識(shí)別感興趣的候選位點(diǎn),然后可以使用這些位點(diǎn)的序列數(shù)據(jù)來(lái)設(shè)計(jì)用于序列捕獲的探針。隨后的目標(biāo)測(cè)序可以在大量樣本上進(jìn)行,大大降低了每個(gè)樣本的成本,同時(shí)DNA的質(zhì)量也更差。


結(jié)果

????????RADseq技術(shù)在生態(tài)學(xué)和進(jìn)化基因組學(xué)中對(duì)于SNP的發(fā)現(xiàn)和基因分型具有巨大的能力和通用性,但是研究人員在選擇和應(yīng)用這些方法時(shí)應(yīng)該慎重考慮。許多RADseq協(xié)議被開(kāi)發(fā)出來(lái),這些協(xié)議不僅在技術(shù)細(xì)節(jié)和文庫(kù)準(zhǔn)備的成本上不同,而且在產(chǎn)生的數(shù)據(jù)類型和基因分型錯(cuò)誤和偏差的來(lái)源上也不同。因此,協(xié)議的適用性將根據(jù)研究問(wèn)題、研究系統(tǒng)和預(yù)算而有所不同。盡管測(cè)序技術(shù)和成本迅速變化,我們預(yù)計(jì),在可預(yù)見(jiàn)的未來(lái),諸如RADseq等簡(jiǎn)化基因組測(cè)序方法將繼續(xù)成為自然種群基因組學(xué)研究的重要工具。如果實(shí)施得當(dāng),RADseq方法將提供高效、靈活和經(jīng)濟(jì)的方法,以充分發(fā)揮下一代測(cè)序技術(shù)的力量,為生態(tài)、進(jìn)化和與保護(hù)相關(guān)的問(wèn)題提供新的見(jiàn)解。


限制性位點(diǎn)相關(guān)DNA測(cè)序

(RADseq)一種使用大規(guī)模并行(下一代)測(cè)序,對(duì)基因組中大量限制切割位點(diǎn)附近的遺傳位點(diǎn)進(jìn)行測(cè)序的方法。也被稱為基因分型測(cè)序。

下一代測(cè)序

(也被稱為大規(guī)模并行測(cè)序)。2005年首次出現(xiàn)的同時(shí)對(duì)數(shù)百萬(wàn)個(gè)DNA分子進(jìn)行測(cè)序的技術(shù)。

覆蓋深度

對(duì)某一特定位點(diǎn)或核苷酸位點(diǎn)的序列讀取次數(shù)

接頭

在下一代測(cè)序之前必須連接到DNA片段的雙鏈寡核苷酸。Illumina接頭包含退火到流細(xì)胞的區(qū)域,作為識(shí)別單個(gè)樣本的條形碼的index序列,以及用于橋接擴(kuò)增和DNA片段與index測(cè)序的引物結(jié)合位點(diǎn)。

條形碼

短而獨(dú)特的序列(通常為6-12bp),用于識(shí)別單個(gè)樣本。發(fā)生在接頭連接后緊接在基因組DNA片段附近的接頭末端。條形碼DNA片段測(cè)序之前被立即測(cè)序,因此條形碼序列將出現(xiàn)在序列讀取的開(kāi)始。

測(cè)序文庫(kù)

為下一代測(cè)序準(zhǔn)備的DNA。DNA必須有合適的長(zhǎng)度進(jìn)行測(cè)序,并且必須連接測(cè)序接頭。

黏性末端

(也被稱為DNA單鏈突出端)。被限制性內(nèi)切酶消化的DNA片段末端的單鏈DNA。一些限制性內(nèi)切酶產(chǎn)生平末端(雙鏈末端)而不是粘性末端。

IIB限制性內(nèi)切酶

在識(shí)別位點(diǎn)的兩邊都能切割DNA的限制性內(nèi)切酶。

池化

將多個(gè)單獨(dú)的樣本組合成只有一個(gè)唯一標(biāo)識(shí)符(例如,一個(gè)條形碼或index)的DNA文庫(kù)。

組合條碼

使用兩種不同條形碼的方法,通常是一個(gè)標(biāo)準(zhǔn)的Illumina index和一個(gè)內(nèi)置條形碼。這種方法可以減少必須購(gòu)買的接頭數(shù)量,從而降低文庫(kù)準(zhǔn)備成本。

Illuminaindex

一個(gè)獨(dú)特的整合到Illumina接頭中的6bp或8bp序列,可以作為一個(gè)條形碼來(lái)識(shí)別樣本個(gè)體。

單端測(cè)序

每個(gè)DNA片段只有一個(gè)末端的Illumina測(cè)序。

雙端測(cè)序

每個(gè)DNA片段有兩個(gè)末端的Illumina測(cè)序。

Contigs

能夠組裝成一個(gè)更長(zhǎng)序列的一組重疊序列讀取。

旁系同源基因

源于基因組內(nèi)復(fù)制的序列。

過(guò)濾

因?yàn)樾蛄匈|(zhì)量低、覆蓋深度低、可能是旁系同源基因和其他原因,從數(shù)據(jù)集中刪除掉不需要的序列讀取。

等位基因丟失

無(wú)法通過(guò)測(cè)序檢測(cè)樣品中存在的等位基因。

無(wú)效等位基因

樣本中存在的等位基因無(wú)法通過(guò)基因分型鑒定出來(lái)。無(wú)效等位基因的存在導(dǎo)致了等位基因的丟失。

連鎖不平衡

不同位點(diǎn)等位基因的非隨機(jī)組合。

滑動(dòng)窗口分析

在一個(gè)染色體段(窗口)內(nèi)計(jì)算匯總統(tǒng)計(jì)的分析,其中窗口是沿著每個(gè)染色體遞增的。


Box1 常用RADseq方法

在單個(gè)限制性酶切位點(diǎn)附近進(jìn)行片段測(cè)序的方法

最初的限制性位點(diǎn)相關(guān) DNA 測(cè)序(RADseq)4,66使用單個(gè)限制酶消化基因組 DNA,然后通過(guò)機(jī)械剪切將片段縮短到測(cè)序所需的合適長(zhǎng)度,這(與其他方法不同)在每個(gè)位點(diǎn)產(chǎn)生片段大小的差異。2bRAD67,68方法使用 IIB 型限制性內(nèi)切酶,切斷 DNA 識(shí)別位點(diǎn)的上游或下游,產(chǎn)生長(zhǎng)度均勻(33-36bp)的短片段。

在兩個(gè)限制性酶切位點(diǎn)附近進(jìn)行片段測(cè)序的方法

●?單酶,間接選擇大小。測(cè)序基因分型(GBS)6使用一種common切割酶, PCR 優(yōu)先擴(kuò)增短片段?;谛蛄械幕蚍中?SBG)69使用一個(gè)罕見(jiàn)的切割器和一個(gè)或兩個(gè)common切割酶,PCR 優(yōu)先擴(kuò)增短片段。

● 雙酶,間接選擇大小。簡(jiǎn)化多態(tài)序列復(fù)雜度測(cè)序(CRoPS)70使用兩種酶和一個(gè)專有的文庫(kù)準(zhǔn)備工具包(最初為 454 焦磷酸測(cè)序而開(kāi)發(fā))。

●?單酶,直接選擇大小。簡(jiǎn)化代表庫(kù)測(cè)序(RRLs)10,71很獨(dú)特,使用平末端common切割酶,隨后是大小選擇步驟和專有的 Illumina 庫(kù)準(zhǔn)備工具包。多路復(fù)用鳥(niǎo)槍基因分型(MSG)56使用一個(gè)common切割酶和大小選擇步驟。ezRAD16使用一種或多種common切割酶,以及專有的 Illumina 庫(kù)準(zhǔn)備工具包。

●?雙酶,直接選擇大小。雙消化RAD(ddRAD)17使用兩種限制性內(nèi)切酶,每種酶配有特定的接頭,并通過(guò)自動(dòng)凝膠切割選擇大小。

上述技術(shù)的變化包括使用甲基化敏感酶72;在現(xiàn)有的協(xié)議中添加更多的限制性酶以進(jìn)一步減少位點(diǎn)集69,73;添加第二次消化以消除接頭二聚體14;使 RADseq技術(shù)適用于其他測(cè)序平臺(tái),如Ion Torrent73-75;以及其他次要的技術(shù)改進(jìn)58,76。


BOX2 來(lái)自RADseq數(shù)據(jù)的生態(tài)學(xué)和進(jìn)化學(xué)見(jiàn)解

限制性位點(diǎn)相關(guān)DNA測(cè)序(RADseq)可以用來(lái)回答各種各樣的生態(tài)、進(jìn)化和保護(hù)相關(guān)的問(wèn)題。

適應(yīng)基因組學(xué)

通過(guò)對(duì)兩種蝴蝶(Heliconius melpomene

aglaope和Heliconius melpomene amaryllis (圖c部分))的RADseq數(shù)據(jù)進(jìn)行關(guān)聯(lián)映射分析(見(jiàn)圖a部分)和FST離群值測(cè)試(圖 b部分),發(fā)現(xiàn)顏色模式的選擇是維持蝴蝶雜交帶的最重要因素;這些分析表明,F(xiàn)ST異常主要發(fā)生在與顏色模式變化相關(guān)的基因組區(qū)域。在a部分中,關(guān)聯(lián)分?jǐn)?shù)根據(jù)c部分中描述的表型特征進(jìn)行著色,并且只顯示每種表型的前20個(gè)相關(guān)SNP。在b部分中,所有SNP的FST值都顯示出來(lái)了,顯著的異常值用紅色或橘色表示47。未映射的表示在Heliconius melpomene基因組裝配中沒(méi)有分配給染色體的scaffolds。許多其他的研究也使用了RADseq來(lái)識(shí)別其他研究系統(tǒng)中適應(yīng)的基因組結(jié)構(gòu)(例如,REFS 24,48,77)。

近交和基因多樣性

一項(xiàng)研究海豹雜合度適應(yīng)度相關(guān)性的研究發(fā)現(xiàn),使用14585個(gè)RADseq SNPs估計(jì)的全基因組雜合度與一個(gè)適配相關(guān)性狀的相關(guān)性比27個(gè)微衛(wèi)星位點(diǎn)估計(jì)的高出近5倍50。RADseq基因多樣性估計(jì)也被用來(lái)描述社會(huì)結(jié)構(gòu)對(duì)唐基恩獼猴常染色體和性染色體多樣性的影響78。

有效種群數(shù)量(Ne

使用RADseq生成的數(shù)千個(gè)SNP被用來(lái)估計(jì)北美西部的鮭魚和胡瓜魚的Ne79,80。

種群結(jié)構(gòu),系統(tǒng)地理學(xué)和保護(hù)單元

RADseq被用來(lái)開(kāi)發(fā)一個(gè)種群信息的SNP面板來(lái)監(jiān)測(cè)鮭魚的種群組成,并描繪出作為離散而非混合的進(jìn)行捕撈的種群?jiǎn)挝?9,81;也可參見(jiàn)REFS 82-84。

漸滲

Hohenlohe等人18使用RADseq識(shí)別了3180個(gè)在物種水平上具有診斷意義的SNP,并計(jì)算了一種本地鱒魚和一種入侵鱒魚的混合;也可參見(jiàn)REFS 85,86。

系統(tǒng)基因組學(xué)

RADseq數(shù)據(jù)生成了維多利亞湖鯛魚16個(gè)物種的高分辨率樹(shù),而之前使用擴(kuò)增片段長(zhǎng)度多態(tài)性(AFLP)、微衛(wèi)星或少量基于序列的標(biāo)記的分析未能解決這些物種的物種級(jí)關(guān)系87。



BOX3 池化(混合)

在限制位點(diǎn)相關(guān)DNA測(cè)序(RADseq)文庫(kù)準(zhǔn)備過(guò)程中,沒(méi)有單獨(dú)條形碼的樣本池可以以較低的成本估計(jì)群體等位基因頻率63,88,89。但是,對(duì)于混合測(cè)序,有幾個(gè)錯(cuò)誤源是唯一的或被放大的。樣本個(gè)體的DNA的不均等表達(dá)可能導(dǎo)致不準(zhǔn)確的等位基因頻率估計(jì)90,91,這一問(wèn)題因PCR重復(fù)而加劇89。此外,對(duì)于混合的數(shù)據(jù),等位基因缺失、旁系同源基因、映射錯(cuò)誤和隱藏的種群結(jié)構(gòu)的識(shí)別更加難以實(shí)現(xiàn),甚至是不可能63,89。同樣,對(duì)于混合的數(shù)據(jù),區(qū)分測(cè)序錯(cuò)誤和低頻等位基因也比較困難。

通過(guò)使用較大的池樣本大小和覆蓋深度,以及去除PCR重復(fù),可以大大減少混合測(cè)序文庫(kù)中樣本個(gè)體不均等表達(dá)所造成的錯(cuò)誤89,92,93。通過(guò)使用減少PCR循環(huán)周期,可以減少PCR重復(fù)的發(fā)生,這對(duì)于有大量起始基因組DNA的混合測(cè)序是可行的。為每個(gè)種群生成和比較復(fù)制池的序列數(shù)據(jù)也有助于識(shí)別和糾正樣本個(gè)體的不均等表達(dá)89。盡管如此,這并不能減少等位基因缺失或旁系同源基因識(shí)別的問(wèn)題。

研究人員還應(yīng)該意識(shí)到可以對(duì)混合序列數(shù)據(jù)進(jìn)行分析的限制。在這種類型的數(shù)據(jù)中,需要個(gè)體基因型的分析,如分配測(cè)試(使用STRUCTURE進(jìn)行貝葉斯聚類分析94)、相關(guān)性分析或近交系數(shù)估計(jì)等,都是不可行的。一些推斷種群歷史或檢測(cè)選擇的方法依賴于對(duì)連鎖不平衡的準(zhǔn)確估計(jì)95,96。盡管使用個(gè)體帶條形碼的RADseq數(shù)據(jù)產(chǎn)生的通常上是無(wú)相位的數(shù)據(jù)來(lái)估計(jì)連鎖不平衡的能力有限,但使用混合數(shù)據(jù)卻是完全不可能的。更重要的是,池化假設(shè)池中的所有樣本都來(lái)自同一個(gè)良好混合的種群,如果多個(gè)組在池中不知情地被合并,則隱藏的種群結(jié)構(gòu)將變得模糊。


BOX4 RADseq的替代選擇

限制性位點(diǎn)相關(guān) DNA 測(cè)序(RADseq)的兩個(gè)主要替代方法是轉(zhuǎn)錄組測(cè)序(RNA-seq)和靶向(基于探針)捕獲。

轉(zhuǎn)錄組測(cè)序(RNA-seq

RNA-seq序列利用RNA轉(zhuǎn)錄出基因組的各個(gè)區(qū)域,以此作為文庫(kù)制備的起始點(diǎn)。

優(yōu)勢(shì)。在幾乎所有基因組資源有限或者沒(méi)有的物種中,RNA-seq都可以用來(lái)快速測(cè)序數(shù)千個(gè)功能基因組區(qū)域97。大多數(shù)轉(zhuǎn)錄本可以根據(jù)現(xiàn)有的基因組數(shù)據(jù)庫(kù)進(jìn)行注釋98,這與匿名的RADseq位點(diǎn)相比,提供了更強(qiáng)大的功能背景。

劣勢(shì)。RNA-seq提供了有限的機(jī)會(huì)來(lái)根據(jù)問(wèn)題或?qū)嶒?yàn)設(shè)計(jì)動(dòng)態(tài)地展開(kāi)測(cè)序工作。個(gè)體轉(zhuǎn)錄本在相對(duì)豐度上可能有數(shù)量級(jí)上的差異,這使基因分型復(fù)雜化,增加了測(cè)序成本。功能注釋可能局限于數(shù)據(jù)庫(kù)表達(dá)較差的分類類群。RNA-seq需要高質(zhì)量的樣本,這限制了它在許多研究中的可行性。

靶向(基于探針)捕獲

靶向(基于探針)捕獲測(cè)序使用DNA探針?lè)蛛x感興趣的區(qū)域預(yù)先選擇基因組區(qū)域。

優(yōu)勢(shì)。靶向捕獲是高度可擴(kuò)展的,可以對(duì)單個(gè)位點(diǎn)101或成千上萬(wàn)個(gè)位點(diǎn)102,103進(jìn)行排序。技術(shù)性能通常非常高104,跨區(qū)域和跨個(gè)體的測(cè)序覆蓋率差異很小35,41,105。捕獲技術(shù)可以應(yīng)用于從中等到深度的進(jìn)化時(shí)間尺度106-108,也可以應(yīng)用于降解的DNA樣本,這使得它在系統(tǒng)發(fā)育33,109,110和古代DNA研究111-116中很受歡迎。

劣勢(shì)。捕獲的主要限制在于用于設(shè)計(jì)探針的基因組資源的可用性,以及與RADseq或RNA-seq相比通常更高的成本60。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容