存檔。

Andrews K R, Good J M, Miller M R, et al. Harnessing the power of RADseq for ecological and evolutionary genomics. Nature Reviews Genetics, 2016, 17(2): 81.

Harnessing the power of RADseq for ecological and evolutionary genomics

利用RADseq的力量進(jìn)行生態(tài)和進(jìn)化基因組學(xué)研究

Abstract?

????????基于限制性位點(diǎn)相關(guān) DNA 測(cè)序(RADseq)的高通量技術(shù)使得對(duì)包括非模式生物在內(nèi)的任何物種的成千上萬(wàn)個(gè)基因標(biāo)記的低成本發(fā)現(xiàn)和基因分型成為可能，這徹底改變了生態(tài)、進(jìn)化和保護(hù)遺傳學(xué)。這些方法之間的技術(shù)差異導(dǎo)致了對(duì)基因組學(xué)研究所有步驟的重要考慮，從可以解決的具體科學(xué)問(wèn)題，以及文庫(kù)準(zhǔn)備和測(cè)序的成本，到結(jié)果數(shù)據(jù)中固有的偏差和錯(cuò)誤的類型。在這篇綜述中，我們對(duì) RADseq 方法進(jìn)行了全面的討論，以幫助研究人員在眾多不同的方法中進(jìn)行選擇，避免從RADseq數(shù)據(jù)中得出錯(cuò)誤的科學(xué)結(jié)論，這個(gè)問(wèn)題在過(guò)去一直困擾著其他遺傳標(biāo)記類型。

????????限制性位點(diǎn)相關(guān)DNA測(cè)序(RADseq)的發(fā)展被認(rèn)為是過(guò)去十年最重要的科學(xué)突破之一1。RADseq通過(guò)利用下一代測(cè)序（NGS）的巨大通量，在一個(gè)簡(jiǎn)單而經(jīng)濟(jì)的實(shí)驗(yàn)中發(fā)現(xiàn)基因組中成百上千的多態(tài)遺傳標(biāo)記，從而推動(dòng)了生態(tài)、進(jìn)化和保護(hù)基因組學(xué)的研究2,3。與其他簡(jiǎn)化基因組測(cè)序方法類似，RADseq以基因組的一個(gè)子集為目標(biāo)，因此提供了比全基因組測(cè)序更多的優(yōu)勢(shì)，比如每個(gè)基因座的覆蓋深度更大(從而提高了對(duì)基因型調(diào)用的信度)，以及在給定的預(yù)算下對(duì)更高數(shù)量的樣本進(jìn)行測(cè)序。此外，與其他許多獲得全基因組數(shù)據(jù)的方法不同，RADseq不需要任何正在研究的分類單元的基因組信息。因此，在非模式生物的生態(tài)學(xué)和進(jìn)化研究中，RADseq已成為最廣泛使用的高通量單核苷酸多態(tài)性(SNP)發(fā)現(xiàn)和基因分型的基因組方法。

????????術(shù)語(yǔ)RADseq最初用來(lái)描述一種特定的方法4，但后來(lái)被用來(lái)指一系列相關(guān)的技術(shù)，這些技術(shù)依靠限制性內(nèi)切酶來(lái)確定要測(cè)序的位點(diǎn)集（BOX 1：補(bǔ)充材料S1（圖））。這些方法有時(shí)也被歸類為基因分型測(cè)序(GBS)技術(shù)5。與RADseq一樣，術(shù)語(yǔ)GBS最初用于描述一種特定的方法；然而，這個(gè)術(shù)語(yǔ)的描述性不如RADseq，后者抓住了這些方法的定義特征，即使用限制性內(nèi)切酶在全基因組的一組位點(diǎn)上獲得DNA序列。限制性內(nèi)切酶長(zhǎng)期以來(lái)一直被用于對(duì)整個(gè)基因組的位點(diǎn)進(jìn)行取樣，并產(chǎn)生關(guān)于群體水平變異的信息7,8，包括對(duì)人類基因變異的全基因組調(diào)查9。以前的這些技術(shù)側(cè)重于限制性切割位點(diǎn)內(nèi)的多態(tài)性或使用Sanger測(cè)序，而RADseq使用下一代測(cè)序來(lái)生成大量限制性切割位點(diǎn)附近的序列數(shù)據(jù)4,10,11。RADseq位點(diǎn)可以出現(xiàn)在基因組的所有區(qū)域(包括編碼區(qū)和非編碼區(qū))，而且由于切割位點(diǎn)的保守性，在親緣關(guān)系較近的物種內(nèi)或物種之間的個(gè)體通常共享大多數(shù)位點(diǎn)12。

????????在過(guò)去的幾年里，許多RADseq變異的發(fā)展有望提高靈活性(例如，在位點(diǎn)分析的數(shù)量上)，同時(shí)減少生態(tài)學(xué)和進(jìn)化基因組學(xué)研究的財(cái)力和物力。然而，方法上的差異可以深刻地影響基因組研究的所有步驟，從研究設(shè)計(jì)和執(zhí)行，到結(jié)果數(shù)據(jù)輸出。所有的RADseq方法都能廣泛適用于各種分類單元和科學(xué)問(wèn)題（BOX 2）。盡管如此，部分技術(shù)已經(jīng)在某些系統(tǒng)中被更廣泛地使用，這通常是由于歷史偶發(fā)事件，而不是因?yàn)椴煌锓N不同方法間的相對(duì)適宜性(例如，簡(jiǎn)化多態(tài)序列復(fù)雜度測(cè)序(CRoPS)，GBS和簡(jiǎn)化代表庫(kù)測(cè)序(RRLs)主要用于農(nóng)業(yè)物種13)。

????????在這篇綜述中，我們主要關(guān)注RADseq在自然種群的生態(tài)學(xué)和進(jìn)化遺傳學(xué)中的應(yīng)用(BOX2)；然而，我們的許多討論也與RADseq的其他應(yīng)用有關(guān)，例如農(nóng)業(yè)物種的性狀繪圖13。我們對(duì)已經(jīng)開(kāi)發(fā)的各種 RADseq技術(shù)進(jìn)行了概述，并強(qiáng)調(diào)了這些強(qiáng)大的方法可以幫助回答的一些研究問(wèn)題。我們還討論了許多不同方法之間的技術(shù)差異如何導(dǎo)致實(shí)驗(yàn)設(shè)計(jì)和分析中的權(quán)衡，并描述了設(shè)計(jì) RADseq 研究的一般考慮事項(xiàng)。

RADseq方法

????????RADseq 技術(shù)都共享幾個(gè)基本步驟(圖1)。所有的方法都是從相對(duì)高分子量的基因組 DNA開(kāi)始14，然后用一種或多種限制性內(nèi)切酶消化。所有的方法都添加特定的測(cè)序接頭，或雙鏈寡核苷酸，這是所有下一代測(cè)序平臺(tái)都需要的。在 RADseq 協(xié)議中添加的接頭可能包含條形碼，用于識(shí)別在單個(gè)文庫(kù)中一起測(cè)序(多路復(fù)用)的樣本個(gè)體。根據(jù)酶或使用過(guò)的酶，RADseq 協(xié)議還減少和/或選擇最適合下一代測(cè)序的 DNA 片段大小。

????????RADseq方法在酶消化、接頭連接、條形碼和大小選擇的順序和細(xì)節(jié)上有所不同，在每個(gè)位點(diǎn)可以產(chǎn)生的序列數(shù)據(jù)的類型也不同。這些差異可用于將技術(shù)分類為主要組(BOX 1)。下面，我們將討論在每個(gè)步驟中不同方法的重要差異，以及對(duì)文庫(kù)準(zhǔn)備、結(jié)果數(shù)據(jù)和隨后的生物信息學(xué)分析的一些后果。

圖1 對(duì)五種RADseq文庫(kù)準(zhǔn)備協(xié)議的逐步說(shuō)明。所有的實(shí)驗(yàn)方案都是從用一種或多種限制性內(nèi)切酶消化高分子量基因組DNA開(kāi)始的。對(duì)于大多數(shù)實(shí)驗(yàn)方案，測(cè)序接頭(寡核苷酸)在兩個(gè)階段添加，在實(shí)驗(yàn)早期的連接步驟中添加第一組寡核苷酸，在最后的PCR步驟中添加第二組寡核苷酸。第二組寡核苷酸延長(zhǎng)了總片段的長(zhǎng)度，生成了整個(gè)Illumina接頭序列。相比之下，原先的RADseq分三個(gè)階段添加接頭。對(duì)于Illumina測(cè)序，在每個(gè)DNA片段的兩端接頭必須是不同的，因此一些實(shí)驗(yàn)方案(例如，原始RADseq、雙消化RAD (ddRAD)和ezRAD)使用Y型接頭，從結(jié)構(gòu)上確保只有兩端是不同接頭的片段才會(huì)被PCR擴(kuò)增（這里用Y型接頭說(shuō)明）。其他實(shí)驗(yàn)方案(例如，通過(guò)測(cè)序進(jìn)行基因分型(GBS))僅僅依賴于這樣一個(gè)事實(shí)，即沒(méi)有正確接頭的片段將不會(huì)被測(cè)序。為了生成測(cè)序理想長(zhǎng)度的片段，大多數(shù)方法使用common-cutter酶(例如，4-6 bp剪切)來(lái)生成一個(gè)廣泛的片段大小，然后直接選擇大小(例如，凝膠切割或磁珠，如ezRAD和ddRAD)或間接大小選擇(PCR擴(kuò)增和測(cè)序效率的結(jié)果，如GBS)。

開(kāi)始基因組DNA。

????????RADseq技術(shù)基于高分子量基因組DNA為起始材料進(jìn)行優(yōu)化，因此這些技術(shù)在高度降解的基因組DNA上表現(xiàn)不佳14。例如，在沒(méi)有特異性酶接頭的方法中(例如ezRAD和CRoPS)，不靠近切割位點(diǎn)的起始基因組DNA的小片段可能最終會(huì)進(jìn)入測(cè)序文庫(kù)，從而在非RAD位點(diǎn)上浪費(fèi)測(cè)序工作。原始的RADseq技術(shù)4也比其他方法需要更高分子量的DNA，因?yàn)闄C(jī)械剪切步驟對(duì)于酶消化后留下的相對(duì)較大的片段是最為一致和有效的(下面將討論)。

????????一般來(lái)說(shuō)，更多的起始DNA通常是有益的，因?yàn)樗梢詼p少所需的PCR周期的數(shù)量，從而最小化PCR重復(fù)的問(wèn)題(下面討論)。一些最初描述協(xié)議的文獻(xiàn)建議相當(dāng)大量的DNA(對(duì)于原始RADseq每個(gè)樣本最多達(dá)1 ug15，對(duì)于RRLs則是5.5 ug10)；然而，大多數(shù)RADseq方法在每個(gè)樣本所需的DNA總量上都有一定的靈活性，并且通常只需要50-100 ng的DNA就可以實(shí)現(xiàn)。有一個(gè)例外是PCR-free文庫(kù)制備方法的使用，它需要大量的起始DNA (例如,1 – 2 ug DNA)，正如ezRAD的一種實(shí)現(xiàn)16。

限制性內(nèi)切酶消化。

????????RADseq協(xié)議使用的限制性內(nèi)切酶的數(shù)量和這些酶切割基因組的頻率是不同的，common cutters被定義為比rare cutters切割更頻繁的限制性內(nèi)切酶，通常是由酶切識(shí)別序列(切割位點(diǎn))的長(zhǎng)度決定的。根據(jù)測(cè)序位點(diǎn)與酶切位點(diǎn)在基因組中的分布的關(guān)系，技術(shù)也分為兩大類。原始的RADseq協(xié)議和2bRAD旨在所有的酶切位點(diǎn)產(chǎn)生序列數(shù)據(jù)。相比之下，所有其他技術(shù)都依賴于基因組片段的測(cè)序，這些片段由兩個(gè)酶切位點(diǎn)按照指定的基因組距離(通常為300-600 bp，距離由直接或間接的大小選擇決定；見(jiàn)下文)分離產(chǎn)生的。這些酶切位點(diǎn)可能來(lái)自相同的酶，也可能來(lái)自不同的酶，這取決于使用的是一種酶還是兩種酶(BOX 1)。對(duì)于每種方法，均可使用common cutters或rare cutters來(lái)調(diào)整產(chǎn)生的位點(diǎn)數(shù)量。例如，對(duì)于原始的RADseq協(xié)議，一個(gè)非常粗略的估計(jì)是，8-cutter每48= 65,536 bp進(jìn)行切割，而6-cutter每46= 4,096 bp進(jìn)行切割；這種計(jì)算可以根據(jù)識(shí)別序列和研究的基因組的GC含量進(jìn)行調(diào)整。

接頭連接。

????????RADseq技術(shù)間的不同之處在于接頭是如何構(gòu)建和連接到DNA片段的，以及它們是如何設(shè)計(jì)來(lái)確保只對(duì)目標(biāo)基因組DNA片段(即那些與限制性酶切位點(diǎn)相鄰的片段)進(jìn)行測(cè)序的。在某些情況下，接頭被設(shè)計(jì)成僅與特征性的單鏈粘性末端連接，該末端在消化后仍保留在限制性切割位點(diǎn)。許多基于Illumina測(cè)序的RADseq協(xié)議也使用Y型接頭，其結(jié)構(gòu)確保只有測(cè)序所需的結(jié)合接頭的片段被PCR擴(kuò)增(圖1)。有些技術(shù)采用專有的文庫(kù)準(zhǔn)備包進(jìn)行接頭連接(例如ezRAD、CRoPS和RRLs)，這可能會(huì)增加文庫(kù)構(gòu)建的可靠性和試劑成本。使用專用試劑盒的接頭也會(huì)導(dǎo)致連接的特異性降低，因?yàn)檫@些接頭不會(huì)連接到粘性末端，所以序列數(shù)據(jù)可以從不鄰近限制性切割位點(diǎn)的降解DNA片段生成16。

大小選擇。

????????對(duì)于大多數(shù)協(xié)議，限制性內(nèi)切酶將基因組DNA剪切到一個(gè)廣泛的片段長(zhǎng)度范圍，然后使用一個(gè)大小選擇步驟來(lái)分離出理想長(zhǎng)度的片段進(jìn)行測(cè)序。這種方法導(dǎo)致了RADseq協(xié)議之間的關(guān)鍵區(qū)別（BOX 1）：對(duì)于所有被兩個(gè)切割位點(diǎn)包圍的DNA片段進(jìn)行測(cè)序的方法來(lái)說(shuō)，大小選擇步驟進(jìn)一步減少了要進(jìn)行基因分型的位點(diǎn)數(shù)量，因?yàn)槊總€(gè)潛在的位點(diǎn)都有一個(gè)特征性的片段大小，該大小由切割位點(diǎn)之間的距離決定。在這些技術(shù)中，大小選擇可以是間接完成的，如作為 PCR 擴(kuò)增或測(cè)序效率的結(jié)果 (例如GBS和CRoPS) ，或者是直接完成的，使用手工或自動(dòng)凝膠切割技術(shù)或磁珠(例如 RRLs、多重鳥(niǎo)槍槍基因分型 (MSG)、ezRAD 和雙消化RAD(ddRAD))。對(duì)于這些方法，跨文庫(kù)大小選擇的一致性對(duì)于產(chǎn)生跨樣本的可比對(duì)位點(diǎn)的數(shù)據(jù)至關(guān)重要；不一致會(huì)導(dǎo)致不同的文庫(kù)出現(xiàn)不同的位點(diǎn)，導(dǎo)致測(cè)序工作的浪費(fèi)和高水平的基因型缺失。

????????相比之下，原始RADseq協(xié)議和2bRAD并沒(méi)有使用大小選擇步驟來(lái)減少要測(cè)序的位點(diǎn)集；相反，所有與限制性切割位點(diǎn)相鄰的位點(diǎn)都是這兩種方法的目標(biāo)。原始RADseq方法在單一酶切后使用機(jī)械剪切步驟來(lái)產(chǎn)生適合Illumina測(cè)序的片段。這種方法意味著每個(gè)測(cè)序片段都在一端有酶切位點(diǎn)，在另一端有隨機(jī)剪切位點(diǎn)，并且在每個(gè)位點(diǎn)產(chǎn)生一系列的片段大小。因此，大小選擇步驟并沒(méi)有進(jìn)一步減少位點(diǎn)集，只是被用來(lái)優(yōu)化Illumina測(cè)序效率和去除接頭二聚體。2bRAD方法在RADseq協(xié)議中是獨(dú)一無(wú)二的，因?yàn)樗褂肐IB限制性內(nèi)切酶來(lái)產(chǎn)生在所有位點(diǎn)都大小相同的短片段（33-36bp）。

條形碼。

????????內(nèi)置于接頭中的條形碼的使用，可以在某些協(xié)議進(jìn)行文庫(kù)準(zhǔn)備的早期對(duì)樣本個(gè)體進(jìn)行多路復(fù)用；這種多路復(fù)用有時(shí)被稱為池化，但不應(yīng)與將個(gè)體混合成一個(gè)條形碼相混淆（BOX 3）。在文庫(kù)準(zhǔn)備過(guò)程中，只要將帶有條形碼的接頭連接到每個(gè)樣本上，就可以對(duì)樣本進(jìn)行多路復(fù)用，這可以極大地減少大量樣本研究中后續(xù)步驟的時(shí)間和費(fèi)用。在文庫(kù)制備的早期，樣本的多路復(fù)用需要內(nèi)置條形碼的使用。專有工具包里的接頭沒(méi)有內(nèi)置條形碼，因此為了內(nèi)置條形碼需要定制接頭。許多技術(shù)也可用于組合條形碼，在這個(gè)方法中，每個(gè)樣本的DNA片段由兩個(gè)不同的識(shí)別符的獨(dú)特組合進(jìn)行識(shí)別，通常是一個(gè)內(nèi)置條形碼和一個(gè)Illumina index（6-8bp，位于接頭中間附近），在PCR階段被添加到DNA片段的另一端（例如Peterson等人所用的方法17）。另一種可供選擇的組合條形碼策略是使用兩個(gè)Illumina index，分別位于 DNA片段的兩端。但是，這種策略不允許在文庫(kù)準(zhǔn)備的早期對(duì)樣本進(jìn)行多路復(fù)用。另一種替代方法是在DNA片段的兩端都使用內(nèi)置條形碼；但是，所有的Illumina庫(kù)都至少有一個(gè)index，這意味著這種方法會(huì)在冗余的內(nèi)置條形碼上浪費(fèi)測(cè)序工作。組合條形碼減少了區(qū)分樣本個(gè)體所需的接頭總數(shù)，例如，一組24個(gè)帶條形碼的接頭和16個(gè)index可以在一個(gè)測(cè)序通道中唯一地識(shí)別384個(gè)樣本。

測(cè)序數(shù)據(jù)類型。

????????目前大多數(shù)RADseq技術(shù)都使用Illumina測(cè)序技術(shù)。Illumina公司機(jī)器提供一系列的序列讀取長(zhǎng)度(目前是50-300個(gè)bp，在未來(lái)可能進(jìn)一步增加)，也可以選擇單端測(cè)序，產(chǎn)生一個(gè)向前讀的DNA片段，或雙端測(cè)序，產(chǎn)生一個(gè)向前讀和一個(gè)反向讀取的片段。這些選項(xiàng)可以應(yīng)用于所有RADseq庫(kù)，盡管雙端測(cè)序?qū)?bRAD沒(méi)有好處，因?yàn)?bRAD生成非常短的片段(33-36 bp)。對(duì)于所有其他方法，向前讀取是從限制性內(nèi)切酶切位點(diǎn)開(kāi)始，較長(zhǎng)的讀取通常捕獲更多的基因組序列。對(duì)于所有被兩個(gè)酶切位點(diǎn)進(jìn)行目標(biāo)位點(diǎn)切割的方法，反向讀取從第二個(gè)切割位點(diǎn)開(kāi)始，因此這些讀取將在基因組中每個(gè)位點(diǎn)的相同位置排列。

????????相比之下，使用原始RADseq協(xié)議的雙端測(cè)序會(huì)產(chǎn)生非常不同的數(shù)據(jù)類型。向前的讀取從酶切位點(diǎn)開(kāi)始，反向的讀取從隨機(jī)剪切端開(kāi)始，一般在400 - 700 bp處。因此，任何給定位點(diǎn)的反向讀取序列的長(zhǎng)度都是交錯(cuò)的18，這些數(shù)據(jù)可以用來(lái)組裝長(zhǎng)contigs。例如，如果文庫(kù)片段被裁剪成1kb，那么這些contigs可能長(zhǎng)達(dá)1 kb15,19。這些RAD contigs提高了旁系同源基因的識(shí)別20，為具有重要功能的基因位點(diǎn)的BLAST 搜索提供了更多的序列18，并為系統(tǒng)發(fā)育分析提供了單倍型數(shù)據(jù)。較長(zhǎng)的contig序列也可以在進(jìn)一步研究中對(duì)感興趣的目標(biāo)位點(diǎn)設(shè)計(jì)PCR引物或序列捕獲探針21,22。

????????對(duì)于所有的方法，雙末端測(cè)序產(chǎn)生的讀取對(duì)可以根據(jù)讀取長(zhǎng)度和片段大小范圍進(jìn)行重疊，因此，如果片段長(zhǎng)度小于200-300bp(例如一些使用GBS單個(gè)common cutter酶產(chǎn)生的片段)，增加讀取長(zhǎng)度或使用雙末端測(cè)序可能無(wú)法獲得任何基因組序列信息。然而，重疊的讀取對(duì)可以用來(lái)提高讀取末端附近基因分型的準(zhǔn)確性，而這讀取末端往往有更高的測(cè)序錯(cuò)誤率23。

生物信息學(xué)分析。

????????對(duì)于所有使用RADseq方法生成的數(shù)據(jù)，測(cè)序后分析通常共享幾個(gè)基本步驟。初始分析包括解復(fù)用和條形碼的修整(如果存在)，根據(jù)預(yù)期的限制性內(nèi)切酶切割位點(diǎn)和序列質(zhì)量來(lái)過(guò)濾讀取，如果讀取質(zhì)量在接近讀取結(jié)束時(shí)下降，則可能進(jìn)行修整。對(duì)于某些RADseq方法，可以在初始分析時(shí)去除PCR重復(fù)，以提高下游基因分型的準(zhǔn)確性(見(jiàn)下文)。如果有參考基因組，那么可以通過(guò)對(duì)該參考基因組的序列比對(duì)來(lái)確定位點(diǎn)?；蛘?，可以通過(guò)將相似的序列讀取聚類在一起來(lái)從頭組裝位點(diǎn)，并假設(shè)一個(gè)位點(diǎn)上讀取之間的差異要么是測(cè)序錯(cuò)誤，要么是等位基因變異。發(fā)現(xiàn)位點(diǎn)后，利用原始RADseq得到的雙端數(shù)據(jù)可以生成長(zhǎng) contigs(見(jiàn)上文)。可采用最大似然或貝葉斯方法進(jìn)行基因分型；與貝葉斯方法相比，最大似然方法可能需要更高的覆蓋深度，特別是當(dāng)貝葉斯方法利用群體水平的等位基因頻率來(lái)設(shè)置基因型的先驗(yàn)概率時(shí)。

????????有幾個(gè)專門為分析RADseq數(shù)據(jù)設(shè)計(jì)的程序可用(例如，Stacks27、pyRAD28和UNEAK29，以及其他公開(kāi)可用的腳本和管道)。STACKS包含許多靈活的模塊來(lái)進(jìn)行所有部分的分析，從質(zhì)量過(guò)濾和位點(diǎn)識(shí)別(無(wú)論有無(wú)參考基因組)到基因分型和計(jì)算群體遺傳統(tǒng)計(jì)。pyRAD是專為系統(tǒng)發(fā)育應(yīng)用設(shè)計(jì)的，它能進(jìn)行質(zhì)量篩選和從頭位點(diǎn)識(shí)別和基因分型，它的優(yōu)勢(shì)是可以處理等位基因間的插入缺失變異，因此可能更適合研究更大尺度的分類群。UNEAK是TASSEL管道的一部分，用于與GBS數(shù)據(jù)進(jìn)行關(guān)聯(lián)映射30，并使用基于網(wǎng)絡(luò)的SNP檢測(cè)算法，但在某些方面，如修整讀取和從頭位點(diǎn)識(shí)別參數(shù)設(shè)置，它的靈活性比其他軟件稍差。RADseq數(shù)據(jù)還可以使用更多的遺傳軟件工具進(jìn)行分析，用于質(zhì)量過(guò)濾、比對(duì)到參考基因組和基因分型。

????????在基因分型之后，通常建議進(jìn)一步過(guò)濾，以剔除缺失數(shù)據(jù)比例較大的位點(diǎn)和/或樣本個(gè)體。在這個(gè)階段，過(guò)濾的適當(dāng)水平取決于研究目標(biāo)和隨后要進(jìn)行的分析，因?yàn)檫@些目標(biāo)和分析對(duì)缺失數(shù)據(jù)的敏感性不同，個(gè)體和位點(diǎn)的樣本量也不同。最近的一些出版物已經(jīng)強(qiáng)調(diào)了RADseq數(shù)據(jù)分析的細(xì)節(jié)是如何對(duì)分析結(jié)果產(chǎn)生重大影響的，特別是用于從頭位點(diǎn)識(shí)別的參數(shù)31-33。其中一些工作為如何將生物信息學(xué)工具應(yīng)用于RADseq數(shù)據(jù)提供了明確的建議?？偟膩?lái)說(shuō)，從質(zhì)量過(guò)濾到位點(diǎn)識(shí)別和基因分型，研究人員在分析的所有步驟中使用不同的參數(shù)是至關(guān)重要的，這能使他們批判性地評(píng)估結(jié)果的敏感性，并根據(jù)研究目標(biāo)優(yōu)化分析。

錯(cuò)誤和偏差的來(lái)源

????????RADseq方法與所有下一代測(cè)序方法共享一些測(cè)序和基因分型錯(cuò)誤的來(lái)源34。此外，在RADseq方法中有幾個(gè)獨(dú)特的潛在錯(cuò)誤和偏差來(lái)源，其影響可能因文庫(kù)準(zhǔn)備協(xié)議和統(tǒng)計(jì)分析的不同而不同。

等位基因丟失和無(wú)效等位基因。

????????當(dāng)一種多態(tài)性發(fā)生在限制性內(nèi)切酶識(shí)別位點(diǎn)時(shí)，RADseq中就會(huì)出現(xiàn)等位基因丟失，導(dǎo)致無(wú)法在該位點(diǎn)切割基因組DNA。缺少完整識(shí)別位點(diǎn)的等位基因?qū)⒉粫?huì)被測(cè)序，因此是無(wú)效等位基因。如果一個(gè) SNP 出現(xiàn)在一個(gè)無(wú)效等位基因中，未能對(duì)該等位基因進(jìn)行測(cè)序可能會(huì)導(dǎo)致基因分型錯(cuò)誤，個(gè)體雜合的無(wú)效等位基因看上去就是純合子。缺乏限制切割位點(diǎn)也可能導(dǎo)致鄰近切割位點(diǎn)等位基因丟失，因?yàn)閷?duì)于使用大小選擇步驟減少位點(diǎn)集的方法來(lái)說(shuō)，消化后片段長(zhǎng)度可能落在選定的大小范圍之外 ( 圖 2a) 。

????????等位基因丟失的頻率隨著限制酶識(shí)別位點(diǎn)的累積長(zhǎng)度的增加而增加，這是由于較長(zhǎng)序列中突變的概率增加了35。模擬研究還表明，在研究系統(tǒng)中，等位基因丟失隨著多態(tài)性總體水平的增加而增加，并且對(duì)ddRAD 產(chǎn)生的數(shù)據(jù)的影響大于對(duì)原始RADseq 產(chǎn)生的數(shù)據(jù)的影響，因?yàn)槲稽c(diǎn)取決于兩個(gè)切割點(diǎn)的存在，而不是一個(gè)切割點(diǎn)35,36。

????????由等位基因缺失引起的基因分型錯(cuò)誤會(huì)使群體遺傳統(tǒng)計(jì)產(chǎn)生偏差，包括對(duì)基因多樣性的低估、對(duì)FST的高估，并會(huì)隨著FST離群試驗(yàn)中假陽(yáng)性和假陰性的增加而增加35,36。然而，有證據(jù)表明，除非有效種群規(guī)模很大（Ne＞105），否則這些偏差的影響可能是有限的35。通過(guò)從數(shù)據(jù)集中刪除帶有無(wú)效等位基因的位點(diǎn)，可以在很大程度上補(bǔ)償FST偏差。從理論上講，帶有無(wú)效等位基因的位點(diǎn)應(yīng)該可以通過(guò)樣本個(gè)體的覆蓋深度差異來(lái)識(shí)別，因?yàn)橐恍﹤€(gè)體在該位點(diǎn)上缺少一個(gè)或兩個(gè)拷貝。然而，許多其他因素也會(huì)導(dǎo)致覆蓋深度的差異(見(jiàn)下文)，所以這并不總是一個(gè)可靠的無(wú)效等位基因指標(biāo)。盡管如此，許多標(biāo)準(zhǔn)的過(guò)濾方法將刪除那些高無(wú)效等位基因的位點(diǎn)，這些方法只保留那些在最低比例的樣本個(gè)體中成功進(jìn)行基因分型的位點(diǎn)。雖然刪除帶有無(wú)效等位基因的位點(diǎn)應(yīng)該可以主要補(bǔ)償偏差的FST估計(jì)，但它可能對(duì)多樣性估計(jì)的偏差補(bǔ)償作用不大。帶有無(wú)效等位基因的位點(diǎn)被預(yù)測(cè)會(huì)更頻繁地出現(xiàn)在突變率更高和/或長(zhǎng)期遺傳多樣性水平更高的基因組區(qū)域，因此，如果數(shù)據(jù)集中沒(méi)有這些位點(diǎn)，將會(huì)導(dǎo)致對(duì)整體基因組多樣性的系統(tǒng)低估36。

圖2?RADseq數(shù)據(jù)中錯(cuò)誤和偏差的來(lái)源。a|?使用大小選擇步驟減少要測(cè)序的位點(diǎn)數(shù)量的RADseq協(xié)議等位基因缺失的一個(gè)例子?；揖€表示一個(gè)個(gè)體內(nèi)的染色體，紅色方框表示限制性切割位點(diǎn)，彩色方框表示雜合SNPs，方括號(hào)表示測(cè)序的基因組區(qū)域。單倍體1切割位點(diǎn)B的突變使包含SNP的消化后片段在單倍體1的大小選擇中太長(zhǎng)而無(wú)法保留，從而消除了該片段上任何位點(diǎn)測(cè)序的可能性，導(dǎo)致個(gè)體在雜合SNP上出現(xiàn)純合。b| 不同RADseq方案的雜合位點(diǎn)進(jìn)行PCR后產(chǎn)生片段的例子，其中生物信息學(xué)分析后保留了讀取。PCR重復(fù)與來(lái)自原始模板DNA的父片段具有相同的符號(hào)(圓形、方形、星號(hào)或三角形)。在 PCR 過(guò)程中，一些等位基因可能比其他等位基因擴(kuò)增得更多。對(duì)于所有的方案，PCR重復(fù)將在序列組成和長(zhǎng)度上與原始模板分子保持一致。對(duì)于原始 RADseq，這個(gè)特征(即相同的長(zhǎng)度)可以用于生物信息學(xué)上識(shí)別和刪除 PCR 重復(fù)，因?yàn)榻o定位點(diǎn)上原始模板分子的長(zhǎng)度是不相同的。對(duì)于其他RADseq 方法，這一特征不能用于鑒定 PCR 重復(fù)，因?yàn)榻o定位點(diǎn)上所有的原始模板分子的長(zhǎng)度是相同的。PCR重復(fù)的高頻率會(huì)導(dǎo)致雜合子以純合子的形式出現(xiàn)，或?qū)е翽CR錯(cuò)誤表現(xiàn)成真正的多樣性。B部分是經(jīng)過(guò)參考文獻(xiàn)37的批準(zhǔn)改編。

PCR重復(fù)和基因分型錯(cuò)誤。

????????大多數(shù)下一代測(cè)序文庫(kù)制備方案都有一個(gè)PCR步驟，在此步驟中將從原始基因組DNA片段(稱為父片段)生成克隆DNA片段(稱為PCR重復(fù))37,38。在PCR過(guò)程中，隨機(jī)過(guò)程會(huì)導(dǎo)致單個(gè)樣本特定位點(diǎn)上一個(gè)等位基因比另一個(gè)等位基因擴(kuò)增得更多。這種潛在的偏斜可能會(huì)導(dǎo)致下游基因分型的錯(cuò)誤，因?yàn)殡s合子可以表現(xiàn)為純合子 (圖 2a)，或者含有 PCR 錯(cuò)誤的等位基因可以表現(xiàn)為真正的等位基因(圖 2b)。研究報(bào)告表明，PCR重復(fù)可以高頻地發(fā)生在RADseq數(shù)據(jù)中（如20-60%的讀取18,37,38）。從理論上講，PCR不應(yīng)該在一個(gè)給定的位點(diǎn)上系統(tǒng)地偏愛(ài)一個(gè)等位基因而不是另一個(gè)等位基因，因此從大量位點(diǎn)估計(jì)的參數(shù)不太可能有很大的偏差。然而，如果存在PCR重復(fù)，在個(gè)別位點(diǎn)上需要高基因分型準(zhǔn)確性的分析時(shí)，如離群值測(cè)試或親子分配，就可能產(chǎn)生錯(cuò)誤的結(jié)果。

????????對(duì)于使用大多數(shù)下一代測(cè)序協(xié)議產(chǎn)生的序列數(shù)據(jù)，PCR重復(fù)可以通過(guò)生物信息學(xué)方法識(shí)別和去除，以提高基因分型的準(zhǔn)確性。這在使用機(jī)械或隨機(jī)酶切片段的方案中是可能的，因?yàn)镻CR復(fù)制可以被確定為開(kāi)始和結(jié)束在基因組相同位置的片段。由于采用機(jī)械剪切步驟，該方法也可用于從雙端測(cè)序的原始RADseq序列數(shù)據(jù)中識(shí)別出PCR重復(fù)(圖 2b)。在某些情況下(當(dāng)正向和反向讀取之間的距離非常短或局部覆蓋率非常高時(shí))，該過(guò)濾將刪除那些不是重復(fù)但碰巧具有相同起點(diǎn)和終點(diǎn)的片段。然而，這種情況應(yīng)該很少發(fā)生，并應(yīng)該在基因分型準(zhǔn)確性方面表現(xiàn)保守。該方法不能用于除原始RADseq外其他任何RADseq協(xié)議中的PCR重復(fù)的識(shí)別，因?yàn)樵诮o定位點(diǎn)的所有片段都具有相同的起始和終止位置2。

????????最近開(kāi)發(fā)的另一種方法顯示了通過(guò)在測(cè)序接頭內(nèi)使用簡(jiǎn)并的堿基區(qū)域在PCR前標(biāo)記父片段來(lái)識(shí)別PCR重復(fù)的可能38-40。此方法可以合并到任何使用自定義設(shè)計(jì)的接頭的協(xié)議中。處理PCR重復(fù)的另一種方法是完全取消文庫(kù)準(zhǔn)備的PCR步驟，就像在ezRAD中使用Illumina PCR-free試劑盒一樣16。然而，PCR-free試劑盒目前非常昂貴，而且比其他RADseq協(xié)議需要更多的基因組DNA（1 ug）。

位點(diǎn)之間測(cè)序深度的差異。

????????由于在RADseq位點(diǎn)內(nèi)某些等位基因的優(yōu)先測(cè)序，PCR重復(fù)和等位基因缺失可能導(dǎo)致基因分型錯(cuò)誤，而其他一些現(xiàn)象可能導(dǎo)致某些位點(diǎn)優(yōu)先于其他位點(diǎn)測(cè)序。這些現(xiàn)象不應(yīng)造成基因分型錯(cuò)誤，但將需要更大的整體測(cè)序努力，以為那些較低頻率測(cè)序的位點(diǎn)獲得足夠的深度。一個(gè)眾所周知的現(xiàn)象是，在PCR過(guò)程中，片段會(huì)基于GC含量?jī)?yōu)先擴(kuò)增2,41-43，而這種偏差應(yīng)該會(huì)影響所有包含PCR步驟的RADseq方法。另一種現(xiàn)象是短片段比長(zhǎng)片段優(yōu)先擴(kuò)增。這個(gè)問(wèn)題會(huì)影響到所有序列片段被兩個(gè)切割位點(diǎn)裁切的RADseq方法（BOX 1），因?yàn)槊總€(gè)位點(diǎn)都有一個(gè)特定的片段長(zhǎng)度。這個(gè)問(wèn)題既不會(huì)影響2bRAD，因?yàn)樗械奈稽c(diǎn)在長(zhǎng)度上是一致的，也不會(huì)影響原始RADseq，因?yàn)槊總€(gè)位點(diǎn)都由不同的片段長(zhǎng)度表示。

????????另一種影響位點(diǎn)間覆蓋深度變化的現(xiàn)象是由原始RADseq的機(jī)械剪切引起的。小于10kb的片段剪切效率較低，因此來(lái)自較短限制性片段的位點(diǎn)比來(lái)自較長(zhǎng)片段的位點(diǎn)產(chǎn)生更少的讀取。然而，這一現(xiàn)象對(duì)大多數(shù)原始RADseq研究的影響應(yīng)該較小，這些研究通常使用將基因組DNA消化為大于10 kb片段的rare cutter。

????????當(dāng)各個(gè)位點(diǎn)的覆蓋率差別很大時(shí)，獲得足夠數(shù)量的讀取以對(duì)低覆蓋率位點(diǎn)進(jìn)行準(zhǔn)確基因分型將需要增加所有位點(diǎn)的平均覆蓋深度。要做到這一點(diǎn)，必須減少每個(gè)測(cè)序泳道復(fù)用的個(gè)體數(shù)量，這將增加研究項(xiàng)目的成本或減少可以分析的個(gè)體樣本的數(shù)量?；蛘?，如果可以從高覆蓋標(biāo)記獲得足夠的數(shù)據(jù)，低覆蓋位點(diǎn)可以直接從數(shù)據(jù)集中刪除，這在實(shí)踐中很常見(jiàn)。

如何設(shè)計(jì)一個(gè)RADseq研究

????????為特定的應(yīng)用設(shè)計(jì)一個(gè)RADseq研究需要考慮幾個(gè)主要因素，包括最合適的RADseq方法、取樣和測(cè)序策略、預(yù)算和其他方法細(xì)節(jié)。表1總結(jié)了所選方法之間的權(quán)衡。

位點(diǎn)數(shù)量。

????????通過(guò)RADseq方法鑒定和基因分型的位點(diǎn)數(shù)量取決于基因組的大小、基因組中限制性切割位點(diǎn)的頻率和用于測(cè)序的切割位點(diǎn)的數(shù)量。計(jì)算工具可用來(lái)估計(jì)每個(gè)協(xié)議預(yù)期的位點(diǎn)數(shù)量42,44。針對(duì)所有的切割位點(diǎn)的RADseq方法(原始的RAD和2bRAD)，或者使用common-cutter內(nèi)切酶的沒(méi)有直接大小選擇步驟的RADseq方法（GBS），通常可以提供更多的位點(diǎn)，但是數(shù)量可以根據(jù)酶的選擇進(jìn)行調(diào)整。相比之下，涉及明確的大小選擇步驟的協(xié)議 (例如， ddRAD 和 ezRAD) 不僅可以通過(guò)選擇酶來(lái)調(diào)整位點(diǎn)數(shù)量，而且還可以通過(guò)改變選擇的大小范圍來(lái)調(diào)整位點(diǎn)數(shù)量，因此它們通常有更大的靈活性來(lái)提供更少的位點(diǎn)數(shù)量。此外，在任何RADseq協(xié)議中減少位點(diǎn)數(shù)量的另一種方法是為RADseq信息位點(diǎn)子集設(shè)計(jì)探針，并使用這些探針捕獲和測(cè)序選擇的位點(diǎn)(即RAD捕獲或Rapture22)。

????????最佳位點(diǎn)數(shù)取決于研究目的。研究重點(diǎn)在于估計(jì)中性或全基因組過(guò)程的，如系統(tǒng)發(fā)育關(guān)系、地理種群結(jié)構(gòu)、基因流、漸滲和個(gè)體近親繁殖（血統(tǒng)鑒定），通常只需要幾百到幾千個(gè)含有SNP的RADseq位點(diǎn)就可以對(duì)基因組進(jìn)行充分采樣12,18,45,46。相比之下，那些試圖描述整個(gè)基因組中重要功能區(qū)域的研究，比如那些表現(xiàn)出選擇特征的研究，則需要一組更大的標(biāo)記(例如，多達(dá)數(shù)萬(wàn)甚至數(shù)十萬(wàn)個(gè)RADseq位點(diǎn))24,47,48。在映射研究中，RADseq位點(diǎn)的最佳數(shù)量取決于沿著染色體的連鎖不平衡和重組模式的預(yù)期程度。例如，一個(gè)實(shí)驗(yàn)室F2雜交種群或一個(gè)近期的混合群體需要的位點(diǎn)比一個(gè)遠(yuǎn)緣雜交種群要少，盡管統(tǒng)計(jì)能力可能會(huì)隨著大量的后代和更多的標(biāo)記而增加。對(duì)于一個(gè)遠(yuǎn)緣雜交種群的關(guān)聯(lián)映射，就需要多得多的標(biāo)記。量化沿著染色體延伸的多樣性模式(例如，純合性的運(yùn)行)來(lái)估計(jì)最近的和歷史上的有效種群大小和近親繁殖也需要成千上萬(wàn)的位點(diǎn)46,49,50。

????????一些生物因素也可以增加目標(biāo)位點(diǎn)的數(shù)量。遺傳變異低的瓶頸期或小種群可能需要更多位點(diǎn)的測(cè)序來(lái)精確量化變異水平。具有全基因組復(fù)制或基因復(fù)制歷史的基因組，如鮭魚51或很多植物52，又或者轉(zhuǎn)座子或其他重復(fù)序列水平高的基因組，如一些植物53，可能需要大量的位點(diǎn)來(lái)補(bǔ)償對(duì)問(wèn)題位點(diǎn)的嚴(yán)格過(guò)濾(刪除)。

表1 五種RADseq方法之間的權(quán)衡

*估計(jì)如下：原始RADseq，假設(shè)是6-cutter或8-cutter；2bRAD，假設(shè)是識(shí)別位點(diǎn)包含5-7個(gè)特定核苷酸的IIB型酶；GBS，數(shù)據(jù)來(lái)自Elshire et al. 6；ddRAD，數(shù)據(jù)來(lái)自Peterson et al.的表117并允許兩倍的大小范圍；ezRAD，來(lái)自Toonen et al.16的具有參考基因組的物種的數(shù)據(jù)。? 基于目前測(cè)序技術(shù)的單端讀取長(zhǎng)度限制?！旒僭O(shè)多個(gè)樣本有單獨(dú)的條形碼?！部膳c標(biāo)準(zhǔn)凝膠設(shè)備配套使用。? 基于減少位點(diǎn)總數(shù)和長(zhǎng)度的能力。# 基于區(qū)分旁系同源和重復(fù)序列的位點(diǎn)長(zhǎng)度。

序列讀取的類型。

????????長(zhǎng)序列讀取和/或雙端序列讀取提供了許多優(yōu)勢(shì)，包括改進(jìn)的位點(diǎn)識(shí)別、旁系同源或重復(fù)序列的區(qū)分和對(duì)重要功能位點(diǎn)的BLAST搜索。對(duì)于大多數(shù)RADseq協(xié)議來(lái)說(shuō)，序列長(zhǎng)度主要受到測(cè)序技術(shù)的限制(例如，Illumina的讀取量通常可達(dá)150 bp，但在某些情況下可達(dá)300 bp)。許多研究問(wèn)題可以通過(guò)相對(duì)較短的讀取(例如，100 bp)和單端測(cè)序得到充分解決。然而，如上所述，通過(guò)使用原始RAD的雙端測(cè)序讀取(最多1 kb18)組裝contigs，可以獲得更長(zhǎng)的RADseq位點(diǎn)，這種方法對(duì)于沒(méi)有參考基因組的復(fù)雜基因組尤其有利。在所有的方法中，2bRAD產(chǎn)生最短的讀取(33-36 bp)，因此不推薦使用這種技術(shù)進(jìn)行從頭定位識(shí)別或者運(yùn)用到大型復(fù)雜基因組(例如人類基因組54)，因?yàn)樽x取長(zhǎng)度實(shí)際上太短以至于無(wú)法進(jìn)行可靠的映射。

已有的基因組資源。

????????已有的參考序列為RADseq研究提供了諸多優(yōu)勢(shì)。參考基因組序列、一組組裝不良的基因組scaffolds甚至一組以前識(shí)別的RAD位點(diǎn)都可以極大地提高篩選旁系同源或重復(fù)序列、識(shí)別插入缺失變異和去除非目標(biāo)DNA序列(例如，細(xì)菌污染)的能力55。一個(gè)組裝良好的參考基因組提供了進(jìn)一步的優(yōu)勢(shì)。例如，映射研究可以利用位點(diǎn)的物理位置信息來(lái)推斷覆蓋多個(gè)位點(diǎn)的較大染色體區(qū)域的單倍型56。GBS和MSG方法就用這種方法進(jìn)行模式物種的性狀定位，模式物種親本祖先的染色體塊相當(dāng)大。種群基因組研究可以使用一個(gè)參考基因組組裝來(lái)進(jìn)行滑動(dòng)窗口分析，并增加統(tǒng)計(jì)能力來(lái)檢測(cè)感興趣的基因組區(qū)域，例如種群之間的差異選擇區(qū)域24,48。在沒(méi)有參考基因組的情況下，使用原始RADseq協(xié)議產(chǎn)生的長(zhǎng) contigs應(yīng)該能夠提供最大的能力來(lái)區(qū)分旁系同源或重復(fù)序列15,18,19。

測(cè)序覆蓋深度。

????????對(duì)所有RADseq方法產(chǎn)生的文庫(kù)進(jìn)行測(cè)序會(huì)產(chǎn)生不同深度的覆蓋，不同研究中對(duì)單個(gè)條形碼樣本的理想深度差異很大。在一種極端情況下，實(shí)驗(yàn)室用一個(gè)組裝良好的參考基因組來(lái)進(jìn)行映射研究只需要很低的覆蓋率（＜1×）就能達(dá)到最佳效果57。對(duì)于二倍體的從頭位點(diǎn)發(fā)現(xiàn)和基因分型，就需要更高的覆蓋率（例如，10-20×）。如果從頭組裝是通過(guò)結(jié)合多個(gè)樣品的讀取來(lái)進(jìn)行的（盡管在進(jìn)行基因分型前必須對(duì)讀取進(jìn)行個(gè)體分離），那么更低的覆蓋率（例如，5×）就可以了。在多倍體類群中需要更高的覆蓋率，因?yàn)樵谙嗤淖x取下每一個(gè)單倍體基因組的覆蓋率降低了。另外，在某些情況下，個(gè)體可能被匯集成單個(gè)條形碼(BOX 3)，由于沒(méi)有分配個(gè)體基因型，每個(gè)個(gè)體的覆蓋率要低得多。

預(yù)算。

????????RADseq數(shù)據(jù)的主要開(kāi)銷通常是測(cè)序本身。總的測(cè)序工作分為位點(diǎn)的數(shù)量、樣本和群體的數(shù)量以及每個(gè)個(gè)體每個(gè)位點(diǎn)所需的覆蓋率。然而，不同的協(xié)議在文庫(kù)準(zhǔn)備費(fèi)用以及文庫(kù)準(zhǔn)備費(fèi)用隨樣本數(shù)量的增加而增加的方式上也有很大的不同。例如，盡管原來(lái)的 RADseq 協(xié)議有相對(duì)大量的步驟，但樣本在協(xié)議的早期是多路復(fù)用的，隨后的步驟是對(duì)多達(dá)96個(gè)或更多的條形碼樣本進(jìn)行混合，因此在時(shí)間和金錢方面增加樣本的邊際成本都是最小的。相比之下，ezRAD 的成本大致與樣本成線性關(guān)系，因?yàn)橹钡阶詈蟛哦嗦窂?fù)用，所以這種方法可能最適合于少數(shù)樣本或樣本池16。一些RADseq協(xié)議還需要在專門的條形碼接頭上進(jìn)行初始資金投資，盡管對(duì)于大量的庫(kù)來(lái)說(shuō)，一組這樣的寡核苷酸通常就足夠了。此外，一些RAD協(xié)議可能要求購(gòu)買專門的實(shí)驗(yàn)室設(shè)備。原始 RADseq 需要使用 DNA超聲波儀，而使用直接大小選擇步驟(例如 ddRAD和 ezRAD)的 RADseq 協(xié)議可以通過(guò) 使用PippinPrep17來(lái)提高大小選擇的精確性和一致性，并減少交叉污染的可能性。

數(shù)據(jù)的可比對(duì)性。

????????在設(shè)計(jì)RADseq研究時(shí)，最后要考慮的是跨測(cè)序運(yùn)行和跨實(shí)驗(yàn)室的數(shù)據(jù)一致性。大小選擇的不一致性可能會(huì)在使用大小選擇來(lái)減少位點(diǎn)集的方法的文庫(kù)之間產(chǎn)生差異。不同大小選擇技術(shù)(自動(dòng)或手動(dòng)凝膠提取與基于珠子的選擇)的一致性沒(méi)有被嚴(yán)格量化，但磁珠的一致性可能要低得多58。針對(duì)每個(gè)切割站點(diǎn)的方法(原始的RAD和2bRAD)通常被期望在文庫(kù)間更加一致；但是，這些方法容易產(chǎn)生其他的錯(cuò)誤(前面已經(jīng)討論過(guò))。根據(jù)限制性內(nèi)切酶的選擇，即使在不同的方法中，位點(diǎn)基因分型也可能有一定的一致性。例如，在ddRAD協(xié)議中使用SbfI和EcoRI酶測(cè)序的位點(diǎn)應(yīng)該是那些使用SbfI酶和原始RAD測(cè)序的位點(diǎn)的子集。

替代或補(bǔ)充方法。

????????雖然RADseq作為SNP基因分型和發(fā)現(xiàn)的工具有很多好處，但它并不是每一個(gè)生態(tài)和進(jìn)化研究的最佳選擇方法。轉(zhuǎn)錄組測(cè)序(RNA-seq)59和靶向(探針)捕獲60是兩種主要的利用下一代測(cè)序的替代簡(jiǎn)化基因組方法（BOX 4）。全基因組重測(cè)序和全基因組混樣測(cè)序又是另外的替代方法，能提供比簡(jiǎn)化基因組更多的基因組信息61-63。然而，盡管全基因組重測(cè)序?qū)τ诜N群研究的可行性越來(lái)越大，但很多生態(tài)和進(jìn)化問(wèn)題仍無(wú)法從全基因組數(shù)據(jù)的增加中獲得多少好處。例如，一項(xiàng)RADseq的研究使用數(shù)萬(wàn)個(gè)基于等位基因頻率或連鎖不平衡的標(biāo)記來(lái)檢測(cè)選擇，這項(xiàng)研究更有可能受到取樣個(gè)體數(shù)量的限制，而不是標(biāo)記密度的限制。

????????替代基因組方法也可用于補(bǔ)充 RADseq，以便在特定系統(tǒng)中進(jìn)行更全面或更靈活的調(diào)查。例如，隨著序列化和組裝技術(shù)的不斷改進(jìn)，為非模式物種開(kāi)發(fā)從頭參考基因組正變得越來(lái)越可行64,65，而且這樣的參考為分析在種群水平取樣的RADseq數(shù)據(jù)提供了諸多優(yōu)勢(shì)24,47,48,55。轉(zhuǎn)錄組測(cè)序也可以通過(guò)靶向編碼(可能是功能性)序列來(lái)補(bǔ)充RADseq數(shù)據(jù)，而RADseq同時(shí)查詢編碼位點(diǎn)和非編碼位點(diǎn)。RADseq也可以作為一個(gè)大研究的第一步來(lái)關(guān)注重要的位點(diǎn)。例如，RADseq可以提供全基因組掃描來(lái)識(shí)別感興趣的候選位點(diǎn)，然后可以使用這些位點(diǎn)的序列數(shù)據(jù)來(lái)設(shè)計(jì)用于序列捕獲的探針。隨后的目標(biāo)測(cè)序可以在大量樣本上進(jìn)行，大大降低了每個(gè)樣本的成本，同時(shí)DNA的質(zhì)量也更差。

結(jié)果

????????RADseq技術(shù)在生態(tài)學(xué)和進(jìn)化基因組學(xué)中對(duì)于SNP的發(fā)現(xiàn)和基因分型具有巨大的能力和通用性，但是研究人員在選擇和應(yīng)用這些方法時(shí)應(yīng)該慎重考慮。許多RADseq協(xié)議被開(kāi)發(fā)出來(lái)，這些協(xié)議不僅在技術(shù)細(xì)節(jié)和文庫(kù)準(zhǔn)備的成本上不同，而且在產(chǎn)生的數(shù)據(jù)類型和基因分型錯(cuò)誤和偏差的來(lái)源上也不同。因此，協(xié)議的適用性將根據(jù)研究問(wèn)題、研究系統(tǒng)和預(yù)算而有所不同。盡管測(cè)序技術(shù)和成本迅速變化，我們預(yù)計(jì)，在可預(yù)見(jiàn)的未來(lái)，諸如RADseq等簡(jiǎn)化基因組測(cè)序方法將繼續(xù)成為自然種群基因組學(xué)研究的重要工具。如果實(shí)施得當(dāng)，RADseq方法將提供高效、靈活和經(jīng)濟(jì)的方法，以充分發(fā)揮下一代測(cè)序技術(shù)的力量，為生態(tài)、進(jìn)化和與保護(hù)相關(guān)的問(wèn)題提供新的見(jiàn)解。

限制性位點(diǎn)相關(guān)DNA測(cè)序

（RADseq）一種使用大規(guī)模并行(下一代)測(cè)序，對(duì)基因組中大量限制切割位點(diǎn)附近的遺傳位點(diǎn)進(jìn)行測(cè)序的方法。也被稱為基因分型測(cè)序。

下一代測(cè)序

（也被稱為大規(guī)模并行測(cè)序）。2005年首次出現(xiàn)的同時(shí)對(duì)數(shù)百萬(wàn)個(gè)DNA分子進(jìn)行測(cè)序的技術(shù)。

覆蓋深度

對(duì)某一特定位點(diǎn)或核苷酸位點(diǎn)的序列讀取次數(shù)

接頭

在下一代測(cè)序之前必須連接到DNA片段的雙鏈寡核苷酸。Illumina接頭包含退火到流細(xì)胞的區(qū)域，作為識(shí)別單個(gè)樣本的條形碼的index序列，以及用于橋接擴(kuò)增和DNA片段與index測(cè)序的引物結(jié)合位點(diǎn)。

條形碼

短而獨(dú)特的序列(通常為6-12bp)，用于識(shí)別單個(gè)樣本。發(fā)生在接頭連接后緊接在基因組DNA片段附近的接頭末端。條形碼在DNA片段測(cè)序之前被立即測(cè)序，因此條形碼序列將出現(xiàn)在序列讀取的開(kāi)始。

測(cè)序文庫(kù)

為下一代測(cè)序準(zhǔn)備的DNA。DNA必須有合適的長(zhǎng)度進(jìn)行測(cè)序，并且必須連接測(cè)序接頭。

黏性末端

（也被稱為DNA單鏈突出端）。被限制性內(nèi)切酶消化的DNA片段末端的單鏈DNA。一些限制性內(nèi)切酶產(chǎn)生平末端(雙鏈末端)而不是粘性末端。

IIB限制性內(nèi)切酶

在識(shí)別位點(diǎn)的兩邊都能切割DNA的限制性內(nèi)切酶。

池化

將多個(gè)單獨(dú)的樣本組合成只有一個(gè)唯一標(biāo)識(shí)符(例如，一個(gè)條形碼或index)的DNA文庫(kù)。

組合條碼

使用兩種不同條形碼的方法，通常是一個(gè)標(biāo)準(zhǔn)的Illumina index和一個(gè)內(nèi)置條形碼。這種方法可以減少必須購(gòu)買的接頭數(shù)量，從而降低文庫(kù)準(zhǔn)備成本。

Illuminaindex

一個(gè)獨(dú)特的整合到Illumina接頭中的6bp或8bp序列，可以作為一個(gè)條形碼來(lái)識(shí)別樣本個(gè)體。

單端測(cè)序

每個(gè)DNA片段只有一個(gè)末端的Illumina測(cè)序。

雙端測(cè)序

每個(gè)DNA片段有兩個(gè)末端的Illumina測(cè)序。

Contigs

能夠組裝成一個(gè)更長(zhǎng)序列的一組重疊序列讀取。

旁系同源基因

源于基因組內(nèi)復(fù)制的序列。

過(guò)濾

因?yàn)樾蛄匈|(zhì)量低、覆蓋深度低、可能是旁系同源基因和其他原因，從數(shù)據(jù)集中刪除掉不需要的序列讀取。

等位基因丟失

無(wú)法通過(guò)測(cè)序檢測(cè)樣品中存在的等位基因。

無(wú)效等位基因

樣本中存在的等位基因無(wú)法通過(guò)基因分型鑒定出來(lái)。無(wú)效等位基因的存在導(dǎo)致了等位基因的丟失。

連鎖不平衡

不同位點(diǎn)等位基因的非隨機(jī)組合。

滑動(dòng)窗口分析

在一個(gè)染色體段(窗口)內(nèi)計(jì)算匯總統(tǒng)計(jì)的分析，其中窗口是沿著每個(gè)染色體遞增的。

Box1 常用RADseq方法

在單個(gè)限制性酶切位點(diǎn)附近進(jìn)行片段測(cè)序的方法

最初的限制性位點(diǎn)相關(guān) DNA 測(cè)序(RADseq)4,66使用單個(gè)限制酶消化基因組 DNA，然后通過(guò)機(jī)械剪切將片段縮短到測(cè)序所需的合適長(zhǎng)度，這(與其他方法不同)在每個(gè)位點(diǎn)產(chǎn)生片段大小的差異。2bRAD67,68方法使用 IIB 型限制性內(nèi)切酶，切斷 DNA 識(shí)別位點(diǎn)的上游或下游，產(chǎn)生長(zhǎng)度均勻(33-36bp)的短片段。

在兩個(gè)限制性酶切位點(diǎn)附近進(jìn)行片段測(cè)序的方法

●?單酶，間接選擇大小。測(cè)序基因分型(GBS)6使用一種common切割酶， PCR 優(yōu)先擴(kuò)增短片段?；谛蛄械幕蚍中?SBG)69使用一個(gè)罕見(jiàn)的切割器和一個(gè)或兩個(gè)common切割酶，PCR 優(yōu)先擴(kuò)增短片段。

● 雙酶，間接選擇大小。簡(jiǎn)化多態(tài)序列復(fù)雜度測(cè)序(CRoPS)70使用兩種酶和一個(gè)專有的文庫(kù)準(zhǔn)備工具包(最初為 454 焦磷酸測(cè)序而開(kāi)發(fā))。

●?單酶，直接選擇大小。簡(jiǎn)化代表庫(kù)測(cè)序（RRLs）10,71很獨(dú)特，使用平末端common切割酶，隨后是大小選擇步驟和專有的 Illumina 庫(kù)準(zhǔn)備工具包。多路復(fù)用鳥(niǎo)槍基因分型(MSG)56使用一個(gè)common切割酶和大小選擇步驟。ezRAD16使用一種或多種common切割酶，以及專有的 Illumina 庫(kù)準(zhǔn)備工具包。

●?雙酶，直接選擇大小。雙消化RAD(ddRAD)17使用兩種限制性內(nèi)切酶，每種酶配有特定的接頭，并通過(guò)自動(dòng)凝膠切割選擇大小。

上述技術(shù)的變化包括使用甲基化敏感酶72；在現(xiàn)有的協(xié)議中添加更多的限制性酶以進(jìn)一步減少位點(diǎn)集69,73；添加第二次消化以消除接頭二聚體14；使 RADseq技術(shù)適用于其他測(cè)序平臺(tái)，如Ion Torrent73-75；以及其他次要的技術(shù)改進(jìn)58,76。

BOX2 來(lái)自RADseq數(shù)據(jù)的生態(tài)學(xué)和進(jìn)化學(xué)見(jiàn)解

限制性位點(diǎn)相關(guān)DNA測(cè)序(RADseq)可以用來(lái)回答各種各樣的生態(tài)、進(jìn)化和保護(hù)相關(guān)的問(wèn)題。

適應(yīng)基因組學(xué)

通過(guò)對(duì)兩種蝴蝶(Heliconius melpomene

aglaope和Heliconius melpomene amaryllis (圖c部分))的RADseq數(shù)據(jù)進(jìn)行關(guān)聯(lián)映射分析(見(jiàn)圖a部分)和FST離群值測(cè)試(圖 b部分)，發(fā)現(xiàn)顏色模式的選擇是維持蝴蝶雜交帶的最重要因素；這些分析表明，F(xiàn)ST異常主要發(fā)生在與顏色模式變化相關(guān)的基因組區(qū)域。在a部分中，關(guān)聯(lián)分?jǐn)?shù)根據(jù)c部分中描述的表型特征進(jìn)行著色，并且只顯示每種表型的前20個(gè)相關(guān)SNP。在b部分中，所有SNP的FST值都顯示出來(lái)了，顯著的異常值用紅色或橘色表示47。未映射的表示在Heliconius melpomene基因組裝配中沒(méi)有分配給染色體的scaffolds。許多其他的研究也使用了RADseq來(lái)識(shí)別其他研究系統(tǒng)中適應(yīng)的基因組結(jié)構(gòu)(例如，REFS 24,48,77)。

近交和基因多樣性

一項(xiàng)研究海豹雜合度適應(yīng)度相關(guān)性的研究發(fā)現(xiàn)，使用14585個(gè)RADseq SNPs估計(jì)的全基因組雜合度與一個(gè)適配相關(guān)性狀的相關(guān)性比27個(gè)微衛(wèi)星位點(diǎn)估計(jì)的高出近5倍50。RADseq基因多樣性估計(jì)也被用來(lái)描述社會(huì)結(jié)構(gòu)對(duì)唐基恩獼猴常染色體和性染色體多樣性的影響78。

有效種群數(shù)量（Ne）

使用RADseq生成的數(shù)千個(gè)SNP被用來(lái)估計(jì)北美西部的鮭魚和胡瓜魚的Ne79,80。

種群結(jié)構(gòu)，系統(tǒng)地理學(xué)和保護(hù)單元

RADseq被用來(lái)開(kāi)發(fā)一個(gè)種群信息的SNP面板來(lái)監(jiān)測(cè)鮭魚的種群組成，并描繪出作為離散而非混合的進(jìn)行捕撈的種群?jiǎn)挝?9,81；也可參見(jiàn)REFS 82-84。

漸滲

Hohenlohe等人18使用RADseq識(shí)別了3180個(gè)在物種水平上具有診斷意義的SNP，并計(jì)算了一種本地鱒魚和一種入侵鱒魚的混合；也可參見(jiàn)REFS 85,86。

系統(tǒng)基因組學(xué)

RADseq數(shù)據(jù)生成了維多利亞湖鯛魚16個(gè)物種的高分辨率樹(shù)，而之前使用擴(kuò)增片段長(zhǎng)度多態(tài)性(AFLP)、微衛(wèi)星或少量基于序列的標(biāo)記的分析未能解決這些物種的物種級(jí)關(guān)系87。

BOX3 池化（混合）

在限制位點(diǎn)相關(guān)DNA測(cè)序(RADseq)文庫(kù)準(zhǔn)備過(guò)程中，沒(méi)有單獨(dú)條形碼的樣本池可以以較低的成本估計(jì)群體等位基因頻率63,88,89。但是，對(duì)于混合測(cè)序，有幾個(gè)錯(cuò)誤源是唯一的或被放大的。樣本個(gè)體的DNA的不均等表達(dá)可能導(dǎo)致不準(zhǔn)確的等位基因頻率估計(jì)90,91，這一問(wèn)題因PCR重復(fù)而加劇89。此外，對(duì)于混合的數(shù)據(jù)，等位基因缺失、旁系同源基因、映射錯(cuò)誤和隱藏的種群結(jié)構(gòu)的識(shí)別更加難以實(shí)現(xiàn)，甚至是不可能63,89。同樣，對(duì)于混合的數(shù)據(jù)，區(qū)分測(cè)序錯(cuò)誤和低頻等位基因也比較困難。

通過(guò)使用較大的池樣本大小和覆蓋深度，以及去除PCR重復(fù)，可以大大減少混合測(cè)序文庫(kù)中樣本個(gè)體不均等表達(dá)所造成的錯(cuò)誤89,92,93。通過(guò)使用減少PCR循環(huán)周期，可以減少PCR重復(fù)的發(fā)生，這對(duì)于有大量起始基因組DNA的混合測(cè)序是可行的。為每個(gè)種群生成和比較復(fù)制池的序列數(shù)據(jù)也有助于識(shí)別和糾正樣本個(gè)體的不均等表達(dá)89。盡管如此，這并不能減少等位基因缺失或旁系同源基因識(shí)別的問(wèn)題。

研究人員還應(yīng)該意識(shí)到可以對(duì)混合序列數(shù)據(jù)進(jìn)行分析的限制。在這種類型的數(shù)據(jù)中，需要個(gè)體基因型的分析，如分配測(cè)試（使用STRUCTURE進(jìn)行貝葉斯聚類分析94）、相關(guān)性分析或近交系數(shù)估計(jì)等，都是不可行的。一些推斷種群歷史或檢測(cè)選擇的方法依賴于對(duì)連鎖不平衡的準(zhǔn)確估計(jì)95,96。盡管使用個(gè)體帶條形碼的RADseq數(shù)據(jù)產(chǎn)生的通常上是無(wú)相位的數(shù)據(jù)來(lái)估計(jì)連鎖不平衡的能力有限，但使用混合數(shù)據(jù)卻是完全不可能的。更重要的是，池化假設(shè)池中的所有樣本都來(lái)自同一個(gè)良好混合的種群，如果多個(gè)組在池中不知情地被合并，則隱藏的種群結(jié)構(gòu)將變得模糊。

BOX4 RADseq的替代選擇

限制性位點(diǎn)相關(guān) DNA 測(cè)序(RADseq)的兩個(gè)主要替代方法是轉(zhuǎn)錄組測(cè)序(RNA-seq)和靶向(基于探針)捕獲。

轉(zhuǎn)錄組測(cè)序（RNA-seq）

RNA-seq序列利用RNA轉(zhuǎn)錄出基因組的各個(gè)區(qū)域，以此作為文庫(kù)制備的起始點(diǎn)。

優(yōu)勢(shì)。在幾乎所有基因組資源有限或者沒(méi)有的物種中，RNA-seq都可以用來(lái)快速測(cè)序數(shù)千個(gè)功能基因組區(qū)域97。大多數(shù)轉(zhuǎn)錄本可以根據(jù)現(xiàn)有的基因組數(shù)據(jù)庫(kù)進(jìn)行注釋98，這與匿名的RADseq位點(diǎn)相比，提供了更強(qiáng)大的功能背景。

劣勢(shì)。RNA-seq提供了有限的機(jī)會(huì)來(lái)根據(jù)問(wèn)題或?qū)嶒?yàn)設(shè)計(jì)動(dòng)態(tài)地展開(kāi)測(cè)序工作。個(gè)體轉(zhuǎn)錄本在相對(duì)豐度上可能有數(shù)量級(jí)上的差異，這使基因分型復(fù)雜化，增加了測(cè)序成本。功能注釋可能局限于數(shù)據(jù)庫(kù)表達(dá)較差的分類類群。RNA-seq需要高質(zhì)量的樣本，這限制了它在許多研究中的可行性。

靶向(基于探針)捕獲

靶向（基于探針）捕獲測(cè)序使用DNA探針?lè)蛛x感興趣的區(qū)域預(yù)先選擇基因組區(qū)域。

優(yōu)勢(shì)。靶向捕獲是高度可擴(kuò)展的，可以對(duì)單個(gè)位點(diǎn)101或成千上萬(wàn)個(gè)位點(diǎn)102,103進(jìn)行排序。技術(shù)性能通常非常高104，跨區(qū)域和跨個(gè)體的測(cè)序覆蓋率差異很小35,41,105。捕獲技術(shù)可以應(yīng)用于從中等到深度的進(jìn)化時(shí)間尺度106-108，也可以應(yīng)用于降解的DNA樣本，這使得它在系統(tǒng)發(fā)育33,109,110和古代DNA研究111-116中很受歡迎。

劣勢(shì)。捕獲的主要限制在于用于設(shè)計(jì)探針的基因組資源的可用性，以及與RADseq或RNA-seq相比通常更高的成本60。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Harnessing the power of RADseq for ecological and evolutionary genomics