看2020年新發(fā)表的文章,把基因漸滲工具分為幾類。
- 第一類基于種間群體基因頻率變異分析 (Fst, LD, STRUCTURE, AFS, TreeMix)和
- 第二類基于種間DNA序列差異分析(ABBA-BABA, IM, IIM, ABC) 方法,
常用的分析基因滲入的工具有:
MixMapper,TreeMix 和 TARGet ,shapiet(人類),Dsuite
Dsuite又稱為ABBA BABA test。
Dsuite github教程
Dsuite 中文教程
使用plink將vcf轉(zhuǎn)換成treeMix可以使用的格式
1. Dsuite的安裝 參考地址
cd ~/software/Dsuite
git clone https://github.com/millanek/Dsuite.git
cd Dsuite
make
測試命令 ./Build/Dsuite
添加環(huán)境變量
echo 'export PATH=$HOME/software/Dsuite/Dsuite/Build:$PATH' >>~/.bashrc
source ~/.bashrc
Dsuite #測試命令即可運(yùn)行
2. 輸入文件
- call snp和indel的vcf文件,可以是壓縮后的
- 群體/物種圖(SETS.txt),一個(gè)文本文件,每行代表一個(gè)個(gè)體,和其所屬的物種/種群名稱,如下所示。
測試文件下載
VCF file (此文件48M,使用XDM下載只要2min)
wget http://cichlid.gurdon.cam.ac.uk/Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz
wget下載太慢了。
群體文件sets.txt
wget http://cichlid.gurdon.cam.ac.uk/sets.txt
sets.txt的文件格式如下
Placidochromis_cf_longimanus_1 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_2 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_3 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_4 Placidochromis_cf_longimanus
Placidochromis_cf_longimanus_5 Placidochromis_cf_longimanus
Placidochromis_milomo Placidochromis_milomo
Placidochromis_subocularis_1 Placidochromis_subocularis
Placidochromis_subocularis_2 Placidochromis_subocularis
Placidochromis_subocularis_3 Placidochromis_subocularis
Placidochromis_subocularis_4 Placidochromis_subocularis
Placidochromis_subocularis_5 Placidochromis_subocularis
Placidochromis_subocularis_6 Placidochromis_subocularis
Placidochromis_subocularis_7 Placidochromis_subocularis
Placidochromis_subocularis_8 Placidochromis_subocularis
Nbrichardi Outgroup
群體文件sets.txt要求
左邊是vcf里面對(duì)應(yīng)的樣本名稱,右邊是群體名稱/品種名稱(Population/species ),必須要有至少一行,右側(cè)是Outgroup,如果vcf里面某個(gè)材料不想加入分析,右側(cè)可使用xxx代替群體名稱。
可選文件:
- Newick格式的樹。
樹應(yīng)具有與物種/種群名稱相對(duì)應(yīng)的葉子標(biāo)簽。分支長度可以存在,但不使用。
有效的例子:
(Species2,(Species1,(Species3,Species4)));
(Species2:6.0,(Species1:5.0,(Species3:3.0,Species4:4.0))); - Dinvestigate使用的test_trios.txt文件。
每行一個(gè)三人口/種,由標(biāo)簽按順序分隔P1 P2 P3:
Species1 Species2 Species3
Species1 Species4 Species2
... ... ...
3. 運(yùn)行
使用測試文件
3.1 使用Dtrios
Dsuite Dtrios Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt
生成文件
-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_BBAA.txt
-rw-r--r-- 1 chaim bioinf 3.2G Sep 3 23:19 sets_combine_stderr.txt
-rw-r--r-- 1 chaim bioinf 8.0M Sep 3 23:19 sets_combine.txt
-rw-r--r-- 1 chaim bioinf 7.9M Sep 3 23:19 sets_Dmin.txt
3.2 使用Dinvestigate-對(duì)D顯著升高的三重奏進(jìn)行后續(xù)分析:在沿基因組的窗口中計(jì)算D,f_d和f_dM
(可選工具,需要有可選分組的文件)
Dsuite Dinvestigate [OPTIONS] Malinsky_et_al_2018_LakeMalawiCichlids_scaffold_0.vcf.gz sets.txt test_trios.txt
3.3 Fbranch-一種啟發(fā)式方法,旨在幫助解釋許多相關(guān)的f4比率結(jié)果
(可選工具,需要有可選分組的文件)
Dsuite Fbranch [OPTIONS] TREE_FILE.nwk FVALS_tree.txt > fbranch.txt
4.分析Dtrios的輸出文件
查看輸出的文件
head -3 sets_Dmin.txt
P1 P2 P3 Dstatistic Z-score p-value f4-ratio BBAA ABBA BABA
Alticorpus_macrocleithrum Alticorpus_geoffreyi A_calliptera 0.00562169 0.447147 0.327385 0.00349955 4233.37 1722.86 1703.6
Aulonocara_minutus Alticorpus_geoffreyi A_calliptera 0.0084396 0.694493 0.243687 0.00516657 4314.48 1702.72 1674.22
5. Dsuite輸出結(jié)果的解讀
D - statistics (Dstat file):
含義:D - statistics 是 Dsuite 的核心輸出之一,用于檢測基因漸滲。它通過比較四個(gè)分類單元(通常是四個(gè)群體或物種)來評(píng)估基因流是否存在于其中。計(jì)算基于等位基因頻率和系統(tǒng)發(fā)育關(guān)系。
解讀示例:如果D值顯著不為零(通過適當(dāng)?shù)慕y(tǒng)計(jì)檢驗(yàn)來判斷顯著性,如Z - test),則表明可能存在基因漸滲。例如,假設(shè)有群體 A、B、C 和 D,D(A,B;C,D)的計(jì)算中,若D > 0,可能暗示基因從群體 C 或 D 流向了 A 或 B;若D < 0,則可能是相反的基因流方向。
f - statistics (fbranch file):
含義:f - statistics 是另一個(gè)重要的輸出,用于衡量群體之間的遺傳分化和基因流。它基于樹狀結(jié)構(gòu)的模型,其中f值可以表示分支長度的相對(duì)變化,這些分支長度反映了群體之間的遺傳距離和基因流動(dòng)的歷史。
解讀示例:f值的范圍在 - 1 到 1 之間。f = 0表示沒有基因流的中性分化情況。如果f > 0,表示在給定的分支上存在基因流的減少或者分化的增加;如果f < 0,則暗示基因流的增加或者分化的減少。例如,在分析不同亞種之間的關(guān)系時(shí),較低的f值可能表示它們之間有較多的基因交流。
Dfoil statistics (Dfoil file):
含義:Dfoil統(tǒng)計(jì)量是 Dsuite 用于分析更復(fù)雜的基因漸滲模式的擴(kuò)展統(tǒng)計(jì)量。它涉及五個(gè)分類單元,能夠更精細(xì)地檢測和定位基因漸滲事件發(fā)生的位置。
解讀示例:類似于D - statistics,顯著的Dfoil值表明基因漸滲。例如,在分析一個(gè)包含物種 A、B、C、D 和 E 的數(shù)據(jù)集時(shí),Dfoil(A,B;C,D,E)的非零值可以幫助確定基因流是否從 C、D 和 E 中的一個(gè)或多個(gè)群體流向 A 或 B,并且可以結(jié)合系統(tǒng)發(fā)育關(guān)系和其他統(tǒng)計(jì)量來進(jìn)一步理解這種基因流的模式。
-
D(ABBA - BABA)統(tǒng)計(jì)量
-
含義:
- 在群體遺傳學(xué)中,D(ABBA - BABA)是一種用于檢測基因漸滲(introgression)的統(tǒng)計(jì)量。假設(shè)存在四個(gè)群體,分別標(biāo)記為P1、P2、P3和P4。“ABBA”和“BABA”是指在基因組位點(diǎn)上觀察到的等位基因分布模式。
- 例如,在一個(gè)位點(diǎn)上,如果P1和P3共享一個(gè)等位基因(A),P2和P4共享另一個(gè)等位基因(B),這就是“ABBA”模式;反之,如果P1和P4共享一個(gè)等位基因,P2和P3共享另一個(gè)等位基因,就是“BABA”模式。D(ABBA - BABA)統(tǒng)計(jì)量通過比較這兩種模式在基因組中的頻率差異來推斷基因流。
-
解讀:
- 當(dāng)D(ABBA - BABA) = 0時(shí),這是符合沒有基因漸滲的中性進(jìn)化模型預(yù)期的情況,即兩種等位基因分布模式(ABBA和BABA)的頻率相同。
- 如果D(ABBA - BABA)顯著大于0,這表明存在偏向于“ABBA”模式的基因漸滲,可能暗示基因從P3或P4流向P1或P2。相反,如果D(ABBA - BABA)顯著小于0,則偏向于“BABA”模式,可能表示相反方向的基因流。
-
含義:
-
f_d統(tǒng)計(jì)量
-
含義:
- f_d是衡量基因流和分化的一個(gè)指標(biāo)。它與群體之間的分支長度和等位基因頻率變化有關(guān)。在系統(tǒng)發(fā)育框架下,它考慮了基因流對(duì)群體分化的影響。
- 具體來說,f_d統(tǒng)計(jì)量的計(jì)算涉及到比較不同群體在系統(tǒng)發(fā)育樹中的位置以及它們之間的基因共享模式,反映了基因流如何改變了原本預(yù)期的群體分化模式。
-
解讀:
- f_d = 0通常表示沒有基因流影響的中性分化情況,即群體按照沒有基因交流的預(yù)期模式進(jìn)行分化。
- 當(dāng)f_d > 0時(shí),這意味著在考慮的群體分支上基因流減少或者分化程度增加,可能是由于地理隔離、生態(tài)位分化等因素導(dǎo)致基因交流減少。
- 當(dāng)f_d < 0時(shí),表明基因流增加或者分化程度減少,這可能是因?yàn)榇嬖陔s交、基因漸滲等事件,使得群體之間的遺傳差異變小。
-
含義:
-
f_dM統(tǒng)計(jì)量
-
含義:
- f_dM是f_d統(tǒng)計(jì)量的一種變體,它在計(jì)算中考慮了更多關(guān)于群體內(nèi)部遺傳多樣性和基因流的因素。M可能代表某種模型(Model)或者修正(Modification),具體取決于Dsuite的實(shí)現(xiàn)細(xì)節(jié)。
- 它可能更側(cè)重于考慮群體內(nèi)部的遺傳結(jié)構(gòu)以及基因流對(duì)這種結(jié)構(gòu)的影響,在評(píng)估基因流對(duì)群體分化的綜合作用時(shí)提供更細(xì)致的視角。
-
解讀:
- 與f_d類似,f_dM = 0表示一種符合中性模型預(yù)期的情況,沒有受到特殊基因流模式影響的群體分化狀態(tài)。
- f_dM的正值或負(fù)值同樣表示基因流的減少或增加對(duì)群體分化的影響,但其具體數(shù)值和變化趨勢需要結(jié)合數(shù)據(jù)和研究的具體背景來解讀,因?yàn)樗鼘?duì)群體內(nèi)部的遺傳結(jié)構(gòu)因素更為敏感。
-
含義:
-
d_f統(tǒng)計(jì)量
-
含義:
- d_f統(tǒng)計(jì)量也是用于評(píng)估群體之間基因流和分化關(guān)系的指標(biāo)。它與f_d統(tǒng)計(jì)量相關(guān),但可能在計(jì)算方式或側(cè)重點(diǎn)上有所不同。
- 它可能更關(guān)注基因流事件如何改變了群體之間的遺傳距離(通過某種函數(shù)關(guān)系d),并以此來推斷基因流對(duì)群體分化的影響。
-
解讀:
- 當(dāng)d_f = 0時(shí),符合沒有基因流改變?nèi)后w遺傳距離的預(yù)期情況。
- d_f的正值表示基因流導(dǎo)致了群體遺傳距離的增加(可能是由于不對(duì)稱的基因流或者基因流引發(fā)的其他因素導(dǎo)致群體分化加劇),負(fù)值表示基因流使得群體遺傳距離減?。赡苁且?yàn)榛驖u滲等事件使得群體之間的親緣關(guān)系更緊密)。
-
含義:
這些統(tǒng)計(jì)量在解釋群體之間的基因流、分化以及進(jìn)化關(guān)系時(shí)非常有用,但它們的解讀需要結(jié)合研究的具體群體、基因組區(qū)域以及其他生物學(xué)證據(jù)來綜合判斷,同時(shí)還要考慮統(tǒng)計(jì)顯著性檢驗(yàn)的結(jié)果。