進(jìn)化樹(shù)軟件iqtree升級(jí)至2.0!

自2015年文章正式發(fā)表以來(lái),iqtree以其快速精準(zhǔn)的建樹(shù)和全面的功能在競(jìng)爭(zhēng)激烈的系統(tǒng)發(fā)育樹(shù)(phylogenetics)領(lǐng)域快速躥紅,并廣受好評(píng),目前砍下谷歌學(xué)術(shù)4471次引用。5年后,來(lái)自澳大利亞國(guó)立大學(xué)的Bui Quang Minh(裴光明,有沒(méi)有懂越南語(yǔ)的朋友看下譯的對(duì)不對(duì))團(tuán)隊(duì)終于推出了iqtree 2.0版【1】!

此次2.0版改進(jìn)的主要功能在iqtree的官方網(wǎng)站(www.iqtree.org)已經(jīng)寫(xiě)的很清楚了:


簡(jiǎn)單說(shuō)一下:

1. –s以前只是針對(duì)單獨(dú)的序列文件,現(xiàn)在可以加入含多條序列的文件夾,更加方便多基因聯(lián)合建樹(shù)

2. 對(duì)有根樹(shù)利用不可逆替換模型的推斷

3. 限定拓?fù)浣Y(jié)構(gòu)推斷(-g)時(shí)建樹(shù)速度更快

4. -S、—gcf以及--scf:由于不同位點(diǎn)以及多基因建樹(shù)中不同基因(或partition)可能得出不同的樹(shù)形,而這些可能在最終的樹(shù)中反映不出來(lái),即便樹(shù)的內(nèi)部節(jié)點(diǎn)的支持度很高。舉個(gè)不恰當(dāng)?shù)睦樱?6年美國(guó)大選,按照選舉規(guī)則川普以304比227選舉人票數(shù)的絕對(duì)優(yōu)勢(shì)擊敗了希拉里,但這絕不意味著選民的投票是一邊倒支持川普,甚至總得票率川普還落后希拉里2個(gè)百分點(diǎn)。那么,你的dataset是鐵板一塊嗎?其中是否存在這樣的現(xiàn)象呢?iqtree 2.0這兩個(gè)選項(xiàng)(-S和--gcf)為用戶提供了類似情形的便捷方法【2】

5. –modelomatic:對(duì)于不同類型序列的最佳模型選擇。如你的dataset內(nèi)既有protein,也包括核酸,還有形態(tài)學(xué)數(shù)據(jù),那么記得考慮這個(gè)參數(shù)【3】。

6. --symtest:目前一般的建樹(shù)方法,都是基于所謂的SRH原則,即stationary, reversible, and homogeneous。裴光明及其合作者的研究指出,對(duì)于SRH原則的違背在文獻(xiàn)中十分普遍【4】,于是乎建出來(lái)的樹(shù)是否真的可靠就要打上問(wèn)號(hào)了。你的dataset是否存在對(duì)該原則的違背呢?不妨用--symtest檢測(cè)一下。

7. –tbe:Transfer bootstrap expectation:一種新的對(duì)進(jìn)化樹(shù)拓?fù)浣Y(jié)構(gòu)支持度的評(píng)價(jià)方法【5】,該法在raxml-ng中也已配備【6】。

8. –mlrate:對(duì)每個(gè)位點(diǎn)(site)的替換速率的最大似然估計(jì)

9. 塔拉什分析?慚愧了,我只知道國(guó)際象棋里有一個(gè)塔拉什防御。

10. 再補(bǔ)充一個(gè),2.0.3版本中增加了LSD2法對(duì)進(jìn)化時(shí)間的推算。該法由旅法越南學(xué)者蘇秋賢 (Thu-Hien To) 和 Gascuel等人于16年開(kāi)發(fā)。不過(guò)目前有兩個(gè)不足之處,一是給出的結(jié)果屬于點(diǎn)估計(jì)(2.0.6版本中可使用--date-ci對(duì)confidence interval進(jìn)行估計(jì)但作者提示暫時(shí)可能有bug),二是當(dāng)不同序列或物種間進(jìn)化速率差異較大時(shí),可能不太靈光,詳情請(qǐng)瀏覽http://www.iqtree.org/doc/Dating。


關(guān)于iqtree2.0版的內(nèi)容就說(shuō)完了。不過(guò)我想再多嘮叨幾句關(guān)于iqtree的東西。

幾年前,最大似然法進(jìn)化樹(shù)構(gòu)建就已經(jīng)有像raxml、MEGA、phyml等居于主導(dǎo)地位的優(yōu)秀軟件了。在這樣的大背景下,為何裴教授要開(kāi)發(fā)iqtree呢?19年美國(guó)馬薩諸塞州舉行的Workshop on Molecular Evolution上,裴教授講到了以下三點(diǎn):

1. 迎合大數(shù)據(jù),以及系統(tǒng)發(fā)育基因組學(xué)(phylogenomics analysis)的分析需求

2. 提供豐富的進(jìn)化模型(就模型選擇是否有價(jià)值,去年有不同實(shí)驗(yàn)室提出了新的不同觀點(diǎn),詳情請(qǐng)見(jiàn)生信人往期推送19年五次生信爭(zhēng)議事件

3. 同其他軟件進(jìn)行比較和友好競(jìng)爭(zhēng),給予用戶選擇空間,這對(duì)整個(gè)領(lǐng)域的發(fā)展是有益處的。


一般來(lái)講,由于計(jì)算復(fù)雜,最大似然法進(jìn)化樹(shù)構(gòu)建需要采取啟發(fā)式算法(Heuristic)。也就是,我們無(wú)法找到那棵最佳的樹(shù),但在有限時(shí)間內(nèi),可以退而求其次找到一個(gè)足夠好的樹(shù)。

舉個(gè)例子。圣誕節(jié)要到了,我們要布置一顆圣誕樹(shù),那么怎樣裝飾才是最好的呢?假如存在一個(gè)所謂的最美圣誕樹(shù),大概窮盡畢生之力也是無(wú)法構(gòu)建出來(lái)的,因?yàn)榭赡苌砸桓淖?,可能就能得到一顆更美的圣誕樹(shù),更不要完全不同的裝飾思路了。所以我們一般的思路是,先找到一個(gè)感覺(jué)上不錯(cuò)的設(shè)計(jì)方案搞出來(lái)。接著,我們通過(guò)對(duì)圣誕樹(shù)的分枝的裁剪和安裝,裝飾物的變換,涉及不同的圣誕樹(shù)的造型。我們還要注意有沒(méi)有另外的“圣誕樹(shù)結(jié)構(gòu)”,提防由于只見(jiàn)樹(shù)木不見(jiàn)森林忽略了其他的圣誕樹(shù)結(jié)構(gòu)陷入“局部最佳”的幻境而渾然不知。當(dāng)我們小心翼翼地搞定了一切,最終,會(huì)得到一個(gè)雖然不十全十美但大部分時(shí)候也能令人滿意的樹(shù)。當(dāng)然,如果不夠走運(yùn),經(jīng)過(guò)反復(fù)修改都不能滿意,那么園丁們有兩個(gè)選擇,要么將就,要么推倒重建。

在系統(tǒng)發(fā)育分析中,對(duì)進(jìn)化樹(shù)的構(gòu)建與裝飾圣誕樹(shù)有很多相似之處,也是通過(guò)對(duì)樹(shù)的不斷剪切變化一步步優(yōu)化樹(shù),只不過(guò)算法十分復(fù)雜,而且初始樹(shù)未見(jiàn)得只有一棵。具體到iqtree,它采用了Hill climbing NNI and downhill NNI方法試圖找尋答案(見(jiàn)下圖,由于這里完全超出了我的知識(shí)水平,故此略去)。

Iqtree的hill climbing NNI and downhill NNI示意圖,類比爬山【7】


對(duì)一般用戶而言,iqtree速度的優(yōu)勢(shì)也許體現(xiàn)在其ultrafast bootstrap。提醒大家,如果選擇ultrafast bootstrapping,進(jìn)化樹(shù)上的支持度大致上代表拓?fù)浣Y(jié)構(gòu)“正確”的概率,以95%以上為基準(zhǔn)認(rèn)為所謂可靠,大致相當(dāng)于傳統(tǒng)bootstrap 80左右【8】。

此外,傳統(tǒng)的替代模型假設(shè)各個(gè)位點(diǎn)都按照相同的平衡頻率(equilibrium frequency)。然而,這在生物學(xué)意義上說(shuō)并不正確。比如某些催化位點(diǎn)特別保守,保守到甚至只容許有一種氨基酸,而有些無(wú)關(guān)痛癢的區(qū)域卻是20種氨基酸群魔亂舞。對(duì)此有兩個(gè)解決方案。一是像phylobayes那樣對(duì)不同位點(diǎn)的平衡頻率進(jìn)行估測(cè),二是采用iqtree中的經(jīng)驗(yàn)方法——在iqtree中已經(jīng)內(nèi)置了6個(gè)mixture model,從C10,C20一直到C60,該法最初由法國(guó)國(guó)家科學(xué)研究中心CNRS的黎士光(Le Si Quang,再次呼叫懂越南語(yǔ)的朋友)、Gascuel和Lartillot提出【9】。這些mixture model被認(rèn)為是目前比較先進(jìn)的策略,多次在解決重要phylogenomics難題中發(fā)揮作用(這里說(shuō)phylogenomics,顯然是對(duì)于多基因聯(lián)合構(gòu)建物種樹(shù)的情形,對(duì)于單基因樹(shù)因要估計(jì)的參數(shù)過(guò)多,mixture model往往效果不佳),其缺點(diǎn)是對(duì)內(nèi)存要求較高。具體操作請(qǐng)大家參考【10】。此外,年初的時(shí)候,匈牙利E?tv?s Loránd University的Gergely Sz?ll?s實(shí)驗(yàn)室推出了一個(gè)叫做EDCluster的軟件【11】,想為你的dataset量身打造特定mixture profile的朋友推薦試下。

其實(shí),iqtree2.0早在去年年底就在biorxiv上投放了,并于年初正式見(jiàn)刊【1】,只是由于iqtree內(nèi)容豐富,怕自己才疏學(xué)淺、誤人子弟,所以一直未能騰出手來(lái)完成iqtree2.0的推送。不知不覺(jué)已經(jīng)加入生信人團(tuán)創(chuàng)作隊(duì)兩年了,本文正好是我創(chuàng)作的第100篇微信推送,思來(lái)想去決定還是在自己相對(duì)熟悉的領(lǐng)域?qū)扅c(diǎn)東西,也正好是一個(gè)合適的時(shí)機(jī)把iqtree2.0補(bǔ)上。以上,小編走馬觀花地對(duì)iqtree和其升級(jí)版抒發(fā)了一些自己的觀點(diǎn),難免淺嘗輒止、錯(cuò)進(jìn)錯(cuò)出。有關(guān)iqtree的更多更深入的內(nèi)容,還請(qǐng)參考官網(wǎng)和使用手冊(cè)。此外,iqtree還提供在線服務(wù):http://iqtree.cibiv.univie.ac.at,值得一試。


引文

1. B.Q. Minh, H.A. Schmidt, O. Chernomor, D. Schrempf, M.D. Woodhams, A. von Haeseler, R. Lanfear (2020) IQ-TREE 2: New models and efficient methods for phylogenetic inference in the genomic era. Mol. Biol. Evol., 37:1530-1534.

2. B.Q. Minh, M.W. Hahn, R. Lanfear (2020) New methods to calculate concordance factors for phylogenomic datasets. Mol. Biol. Evol. https://doi.org/10.1093/molbev/msaa106

3. Naser-Khdour, Suha, et al. "The prevalence and impact of model violations in phylogenetic analysis." Genome biology and evolution 11.12 (2019): 3341-3352.

4. Whelan, Simon, et al. "ModelOMatic: fast and automated model selection between RY, nucleotide, amino acid, and codon substitution models." Systematic biology 64.1 (2015): 42-55.

5. Lemoine, Fréderic, et al. "Renewing Felsenstein’s phylogenetic bootstrap in the era of big data." Nature 556.7702 (2018): 452-456.

6. Lutteropp, Sarah, Alexey M. Kozlov, and Alexandros Stamatakis. "A fast and memory-efficient implementation of the transfer bootstrap." Bioinformatics 36.7 (2020): 2280-2281.

7. Bui QM, Workshop on Molecular Evolution. 2019

8. http://www.iqtree.org/doc/Frequently-Asked-Questions

9. Si Quang, Le, Olivier Gascuel, and Nicolas Lartillot. "Empirical profile mixture models for phylogenetic reconstruction." Bioinformatics 24.20 (2008): 2317-2323.

10. http://www.iqtree.org/doc/Complex-Models

11. Scalable empirical mixture models that account for across-site compositional heterogeneityDominik Schrempf, Nicolas Lartillot, Gergely Sz?ll?si. bioRxiv 794263

拓展閱讀:

1. Montreal,號(hào)外|RAxML進(jìn)化樹(shù)構(gòu)建換代啦(2018) 生信人

2. Montreal,新一代建樹(shù)工具IQ-Tree介紹(2018) 生信人

作者原創(chuàng),2020年八月原載于生信人

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容