Texshade對多重序列比對進(jìn)行可視化

很早之前就覺得用DNAMAN做的多重比對導(dǎo)出來的圖不是很好看了,而且后期還要進(jìn)行PS或者PPT進(jìn)行修飾。

因此,到網(wǎng)上去找了一些方法也做了一些嘗試。

參考了高老師的兩篇文章作為引入,后期的因為在Linux平臺做分析,所以就基于其思路進(jìn)行了Ubuntu平臺下的適配。

主要思路參考:

http://blog.sciencenet.cn/blog-460481-692113.html

http://blog.sciencenet.cn/blog-460481-706083.html

首先通過多重序列比對軟件對序列進(jìn)行比對。

多重序列比對采用Mafft軟件。

安裝方式如下:

首先到Mafft的網(wǎng)站上下載Linux版本的Mafft安裝包

Ubuntu環(huán)境可以直接下載.deb后安裝


Ubuntu 環(huán)境下下載.deb的文件

下載后安裝即可

cd ~/Download/

sudo dpkg -i mafft_7.307-1_amd64.deb?

然后進(jìn)行安裝后的驗證

which mafft

如果能夠輸出路徑即表示安裝好了

然后就進(jìn)行Mafft的多重序列比對。

下面以從從NCBI下載得到的某個植物MYB轉(zhuǎn)錄因子成員及其同源蛋白序列進(jìn)行分析

>NP_176057.1 production of anthocyanin pigment 1 [Arabidopsis thaliana]MEGSSKGLRKGAWTTEEDSLLRQCINKYGEGKWHQVPVRAGLNRCRKSCRLRWLNYLKPSIKRGKLSSDEVDLLLRLHRLLGNRWSLIAGRLPGRTANDVKNYWNTHLSKKHEPCCKIKMKKRDITPIPTTPALKNNVYKPRPRSFTVNNDCNHLNAPPKVDVNPPCLG

>XP_010511463.1 PREDICTED: transcription factor MYB114-like [Camelina sativa]MEGSSKGLTKGAWTAEEDSLLRQCIEKYGEGKWHQVPFRAGLNRCRKSCRLRWLNYLKPSIKKGRLNSDEVDLLIRLHKLLGNRWSLIAGRLPGRTANDVKNYWNTHLSKKYEPGCKTKMKKKNIISPPTTTTVQKVNVFKPRPRSFTVNKDCSHLNVLPEVDITPSSNGLSIDNVCEDSITSDKDDEKDDFLNILINEDDMWLENLLDDSQETDAVVPEATTNEQGATLAFDVEQLWSLFDGETVELD

>CDY58386.1 BnaA02g35530D [Brassica napus]MEGSPKGLRKGAWTAEEDSLLRQCIDKYGEGKWHQVPLRAGLNRCRKSCRLRWLNYLKPSIKKGKLSSDEVDRLLRLHKLLGNRWSLIAGRLPGRTANDVKNYWNTHLSKKHEPGCNTKMRKRNIPCSSTQPAQKNEVLKPRPRSFTVNNGCSHFNGQPKVDVIPLFLGVNNTNNVCENSITYKKDAEKYELVNNLMDGENMWWKSLLEESQEPDAIVPESTETEKLATSAFDVEQLWNLLDGETVELD

>OAP17920.1 PAP2 [Arabidopsis thaliana]MEGSSKGLRKGAWTAEEDSLLRLCIDKYGEGKWHQVPLRAGLNRCRKSCRLRWLNYLKPSIKRGRLSNDEVDLLLRLHKLLGNRWSLIAGRLPGRTANDVKNYWNTHLSKKHESSCCKSKMKKKNIISPPTTPVQKIGVFKPRPRSFSVNNGCSHLNGLPEVDLIPSCLGLKKNNVCENSITCNKDDEKDDFVNNLMNGDNMWLENLLEENQEADAIVPEATTAEHGATLAFDVEQLWSLFDGETVELD

>XP_018491141.1 PREDICTED: transcription factor MYB90-like [Raphanus sativus]MSLVCVYKVLQGFVKPLPINLSLILLRINFTIIELDTFNINLWSMEESSKGLTKGAWTTEEDSLLRRCIDKYGEGKWHQVPLRAGLNRCRKSCRLRWLNYLKPTIKRGKLNSDEVDLLLRLHKLLGNRWSLIAGRLPGRTANDIKNYWNTHLSKKHEPCKTKMKKRNITYPSTTPAQKNDVFKPRPRLFTVNNGYSHLRGLPEVDVVPPCLGLNNINNVCENSMTCNKGKAREKYELFSNLMNGENVWWESLLEESKQPDTLVPEGKETEKGATSAFDVEELWKMLDGETVELD

接下來,對這些序列用Mafft進(jìn)行多重序列比對

mafft --auto example.fa > example.fa.aln

--auto這個選項是讓軟件自動選擇參數(shù) 詳情可以參考mafft --hel

最后,通過Texshade對多重序列比對結(jié)果進(jìn)行可視化。

先編寫一個排版框架出來


\documentclass[15pt,a3paper]{report}

\usepackage{geometry}

\geometry{a4paper,left=0.2cm,right=0.2cm,top=1.5cm,bottom=0.1cm}

\usepackage{texshade}

\begin{document}

\begin{texshade}{/home/yeyuntian/Documents/nls.aln}

\shadingmode{T-coffe}

\setends{1}{0..361}

\showruler{1}{top}

\rulersteps{5}

\feature{top}{1}{7..15}{helix[Red]}{Alpha-helix1}

\feature{top}{1}{18..39}{helix[Red]}{Alpha-helix2}

\feature{top}{1}{58..63}{helix[Red]}{Alpha-helix3}

\feature{top}{1}{83..95}{helix[Red]}{Alpha-helix4}

\feature{top}{1}{105..116}{helix[Red]}{Alpha-helix5}

\feature{top}{1}{212..223}{helix[Red]}{Alpha-helix6}

\feature{bottom}{1}{5..47}{box[LimeGreen,LimeGreen]}{B-box domain}

\feature{bottom}{1}{53..97}{box[LimeGreen,LimeGreen]}{B-box domain}

\showsequencelogo{top}

\end{texshade}

\end{document}

簡書上顯示不了Tab的制表符空格,我截了一張圖過來。


中間部分需要Tab鍵開頭縮進(jìn)
最后的結(jié)果圖

可以看到,結(jié)果圖中可以標(biāo)注某些保守結(jié)構(gòu)域,可以標(biāo)注一些二級結(jié)構(gòu)的預(yù)測結(jié)果,并且可以很清楚的看到一些保守殘基。

此外,本文中僅僅介紹了一些很簡單的注釋方式,還有更多的可視化模式可以在Texshade上使用。具體的詳情可以查看Texshade 的說明書:

http://mirrors.shu.edu.cn/CTAN/macros/latex/contrib/texshade/texshade.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容