基因家族分析(4)motif 預(yù)測(cè)

本節(jié)講解如何進(jìn)行 motif 預(yù)測(cè),seqlogo 和motif位置展示。

motif預(yù)測(cè)

motif 預(yù)測(cè)使用 meme 軟件進(jìn)行預(yù)測(cè),有在線和linux兩種版本。
在線版網(wǎng)址:http://meme-suite.org/tools/meme

上傳鑒定到的蛋白序列,選擇anr模式,個(gè)數(shù)為10,長度6-100,提交即可。

motif鑒定的結(jié)果



seqlogo圖展示motif在每個(gè)位置的保守程度,字母越高,該位置的保守性越好。同一位置的不同氨基酸會(huì)根據(jù)其頻率進(jìn)行縮放。

下面重點(diǎn)講一講怎么在linux上預(yù)測(cè)motif
先使用conda安裝meme

## 基于蛋白序列進(jìn)行motif預(yù)測(cè)

meme pep.fasta  \
 -mod anr  \#預(yù)測(cè)模式,oops 1個(gè), zoops 0 個(gè)或一個(gè) ,anr 任意個(gè)
-protein \數(shù)據(jù)類型
-nmotifs 10 \motif個(gè)數(shù)
-minw 6 -maxw 100 #長度范圍
#生成的結(jié)果在meme_out中

結(jié)果文件
meme.html #網(wǎng)頁版的meme結(jié)果
meme.xml #xml格式的結(jié)果文件
meme.txt #文本格式的結(jié)果文件
logo.eps #eps格式的seqlogo圖
logo
.png #png格式的seqlogo圖

為了方便數(shù)據(jù)查看,可以從 mem.txt 文件中提取蛋白序列的位置及 motif序列信息。

perl ./meme.pl meme_out/meme.txt  new

生成的結(jié)果文件
new.motif_prot.bed
new.motif_prot.txt
new.motif_seq.txt

motif圖的繪制

meme 軟件生成的網(wǎng)頁版報(bào)告中繪制好了 motif 的 seqlogo 圖,我們也可以自己使用ggseqlogo這個(gè)R包繪制 seqlogo 圖。

#加載包
library(ggplot2)
library(ggseqlogo)
#加載數(shù)據(jù)
data(ggseqlogo_sample)

#seqs_dna
head(seqs_dna)[1]
## $MA0001.1
##  [1] "CCATATATAG" "CCATATATAG" "CCATAAATAG" "CCATAAATAG" "CCATAAATAG"
##  [6] "CCATAAATAG" "CCATAAATAG" "CCATATATGG" "CCATATATGG" "CCAAATATAG"
#pfms_dna
head(pfms_dna)[1]
## $MA0018.2
##   [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
## A    0    0   11    0    1    0    2    8
## C    1    1    0    9    0    3    7    0
## G    1   10    0    2   10    0    1    1
## T    9    0    0    0    0    8    1    2
#seqs_aa
head(seqs_aa)[1]
## $AKT1
##   [1] "VVGARRSSWRVVSSI" "GPRSRSRSRDRRRKE" "LLCLRRSSLKAYGNG"
##   [4] "TERPRPNTFIIRCLQ" "LSRERVFSEDRARFY" "PSTSRRFSPPSSSLQ"
ggseqlogo(seqs_dna$MA0001.1)
ggseqlogo(seqs_aa$CDK2, seq_type="aa")

ggseqlogo_sample數(shù)據(jù)集是內(nèi)置的數(shù)據(jù)集包括三種:

seqs_dna:12種轉(zhuǎn)錄因子的結(jié)合位點(diǎn)序列

pfms_dna:四種轉(zhuǎn)錄因子的位置頻率矩陣

seqs_aa:一組激動(dòng)酶底物磷酸化位點(diǎn)序列
ggseqlogo支持氨基酸、DNA和RNA序列類型,默認(rèn)情況下ggseqlogo會(huì)自動(dòng)識(shí)別數(shù)據(jù)提供的序列類型,也可以通過seq_type選項(xiàng)直接指定序列類型。
上傳自己的數(shù)據(jù)繪制seglogo圖即可。

歡迎關(guān)注Bioinfor 生信云微信公眾號(hào)!所有文章首發(fā)在公眾號(hào)上。

將公眾號(hào)推文分享到微信朋友圈即可獲取腳本

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容