番茄SL2.5 基因ID轉(zhuǎn)換為Entrez ID

接著上一個帖子,在總結(jié)出我說可以通過爬蟲獲得兩個基因命名規(guī)則匹配的文本文件,但是肥肥讓我想到了一個辦法可以在網(wǎng)站上直接下載該文件,這個神奇的網(wǎng)站就是 Ensembel Plant bioMart

本身該網(wǎng)站就可以直接轉(zhuǎn)基因ID,參考bioinfowen,但是對于番茄SL2.5基因ID(SolycXXgXXXXXX),它的識別是基于Protein stable ID[e.g. Solyc00g007010.3.1]和 STRING ID,二者一致,都是對應具體蛋白,如果我們對轉(zhuǎn)錄本進行ID轉(zhuǎn)換是可以的,但是我們是對基因進行轉(zhuǎn)換,因此沒有后面的小數(shù)點等后綴。那么該如何辦呢?

辦法:直接下載網(wǎng)站的參考的ID轉(zhuǎn)換文件,自己修改。
具體步驟:選擇好參考基因組后,等網(wǎng)站刷新完,依次點擊 Attributes,EXTERNAL,在 External References 下勾選 NCBI gene ID,STRING ID ,然后點左上角的 Count,等待其刷新完
點擊Results,后面出來表格,選好格式,直接點擊GO下載就可以了,獲得了文件,進行文本操作就能得到最終的結(jié)果,結(jié)果文件我放在github
名字開頭是 sly。注意這個結(jié)果文件中的會有重復值,也就是會有幾個EntrezID對應同一個基因名或者轉(zhuǎn)錄本名。

所以這個辦法應該適用于所有能夠在Ensemble Plant查到的物種而不只是番茄

補充:昨天我發(fā)現(xiàn)一個問題,就是Ensemble Plant 上面的文件有可能因為沒有及時更新,所以匹配的基因名可能比現(xiàn)在在Entrez上面搜到的要少很多,因此還是建議去NCBI的官方FTP去下載最新的基因名匹配注釋文件,更加準確一些

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容