數(shù)據(jù)庫 | 基因組注釋

導(dǎo)讀

從網(wǎng)上收集的一些數(shù)據(jù)庫信息,方便學(xué)習(xí)查看:

  1. VFDB
  2. PHI
  3. TCDB
  4. Swiss Prot
  5. Pfam
  6. GO
  7. eggnog-mapper: KEGG/COG/KOG/GO/BiGG

一、VFDB 【毒力因子】

毒力因子指由細(xì)菌,病毒,真菌等代謝產(chǎn)生的帶有侵襲力和毒素等毒力性質(zhì)的分子,主要用于微生物感染宿主時,通過抑制或逃避宿主的免疫反應(yīng)等出入宿主組織細(xì)胞,并從宿主獲得營養(yǎng)及自身增殖生長的目的。毒力因子可編碼在可移動遺傳元件(比如質(zhì)粒、基因島、噬菌體等)上并進(jìn)行水平基因轉(zhuǎn)移(傳播),使無害細(xì)菌變成危險的病原菌,所以在鑒定毒力因子時一般會考慮基因島、分泌蛋白等。VFDB數(shù)據(jù)庫由中國醫(yī)學(xué)科學(xué)院研發(fā),收集整理了24個屬100多種重要醫(yī)學(xué)病原菌已知毒力因子的組成、結(jié)構(gòu)、功能、致病機(jī)理、毒力島、序列和基因組信息等內(nèi)容,被廣泛應(yīng)用于毒力因子基因鑒定。

官網(wǎng):http://www.mgc.ac.cn/VFs/download.htm
fasta下載:http://www.mgc.ac.cn/VFs/Down/VFDB_setB_pro.fas.gz

二、PHI 【病原體宿主互作】

PHI-base(Pathogen Host Interactions),病原宿主互作數(shù)據(jù)庫,是一個免費(fèi)開放的數(shù)據(jù)庫,收錄了經(jīng)過實(shí)驗(yàn)驗(yàn)證或文獻(xiàn)報道的能夠感染植物、動物、真菌和昆蟲的真菌、卵菌、細(xì)菌等病原菌的致病基因、毒力基因和效應(yīng)蛋白基因。另外,還收錄了抗真菌化合物及其靶基因。PHI數(shù)據(jù)庫(4.6版本,20190411),從3011篇文獻(xiàn)中收集了263種致病菌(細(xì)菌、真菌、原生動物和線蟲)的6438個基因和194種宿主(植物占~70%、脊椎動物、昆蟲、線蟲和真菌)的11340種相互關(guān)系,其中包含510中疾病。PHI-base將收集到的參考文獻(xiàn)信息、 基因信息、病原和宿主信息、疾病信息、表型和相互關(guān)系等記錄到數(shù)據(jù)庫中,并提供關(guān)鍵詞進(jìn)行搜索。

官網(wǎng):http://www.phi-base.org/
fasta下載:http://www.phi-base.org/downloadLink.htm

三、TCDB 【轉(zhuǎn)運(yùn)蛋白分類】

TCDB是對膜轉(zhuǎn)運(yùn)蛋白(Membrane Transport Protein)進(jìn)行分類的一個數(shù)據(jù)庫,它制定了一套轉(zhuǎn)運(yùn)蛋白分類系統(tǒng)(Transporter Classification), 簡稱TC System, 類似于對酶進(jìn)行分類的EC系統(tǒng)。TCDB對于每一個轉(zhuǎn)運(yùn)蛋白家族,提供了一個TC Nmuber, TC Number 由小數(shù)點(diǎn)分隔的5為數(shù)字或者字母構(gòu)成。對于整個TC 分類系統(tǒng)而言,包含5個層級的分類,所以TC Number 包含5個數(shù)字或者字母, 每個數(shù)字或字母實(shí)際代表某一個層級的分類結(jié)果,第一級分類包括5個大類。目前TCDB提供了超過800個轉(zhuǎn)運(yùn)蛋白家族, 包含10000多條唯一的蛋白質(zhì)序列和10000多篇文獻(xiàn)。

官網(wǎng):http://www.tcdb.org/
fasta下載:http://www.tcdb.org/download.php

四、Swiss Prot 【注釋蛋白】

SWISS-PROT是經(jīng)過注釋的蛋白質(zhì)序列數(shù)據(jù)庫,由歐洲生物信息學(xué)研究所(EBI)維護(hù)。數(shù)據(jù)庫由蛋白質(zhì)序列條目構(gòu)成,每個條目包含蛋白質(zhì)序列、引用文獻(xiàn)信息、分類學(xué)信息、注釋等,注釋中包括蛋白質(zhì)的功能、轉(zhuǎn)錄后修飾、特殊位點(diǎn)和區(qū)域、二級結(jié)構(gòu)、四級結(jié)構(gòu)、與其它序列的相似性、序列殘缺與疾病的關(guān)系、序列變異體和沖突等信息。SWISS-PROT中盡可能減少了冗余序列,并與其它30多個數(shù)據(jù)建立了交叉引用,其中包括核酸序列庫、蛋白質(zhì)序列庫和蛋白質(zhì)結(jié)構(gòu)庫等。

官網(wǎng):https://www.ebi.ac.uk/uniprot/
fasta下載:https://www.uniprot.org/downloads

五、Pfam 【蛋白家族】

Pfam提供蛋白質(zhì)家族和結(jié)構(gòu)域的完整準(zhǔn)確的分類,被廣泛用于查詢蛋白家族或蛋白結(jié)構(gòu)域的注釋,結(jié)構(gòu)及其多序列比對信息。在該數(shù)據(jù)庫中,每個蛋白家族由多個序列比對和HMMs(hidden Markovmodels,隱馬爾可夫模型)所體現(xiàn)。Pfam包括兩個質(zhì)量級別的家族數(shù)據(jù)庫:Pfam-A和Pfam-B。1. Pfam-A來自基礎(chǔ)序列數(shù)據(jù)庫Pfamseq,是根據(jù)最新的UniProtKB數(shù)據(jù)庫建立,質(zhì)量較高。2. Pfam-B做為Pfam-A的補(bǔ)充,是一個未注釋的低質(zhì)量數(shù)據(jù)庫,一般是由ADDA數(shù)據(jù)中的非冗余cluster自動生成的。雖然質(zhì)量較低,但對于鑒定Pfam-A無法覆蓋到的功能保守區(qū)域也是非常有用的。

官網(wǎng):http://pfam.xfam.org/
fasta下載:ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.full.gz

六、GO 【基因本體】

GO數(shù)據(jù)庫是基因本體聯(lián)合會(Gene Onotology Consortium)所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的,對基因和蛋白質(zhì)功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語言詞匯標(biāo)準(zhǔn)。GO是多種生物本體語言中的一種,是OBO(Open BiomedicalOntologies)組織中的一員,GO提供了一系列的語義(terms)用于描繪基因、基因產(chǎn)物的特點(diǎn),這些語義通過三個概念維度展開:細(xì)胞學(xué)組件(Cellular Component)用于描述某個節(jié)點(diǎn)的亞細(xì)胞結(jié)構(gòu)、位置和大分子復(fù)合物,如外部封裝結(jié)構(gòu)(external encapsulating structure)等;分子功能(molecular function),用于描述基因以及基因產(chǎn)物的功能,比如蛋白質(zhì)結(jié)合轉(zhuǎn)錄因子活性(protein binding transcription factor activity);生物學(xué)途徑(biological process)指的是分子功能的有序組合以實(shí)現(xiàn)更復(fù)雜的生物功能,例如樹突狀細(xì)胞的抗原處理和遞呈(dendritic cell antigen processing and presentation)。

官網(wǎng):http://geneontology.org/
ncbi fasta下載:ftp://ftp.ncbi.nih.gov/gene/DATA/gene2go.gz

七、eggNOG-mapper 【KEGG/COG/KOG/GO/BiGG】


進(jìn)行KOG注釋的方法和COG一致。對真核生物使用KOG注釋。原核使用COG注釋。

官網(wǎng):http://eggnog-mapper.embl.de/
guthub:https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2
軟件:git clone https://github.com/jhcepas/eggnog-mapper.git
數(shù)據(jù)庫:download_eggnog_data.py
NCBI COG: https://www.ncbi.nlm.nih.gov/COG/
NCBI KOG: ftp://ftp.ncbi.nih.gov/pub/COG/KOG/

  • 注釋結(jié)果:
1. query_name
2. seed eggNOG ortholog
3. seed ortholog evalue
4. seed ortholog score
5. Predicted taxonomic group
6. Predicted protein name
7. Gene Ontology terms 
8. EC number
9. KEGG_ko
10. KEGG_Pathway
11. KEGG_Module
12. KEGG_Reaction
13. KEGG_rclass
14. BRITE
15. KEGG_TC
16. CAZy 
17. BiGG Reaction
18. tax_scope: eggNOG taxonomic level used for annotation
19. eggNOG OGs 
20. bestOG (deprecated, use smallest from eggnog OGs)
21. COG Functional Category
22. eggNOG free text description

參考:
序列功能注釋神器:eggNOG-mapper,KEGG/COG/KOG/GO/BiGG 一網(wǎng)打盡
COG KOG注釋

\color{green}{還有很多參考沒有及時保存,后期添上,這里純屬個人學(xué)習(xí)備忘,無任何商業(yè)用途/(ㄒoㄒ)/~~}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容