生物數(shù)據(jù)庫之二級蛋白質(zhì)數(shù)據(jù)庫

二級蛋白質(zhì)數(shù)據(jù)庫數(shù)目眾多,我們挑幾個常用的給大家介紹。

一、結(jié)構(gòu)域家族數(shù)據(jù)庫 Pfam

Pfam 數(shù)據(jù)庫是一個蛋白質(zhì)結(jié)構(gòu)域家族的集合,包括了一萬六千多個蛋白質(zhì)家族。蛋白質(zhì)一般是由一個或多個功能區(qū)域組成,這些功能區(qū)域通常稱作結(jié)構(gòu)域(domain)。在不同的蛋白質(zhì)中結(jié)構(gòu)域以不同的組合出現(xiàn),形成了蛋白質(zhì)的多樣性。識別出蛋白質(zhì)中的結(jié)構(gòu)域?qū)τ诹私獾鞍踪|(zhì)的功能有重要意義。

TLR

比如 Toll 樣受體蛋白:人的免疫系統(tǒng)中有許多種 Toll 樣受體蛋白,所有這些種類的 Toll 樣受體蛋白都可以分成三個結(jié)構(gòu)域, 每個結(jié)構(gòu)域行使不同的功能。胞外域用于識別不同的入侵物,跨膜區(qū)穿膜,胞內(nèi)域用于胞內(nèi)信號轉(zhuǎn)導(dǎo)。

免疫蛋白MyD88.JPG

另一個免疫蛋白 MyD88,存在于胞內(nèi)。它與 Toll 樣受體的功能不同,但它有一個和 Toll 樣受體胞內(nèi)域相同的結(jié)構(gòu)域。這兩個不同蛋白上的相同結(jié)構(gòu)域可以相互結(jié)合以激活下游的信號傳導(dǎo)。

因此,如果我們能夠探明一個未知功能的蛋白質(zhì)上有哪些已知的結(jié)構(gòu)域, 那我們就大致可以推測出它的功能。

Pfam 主頁上的搜索工具可以幫助我們查找某條序列上有哪些結(jié)構(gòu)域。

image-20200423172156371
輸入上圖示例序列(示例序列的富文本附件 pfam.fasta點(diǎn)擊下載)。這是一條 Toll 樣受體蛋白的序列。搜索結(jié)果顯示,一共找到 4 個區(qū)域匹配 Pfam 數(shù)據(jù)庫中已記錄的結(jié)構(gòu)域。前三個是 Toll 樣受體蛋 白胞外域典型的重復(fù)序列片段。

image-20200423174234059
image-20200423174410931

最后一個是 TIR 結(jié)構(gòu)域,也就是我們剛才說的 Toll 樣受體蛋白的胞內(nèi)域。

點(diǎn)擊胞內(nèi)域查看詳細(xì)信息如下:

image-20200423174641602

Summary 里可以獲得這個結(jié)構(gòu)域的功能注釋以及結(jié)構(gòu)信息。

Domain Organization 里可以看到目前有多少蛋白質(zhì)擁有 TIR 結(jié)構(gòu)域,以及 TIR 結(jié)構(gòu)域和其他結(jié)構(gòu)域之間的組合搭配關(guān)系。

image-20200423174740118

Structure 會列出目前所有包含 TIR 結(jié)構(gòu)域的蛋白質(zhì)結(jié)構(gòu),以及他們在序列數(shù)據(jù)庫 UniProt 和結(jié)構(gòu)數(shù)據(jù)庫 PDB 中的鏈接。同時,也提供 JSmol 在線結(jié)構(gòu)查看工具。

image-20200423174901141

二、CATH 數(shù)據(jù)庫

根據(jù)結(jié)構(gòu)域的空間特征可以對結(jié)構(gòu)域進(jìn)行分類。

CATH 和SCOP 是兩個重要的蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫。

CATH 數(shù)據(jù)庫由倫敦大學(xué)1993 年創(chuàng)建。CATH的名字C、A、T、H 是數(shù)據(jù)庫中四種結(jié)構(gòu)分類層次的首字母。

image-20200424173359077
  • 所有蛋白質(zhì)結(jié)構(gòu)域在CATH 中被首先分成4 種CLASS,這就是C。四種CLASS 分別是全α型,全β型, α +β型,低二級結(jié)構(gòu)型。比如圖中第一行這三個蛋白質(zhì),很顯然左邊是全α的,右邊是全β的,中間是 α +β的。

  • 每一個Class 中的結(jié)構(gòu)域又被具體分為不同的architecture,也就是A。A 這一層是按照螺旋和折疊所形成的超二級結(jié)構(gòu)排列方式分類的。比如α +β這個class 下的結(jié)構(gòu)可以進(jìn)一步分為桶狀的,三明治狀的,還有滾軸狀等Architecture。

  • 每種Architecture 里的結(jié)構(gòu)域,又可以根據(jù)二級結(jié)構(gòu)的形狀和二級結(jié)構(gòu)間的聯(lián)系更進(jìn)一步分為不同的topology,也就是T。

  • 最后再通過序列比較以及結(jié)構(gòu)比較確定同源性分類,劃分出不同的homologous superfamily,也就是H。

這樣每個結(jié)構(gòu)從粗到細(xì),即從A 到H,會有四個層次的分類。

注意:結(jié)構(gòu)分類是以結(jié)構(gòu)域?yàn)閱挝贿M(jìn)行的,而不是針對整個蛋白。所以PDB 中的一個蛋白質(zhì)結(jié)構(gòu)可能對應(yīng)CATH中多個結(jié)構(gòu)域分類。CATH 在分類時既使用計算機(jī)程序,也進(jìn)行人工檢查。

CATH 為每一層的每一種結(jié)構(gòu)分類命名,并用數(shù)字代號代表這一分類。因此每個結(jié)構(gòu)域會具有一個分類代碼。

image-20200424173751624

第一個數(shù)字是C 這一層的分類代碼,第2 個數(shù)字是A 這一層的分類代碼,第3 個數(shù)字是T 這一層的分類代碼,第4 個數(shù)字是H 這一層的分類代碼。

目前CATH 已為PDB 數(shù)據(jù)庫中10 多萬個蛋白質(zhì)結(jié)構(gòu)所涉及的30 多萬個結(jié)構(gòu)域進(jìn)行了結(jié)構(gòu)分類,這些分類可以歸入兩千七百多個蛋白質(zhì)超家族中。此外,CATH-Gene3D 還為超過500 萬條來自公共數(shù)據(jù)庫的蛋白質(zhì)序列進(jìn)行了結(jié)構(gòu)分類預(yù)測。Gene3D 里的信息為絕大多數(shù)還未解析3D 結(jié)構(gòu)的蛋白質(zhì)提供了重要的功能研究依據(jù)。

接下來,我們從CATH 數(shù)據(jù)庫搜索一個PDB 結(jié)構(gòu)的分類信息。

image-20200424174317706

搜索條輸入3H6X,這是我們在PDB 數(shù)據(jù)庫里查看過的dUTPase 的結(jié)構(gòu)。

image-20200424174413598

結(jié)果顯示dUTPase 蛋白的結(jié)構(gòu)分類代碼是2.70.40.10。點(diǎn)擊這個分類代碼,可以獲得各層次具體的結(jié)構(gòu)分類信息以及各種結(jié)構(gòu)相關(guān)分析信息。

image-20200424174639036

結(jié)果頁面的下半部分還提供聚類圖。這里,CATH 把所有擁有2.70.40.10結(jié)構(gòu)分類的結(jié)構(gòu)域,根據(jù)他們的序列相似度不同,進(jìn)行了聚類(如下圖)。不同深淺的圈代表不同的序列相似度。通過這張圖,我們可以了解到具有相同結(jié)構(gòu)分類的蛋白質(zhì)他們在序列水平上的親緣關(guān)系遠(yuǎn)近。

image-20200424174935809

此外,CATH 還從2.70.40.10 這個結(jié)構(gòu)分類里挑出了19 個有代表性的結(jié)構(gòu)域,并且把他們的3D 結(jié)構(gòu)疊加在了一起(圖3)。從這個圖上,我們可以看到這個結(jié)構(gòu)分類的總體特征以及差異產(chǎn)生的位置

image-20200423175418008

三、結(jié)構(gòu)分類數(shù)據(jù)庫SCOP 2

SCOP 數(shù)據(jù)庫與CATH 類似,也屬于蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫,但SCOP 的分類原則更多考慮蛋白質(zhì)間的進(jìn)化關(guān)系,而且分類主要依賴于人工驗(yàn)證。

和CATH 一樣,SCOP 的結(jié)構(gòu)分類也基于四個層次。

  • 第一層也叫Class,也是基于二級結(jié)構(gòu)成分分類。

  • Class 之下是Fold,主要考慮結(jié)構(gòu)的空間幾何關(guān)系。

  • 再往下是Superfamily,基于遠(yuǎn)源的蛋白質(zhì)進(jìn)化關(guān)系分類。

  • 最后是Family,基于近源的蛋白質(zhì)進(jìn)化關(guān)系分類。

注意:SCOP 和CATH 里面都有提到Superfamily這個詞,但兩者的含義并不相同。CATH 里Superfamily 是指的從C 到A 到T 再到H 這樣四層的一個精細(xì)結(jié)構(gòu)分類。而Scop 中,Superfamily 是結(jié)構(gòu)分類的第三個層次的名稱。

目前,SCOP 已升級為SCOP2。SCOP2 的主頁上也有搜索條,可以查看某一個PDB 結(jié)構(gòu)的結(jié)構(gòu)分類。

搜索結(jié)果中的第2 到第5 條,就是該蛋白質(zhì)結(jié)構(gòu)的四層分類。

第一層Class,第二層Fold,第三層Superfamily,第四層Family。

第一層Class 之上是SCOP 數(shù)據(jù)庫的根。

第4 層family 之下是這個蛋白質(zhì)的名字,再往下是所屬物種。

雖然從這個譜系上看有7 個層次,但實(shí)際上真正的結(jié)構(gòu)分類只有中間四層。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容