蛋白質(zhì)的功能通常與其結(jié)構(gòu)密切相關(guān),通過解析蛋白質(zhì)的三維結(jié)構(gòu),我們可以獲得有關(guān)蛋白質(zhì)功能區(qū)域、構(gòu)象變化和與其他分子的相互作用的信息。蛋白質(zhì)解析的精度在基于結(jié)構(gòu)的藥物研究中至關(guān)重要,甚至直接影響藥物設(shè)計的成功率。
蛋白質(zhì)結(jié)構(gòu)解析工作中,X-射線衍射(XRD),冷凍電子顯微鏡(Cryo-EM)和核磁共振(NMR)是三種常用的實驗技術(shù),各自具有不同的特點和適用范圍。Cryo-EM因其不需要蛋白質(zhì)結(jié)晶,在超大分子、膜蛋白等的結(jié)構(gòu)解析上非常有優(yōu)勢。2010年之后,技術(shù)的進(jìn)步使Cryo-EM的解析精度有了極大的提高,使其在結(jié)構(gòu)解析中占有越來越重要的地位。

在EMDB數(shù)據(jù)庫中,分辨率處于3-4 ?之間的中等精度結(jié)構(gòu)占據(jù)了絕大多數(shù)。通常,分辨率大于1.5 ?時,接觸界面上的構(gòu)象就可能產(chǎn)生不確定性,進(jìn)而造成結(jié)構(gòu)的可用性下降,中分辨率的Cryo-EM結(jié)構(gòu)顯然在此之列。在Cryo-EM結(jié)構(gòu)迅猛增長的背景下,分辨率的下降究竟會給基于結(jié)構(gòu)的藥物設(shè)計產(chǎn)生什么影響,有必要進(jìn)行定量描述。下圖為電鏡解析出的一個蛋白質(zhì)結(jié)構(gòu),黃色的區(qū)域為密度圖,內(nèi)部綠色的部分為擬合的蛋白結(jié)構(gòu)。可以看到,在2.58?的分辨率下,僅能看出肽鏈的大致走向,而側(cè)鏈幾乎很難在密度圖中反映出來。

通常情況下,可以使用Re-docking驗證已知結(jié)合模式的準(zhǔn)確性。保留結(jié)合狀態(tài)下蛋白質(zhì)骨架與側(cè)鏈的結(jié)構(gòu),通過將已知的結(jié)合模式的配體重新對接到口袋中,比較重新對接得到的結(jié)合模式與已知結(jié)構(gòu)的一致性,可以評估結(jié)合模式的可靠性和準(zhǔn)確性。
Seho等人基于以上問題做了一個benchmark。他們選取了50個分辨率在1.5–3.0 ?的中等精度結(jié)構(gòu),以其中的配體進(jìn)行re-docking。另外,選取了這50個蛋白與其他配體結(jié)合或無配體的、分辨率更低(在3.0–5.0 ?之間)的結(jié)構(gòu)進(jìn)行交叉對接驗證,整個數(shù)據(jù)集共有310個結(jié)構(gòu)。對接軟件選取了最常用的Autodock Vina。

對接成功的評價標(biāo)準(zhǔn)為:top 1配體RMSD ≤ 2.0 ?(re-docking)、top 5配體RMSD ≤ 2.5 ?(cross-docking)??梢钥吹?,高精度的晶體結(jié)構(gòu)re-docking效果較好,成功率達(dá)到了68%,而更接近真實應(yīng)用場景的電鏡結(jié)構(gòu)的cross-docking成功率僅有20%。
雖然這種方法有其可行性,但對復(fù)合物的精度進(jìn)行評估是相對困難的,因為當(dāng)電子云密度圖的精度不夠高時,它就可以容納配體的多個構(gòu)象。因此,盲目地將PDB數(shù)據(jù)庫中所有復(fù)合物的結(jié)構(gòu)都作為真值是非常武斷的做法。

于是,他們采取了另一種指標(biāo)——接觸精度——來評價對接準(zhǔn)確度,而沒有使用流行的RMSD,這樣就可以假定PDB數(shù)據(jù)庫中的結(jié)構(gòu)為真值,但將誤差降低到可以容忍的范圍內(nèi)。
接觸精度指標(biāo)衡量的是配體中的原子與蛋白質(zhì)中的殘基的接觸情況。在原始復(fù)合物結(jié)構(gòu)中,配體原子與殘基間的距離小于4 ?即被視為接觸。他們對于對接成功的定義是:對接能夠恢復(fù)原始結(jié)構(gòu)中超過50%的殘基接觸(對應(yīng)到RMSD大約是2.5 ?)。

對不同精度的電鏡結(jié)構(gòu)的對接成功率進(jìn)行評估發(fā)現(xiàn),當(dāng)解析精度優(yōu)于3.0 ?時,成功率超過了60%,而當(dāng)精度低于4.0 ?時,對接幾乎總是失敗的。不過可以看到,對于高精度的晶體結(jié)構(gòu),對接成功率相當(dāng)高,幾乎接近80%,因此造成對接失敗的原因很可能是電鏡結(jié)構(gòu)的結(jié)合口袋處的殘基構(gòu)象是錯誤的。
這時你可能會問,蛋白質(zhì)的氨基酸側(cè)鏈?zhǔn)蔷哂腥嵝缘模潴w的結(jié)合也可能會誘導(dǎo)側(cè)鏈構(gòu)象發(fā)生變化,那么錯誤的構(gòu)象也可能會因配體的結(jié)合變?yōu)檎_的,如何證明側(cè)鏈構(gòu)象錯誤會導(dǎo)致對接失敗呢?實際上,雖然氨基酸側(cè)鏈具有一定的柔性,但在配體-受體的識別過程中,為了保證體系產(chǎn)生最小的熵?fù)p失,蛋白質(zhì)側(cè)鏈需要盡量保持其構(gòu)象不變,否則依然會引起體系結(jié)合自由能的損失,進(jìn)而表現(xiàn)為配體親和力下降。
Seho等人對他們數(shù)據(jù)集中的有限樣本的分析也證明了這一點,對絕大多數(shù)case而言,在口袋處僅僅有10%-20%的側(cè)鏈會因為配體的結(jié)合產(chǎn)生構(gòu)象變化,而再看電鏡解析的精度較差的結(jié)構(gòu),cross-docking數(shù)據(jù)集中側(cè)鏈變化的比例大幅度增加。

既然如此,能否對低精度的結(jié)構(gòu)進(jìn)行側(cè)鏈優(yōu)化,提升其在SBDD中的可用性呢?在Rosetta中,可以在結(jié)構(gòu)優(yōu)化的同時將密度圖添加為打分和限制條件(tutorial看這里),這種優(yōu)化策略稱為密度引導(dǎo)的局部優(yōu)化(density-guided local optimization)。下圖是使用FastRelax Mover進(jìn)行密度引導(dǎo)優(yōu)化前后的對接成功率對比,可以看到,對接成功率不僅沒有上升,反而還下降了。并且不僅是GALD(Rosetta GALigandDock)還是Vina,都有大幅下降。可見,簡單地優(yōu)化受體構(gòu)象并沒有辦法在對接任務(wù)上搶救一下中分辨率的結(jié)構(gòu)。

不少對接軟件都能進(jìn)行柔性對接,即允許氨基酸側(cè)鏈的構(gòu)象在對接過程中進(jìn)行改變。直接優(yōu)化蛋白質(zhì)不能增加對接成功率,柔性對接的效果如何呢。如下圖所示,即便嘗試了許多種不同的柔性對接算法,總體的對接成功率僅會因受體柔性提升約10%,并且這10%基本上還是由于配體的結(jié)合會讓肽鏈骨架產(chǎn)生微小的變化帶來的。前面提到過,配體結(jié)合并不會讓側(cè)鏈發(fā)生過多改變,因此對接軟件的柔性對接策略也基本是基于這一假說,所以柔性對接對提升中分辨率結(jié)構(gòu)的對接效果其實是沒有什么幫助的。

不過我們確實可以看到,高精度的晶體結(jié)構(gòu)的對接成功率是要顯著高于中分辨率的電鏡結(jié)構(gòu)的。因此,對于中分辨率的結(jié)構(gòu),為了讓他們能夠在SBDD中真正可靠地應(yīng)用起來,最需要解決的問題就是找到一種可靠的優(yōu)化算法,能夠盡量讓結(jié)合口袋處的側(cè)鏈構(gòu)象接近高精度晶體結(jié)構(gòu)中的構(gòu)象。AlphaFold2在結(jié)構(gòu)預(yù)測中的卓越表現(xiàn)大家有目共睹,也許DeepLearning也能夠在這方面展現(xiàn)出其巨大的潛力。
技術(shù)的進(jìn)步使越來越多的蛋白質(zhì)結(jié)構(gòu)被解析出來,同時,軟件也在朝著易用的方向發(fā)展,做分子對接的門檻越來越低,更多化學(xué)家都可以使用計算技術(shù)來輔助自己的工作。不過,結(jié)構(gòu)的分辨率是一個新手很容易忽視的參數(shù),Seho等人研究分辨率對分子對接的影響專門采用了新手常用的模式,即找一個最popular的對接軟件,把受體配體丟進(jìn)去對接一個結(jié)果出來看看結(jié)合能。實際上計算技術(shù)目前的發(fā)展遠(yuǎn)沒有達(dá)到這么智能的程度。許多算法能解決的問題往往只局限在一個很細(xì)的問題上,如果用戶對算法是一知半解,又沒有一套科學(xué)的方法論看待與解釋計算結(jié)果,很可能會因盲目相信計算結(jié)果而對自己的工作產(chǎn)生負(fù)面影響。
參考文獻(xiàn)
- M. Sitzmann, I. E. Weidlich, I. V. Filippov, et al., J. Chem. Inf. Model. 2012, 52(3), 739.
- Lee, S., Seok, C., Park, H., J. Comput. Chem. 2023, 44( 14), 1360.