高通量機(jī)制驅(qū)動表型化合物篩選的深度學(xué)習(xí)框架及其在COVID-19藥物再利用中的應(yīng)用

A deep learning framework for high-throughput mechanism-driven phenotype compound screening and its application to COVID-19 drug repurposing

https://www.nature.com/articles/s42256-020-00285-9

基于表型的化合物篩選比基于靶點(diǎn)的藥物發(fā)現(xiàn)具有優(yōu)勢,但不可擴(kuò)展,對藥物作用機(jī)制缺乏了解。化學(xué)誘導(dǎo)的基因表達(dá)譜提供了表型反應(yīng)的機(jī)制性特征;然而,這些數(shù)據(jù)的使用受到其稀疏性、不可靠性和相對較低的吞吐量的限制。很少有方法可以進(jìn)行基于表型的從頭化合物篩選。在這里,我們提出了一種基于機(jī)制驅(qū)動的神經(jīng)網(wǎng)絡(luò)方法DeepCE,它利用圖形神經(jīng)網(wǎng)絡(luò)和多頭注意機(jī)制來模擬化學(xué)亞結(jié)構(gòu)-基因和基因-基因關(guān)聯(lián),以預(yù)測由從頭化學(xué)物質(zhì)擾動的差異基因表達(dá)譜。此外,我們提出了一種新的數(shù)據(jù)擴(kuò)充方法,從L1000數(shù)據(jù)集中不可靠的實(shí)驗(yàn)中提取有用的信息。實(shí)驗(yàn)結(jié)果表明,DeepCE的性能優(yōu)于現(xiàn)有的方法。DeepCE生成的基因表達(dá)譜的有效性通過與下游分類任務(wù)的觀察數(shù)據(jù)進(jìn)行比較得到了進(jìn)一步的支持。為了證明DeepCE的價(jià)值,我們將其應(yīng)用于COVID-19的藥物再利用,并產(chǎn)生與臨床證據(jù)一致的新的先導(dǎo)化合物。因此,DeepCE通過利用噪聲組學(xué)數(shù)據(jù)和篩選新的化學(xué)物質(zhì)來調(diào)節(jié)系統(tǒng)對疾病的反應(yīng),為穩(wěn)健的預(yù)測建模提供了一個(gè)潛在的強(qiáng)大框架。


以靶向?yàn)榛A(chǔ)的高通量篩選在傳統(tǒng)的藥物發(fā)現(xiàn)過程中占主導(dǎo)地位。幾十年來,它一直是計(jì)算機(jī)輔助藥物發(fā)現(xiàn)的焦點(diǎn),包括深度學(xué)習(xí)的最新應(yīng)用;然而,一種化學(xué)物質(zhì)對一種蛋白質(zhì)的調(diào)節(jié)所產(chǎn)生的讀數(shù)與機(jī)體水平的治療效果或副作用關(guān)系不大。因此,從靶向篩選產(chǎn)生的先導(dǎo)化合物到批準(zhǔn)藥物的失敗率很高?;诒硇偷暮Y選為鑒定細(xì)胞活性化合物帶來了新的興趣,但由于高通量和目標(biāo)反褶積困難。因此,高通量、機(jī)制驅(qū)動的表型化合物篩選方法將有助于藥物的發(fā)現(xiàn)和開發(fā)。

基因表達(dá)譜已被廣泛用于表征細(xì)胞和機(jī)體表型。對人類細(xì)胞系化學(xué)擾動的全基因組基因表達(dá)的系統(tǒng)分析已經(jīng)導(dǎo)致了藥物發(fā)現(xiàn)和藥理學(xué)系統(tǒng)的重大改進(jìn)。特別是,基因表達(dá)譜可應(yīng)用于藥物重組1、2、3、4、發(fā)現(xiàn)藥物機(jī)制5、識別先導(dǎo)化合物6和預(yù)測臨床前化合物7的副作用。使用全基因組化學(xué)誘導(dǎo)的基因表達(dá)最初是由于連接性圖譜(CMap)8的出現(xiàn)而成為可能的,該圖譜由5個(gè)人類癌癥細(xì)胞系的基因表達(dá)譜組成,這些細(xì)胞系在6小時(shí)后受到約1300種化合物的干擾;然而,跨細(xì)胞類型的有限數(shù)據(jù)可用性限制了上述分析的性能,這在很大程度上取決于化學(xué)品和人類細(xì)胞系的覆蓋范圍。為了克服這一限制,美國國立衛(wèi)生研究院(NIH)綜合網(wǎng)絡(luò)細(xì)胞特征庫(LINCS)項(xiàng)目9開發(fā)了一種新的基因表達(dá)譜分析方法L1000(它是CMap項(xiàng)目的擴(kuò)展)。在LINCS的第一階段之后,L1000數(shù)據(jù)集包含了約1400000個(gè)基因表達(dá)譜,這些基因表達(dá)譜是關(guān)于約50個(gè)人類細(xì)胞系對約20000種化合物中的一種在不同濃度范圍內(nèi)的反應(yīng)。L1000數(shù)據(jù)集及其規(guī)范化版本10最近廣泛用于藥物再利用和發(fā)現(xiàn)11,12。盡管取得了這些成功,但在使用L1000時(shí)仍存在幾個(gè)主要問題。首先,盡管基因表達(dá)譜的數(shù)目比CMap中的要大得多,但是在化學(xué)品和細(xì)胞系的巨大組合空間中仍然存在許多缺失的表達(dá)值。第二,有數(shù)以億計(jì)的類似藥物的、可購買的化學(xué)物質(zhì)是潛在的候選藥物13。用實(shí)驗(yàn)方法檢測所有這些化學(xué)物質(zhì)在多個(gè)細(xì)胞系中的化學(xué)誘導(dǎo)基因表達(dá)譜是不可行的。最后,由于各種實(shí)驗(yàn)問題(例如批量效應(yīng)),許多實(shí)驗(yàn)測量不可靠(如補(bǔ)充圖1所示)。這些嚴(yán)重的障礙將限制利用L1000數(shù)據(jù)集進(jìn)行藥物發(fā)現(xiàn)的有效性和范圍。因此,為不可測量和不可靠的實(shí)驗(yàn)預(yù)測基因表達(dá)值是必要的。

組合空間中丟失的條目不是L1000數(shù)據(jù)集獨(dú)有的問題。在L1000出現(xiàn)之前,已經(jīng)提出了幾種基因表達(dá)數(shù)據(jù)缺失值的插補(bǔ)方法。我們將這些方法分為兩種主要方法,它們依賴于基因表達(dá)數(shù)據(jù)以外的其他信息。第一種方法不使用任何額外的信息。遵循這種方法的工作包括k近鄰(kNN)14、奇異值分解14、最小均方15、16、17、貝葉斯主成分分析18、高斯混合聚類19和支持向量回歸20。第二種方法使用額外的信息來預(yù)測表達(dá)譜。例如,化學(xué)結(jié)構(gòu)用于預(yù)測化學(xué)誘導(dǎo)的基因表達(dá),但這項(xiàng)工作沒有考慮細(xì)胞特異性信息21。

上述方法是為矩陣結(jié)構(gòu)數(shù)據(jù)(即,基因××實(shí)驗(yàn))設(shè)計(jì)的,而L1000數(shù)據(jù)集是張量結(jié)構(gòu)數(shù)據(jù)(即,基因××化學(xué)××細(xì)胞××劑量××?xí)r間),因此不能用于捕捉有助于插補(bǔ)缺失值的高維關(guān)聯(lián)1000英鎊。在L1000數(shù)據(jù)集中,提出了幾種預(yù)測基因表達(dá)譜的方法。特別是,為了處理高維結(jié)構(gòu)化數(shù)據(jù),我們開發(fā)了一個(gè)稱為多元回歸的線性回歸模型的擴(kuò)展,以捕獲特征間出現(xiàn)的交互作用22。矩陣完成方法也適用于處理張量結(jié)構(gòu)的基因表達(dá)數(shù)據(jù)23,24。

化學(xué)誘導(dǎo)基因表達(dá)預(yù)測模型及數(shù)據(jù)集

在本節(jié)中,我們介紹了我們研究中使用的數(shù)據(jù)集和我們提出的模型DeepCE,以及用于預(yù)測基因表達(dá)譜的基線模型,如線性模型、香草神經(jīng)網(wǎng)絡(luò)、kNN和張量訓(xùn)練權(quán)重優(yōu)化(TT-WOPT)模型。圖1顯示了用于L1000基因表達(dá)譜預(yù)測的訓(xùn)練和測試這些計(jì)算模型的一般框架?;旧?,計(jì)算模型以L1000的實(shí)驗(yàn)信息(即化合物、細(xì)胞系、時(shí)間戳和化學(xué)劑量)為輸入,將其轉(zhuǎn)化為數(shù)值表示,然后根據(jù)這些表示預(yù)測L1000的基因表達(dá)譜。在我們的研究中使用的化學(xué)和生物物體的數(shù)值特征轉(zhuǎn)換過程以及DeepCE和其他基線的模型實(shí)現(xiàn)的細(xì)節(jié)見補(bǔ)充說明2和4。本文還提出了從L1000不可靠實(shí)驗(yàn)中提取有用信息的數(shù)據(jù)增強(qiáng)方法,以提高模型的預(yù)測性能,并給出了模型的評價(jià)方法。

圖1:用于訓(xùn)練L1000基因表達(dá)譜預(yù)測的計(jì)算模型并將其用于下游應(yīng)用(即用于COVID-19治療的藥物再利用)的一般框架。

θ是一組模型參數(shù),f是θ的函數(shù),用于將實(shí)驗(yàn)信息映射到基因表達(dá)譜,l是θ的函數(shù),用于計(jì)算預(yù)測基因表達(dá)譜和基本真基因表達(dá)譜之間的差異。學(xué)習(xí)過程的目標(biāo)是盡量減少L1000數(shù)據(jù)集中預(yù)測剖面和地面真實(shí)剖面之間的損失。經(jīng)過訓(xùn)練后,這些模型被用于在外部分子數(shù)據(jù)庫(DrugBank)中生成新化學(xué)品的配置文件。然后將這些圖譜用于電子篩選(與患者基因表達(dá)進(jìn)行比較),以尋找治療COVID-19的潛在藥物。

數(shù)據(jù)集集合

在下面的段落中,我們介紹了我們研究中幾個(gè)生物數(shù)據(jù)集的細(xì)節(jié)和用法,包括L1000、STRING、藥庫和COVID-19患者的轉(zhuǎn)錄組數(shù)據(jù)。我們還在補(bǔ)充表1中提供了這些數(shù)據(jù)集的摘要。

基于貝葉斯的L1000數(shù)據(jù)峰值反褶積

在L1000的原始版本發(fā)布9之后,人們做出了許多努力來提高這個(gè)數(shù)據(jù)集的質(zhì)量。例如,一些工作建議使用高斯混合模型來提高峰值反褶積步驟26、27的精度,而不是按照原始版本使用k均值聚類算法。另一項(xiàng)工作是開發(fā)一種稱為特征方向的多變量方法來計(jì)算基因特征,而不是使用原始版本10的調(diào)節(jié)z-分?jǐn)?shù)。在我們的研究中,我們在基于貝葉斯的峰值反褶積L1000數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,該數(shù)據(jù)集可以從L1000分析數(shù)據(jù)中生成更穩(wěn)健的z-分?jǐn)?shù)剖面,因此可以更好地表示擾動因子28。特別是,我們在這個(gè)數(shù)據(jù)集的第5級數(shù)據(jù)上訓(xùn)練和評估我們提出的方法。利用L1000數(shù)據(jù)集中7個(gè)最常見細(xì)胞系和6個(gè)最常見化學(xué)劑量的實(shí)驗(yàn)結(jié)果構(gòu)建了我們的基因表達(dá)數(shù)據(jù)集。然后,我們從我們的數(shù)據(jù)集中選擇高質(zhì)量的實(shí)驗(yàn),并將它們分成高質(zhì)量的訓(xùn)練集以及開發(fā)和測試集。我們還通過在我們的基因表達(dá)數(shù)據(jù)集中保留不可靠的實(shí)驗(yàn)來構(gòu)造原始訓(xùn)練集,并通過我們的數(shù)據(jù)擴(kuò)充算法生成擴(kuò)充訓(xùn)練集。這些集合的構(gòu)造細(xì)節(jié)見補(bǔ)充說明1。這些培訓(xùn)、開發(fā)和測試集的統(tǒng)計(jì)數(shù)據(jù)見補(bǔ)充表2。

人類蛋白質(zhì)相互作用的字符串?dāng)?shù)據(jù)庫

STRING29是蛋白質(zhì)相互作用的多源數(shù)據(jù)庫。這些可以直接(物理)或間接(功能)已知或預(yù)測的相互作用來自五個(gè)主要來源,包括基因組背景預(yù)測、高通量實(shí)驗(yàn)室實(shí)驗(yàn)、保守共表達(dá)、自動文本挖掘和過去的知識數(shù)據(jù)庫。在我們的設(shè)置中,我們從這個(gè)數(shù)據(jù)庫中提取人類蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(即約19000個(gè)節(jié)點(diǎn)(蛋白質(zhì))和約12000000個(gè)邊緣(相互作用)),以計(jì)算L1000基因的載體表達(dá)。在我們的研究中使用的化合物的藥物靶向載體表示也由這個(gè)人類蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)計(jì)算。從字符串?dāng)?shù)據(jù)庫生成這些表示的詳細(xì)信息見補(bǔ)充說明2。

用于藥物-靶點(diǎn)相互作用和疾病預(yù)測的藥物庫數(shù)據(jù)庫

DrugBank是一個(gè)著名的綜合數(shù)據(jù)庫,用于許多生物信息學(xué)和化學(xué)信息學(xué)任務(wù)30。這個(gè)數(shù)據(jù)庫包括有關(guān)藥物及其靶點(diǎn)的信息。在我們的實(shí)驗(yàn)中,我們從ATC樹的第一級提取解剖治療化學(xué)(ATC)標(biāo)簽,并從DrugBank的L1000數(shù)據(jù)集中提取藥物靶點(diǎn)。在提取的數(shù)據(jù)集中有698個(gè)藥物靶點(diǎn)和14個(gè)ATC標(biāo)簽。在此數(shù)據(jù)集中,我們根據(jù)藥物標(biāo)簽的出現(xiàn)頻率,選擇出現(xiàn)頻率最高的ATC標(biāo)簽和藥物靶點(diǎn)作為藥物標(biāo)簽,分別形成藥物靶點(diǎn)和ATC預(yù)測數(shù)據(jù)集。這些數(shù)據(jù)集用于評估從我們的模型生成的基因表達(dá)譜的性能。我們還預(yù)測了DrugBank中所有藥物的基因表達(dá)譜,并用它們來篩選COVID-19治療的潛在候選藥物。

SARS-CoV-2感染對患者表達(dá)的影響

本研究的患者表達(dá)數(shù)據(jù)集可從國家基因組數(shù)據(jù)中心(NGDC,PRJCA002273)31和國家生物技術(shù)信息中心(NCBI,GSE147507)32下載。前者包括8例SARS-CoV-2患者和12例健康樣本,后者只有1例SARS-CoV-2患者和2例健康樣本。對于每個(gè)數(shù)據(jù)集,我們使用來自SARS-CoV-2患者和健康陰性對照的表達(dá)譜進(jìn)行差異表達(dá)分析。因此,第一個(gè)數(shù)據(jù)集可以被認(rèn)為是基于人群的基因表達(dá)分析,而第二個(gè)數(shù)據(jù)集是針對患者的基因表達(dá)分析。DESeq233包用于生成患者的差異基因表達(dá)譜。并不是所有的L1000基因都出現(xiàn)在DESeq2包的結(jié)果中,因此我們在與化學(xué)誘導(dǎo)的基因表達(dá)譜進(jìn)行比較時(shí),只考慮同時(shí)出現(xiàn)在L1000數(shù)據(jù)集和DESeq2包中的基因。

該模型由三個(gè)主要部分組成:用GCN生成化合物特征的特征轉(zhuǎn)換部分,用預(yù)先訓(xùn)練好的信息表示L1000個(gè)基因,用前饋神經(jīng)網(wǎng)絡(luò)生成細(xì)胞和劑量的特征;學(xué)習(xí)高級特征關(guān)聯(lián)的交互網(wǎng)絡(luò)(省略與交互網(wǎng)絡(luò)中第一層結(jié)構(gòu)相似的第二層的細(xì)節(jié)以節(jié)省空間);從高級特征預(yù)測基因表達(dá)譜的預(yù)測網(wǎng)絡(luò)。

神經(jīng)指紋的GCN

對于許多生物預(yù)測問題,數(shù)據(jù)驅(qū)動的化學(xué)指紋比預(yù)先定義的化學(xué)指紋(如PubChem,Extended Connectivity Fingerprint(ECFP))更有效。因此,我們建議使用GCN來捕捉化學(xué)子結(jié)構(gòu)信息。用于化學(xué)指紋的原始GCN模型34以化合物的圖結(jié)構(gòu)作為輸入,并通過卷積運(yùn)算從圖(化合物)的鄰域更新圖(化合物)中的每個(gè)節(jié)點(diǎn)(原子)的向量表示。因此,卷積運(yùn)算后每個(gè)節(jié)點(diǎn)的向量可以看作是化學(xué)子結(jié)構(gòu)的表示。最后一個(gè)向量(每個(gè)節(jié)點(diǎn)的向量之和)作為化學(xué)指紋。在我們的實(shí)驗(yàn)中使用的GCN模型主要是基于該模型,但有一個(gè)小的修改。特別是,我們?yōu)槊總€(gè)節(jié)點(diǎn)輸出向量表示,而不是為化合物輸出一個(gè)向量表示,因?yàn)槲覀兿胍M化學(xué)子結(jié)構(gòu)特征與基因特征的關(guān)聯(lián)。在我們的設(shè)置中,我們使用具有兩個(gè)卷積層(半徑,R?=?2)的GCN模型。這意味著每個(gè)原子的GCN的輸出向量表示化學(xué)子結(jié)構(gòu),它是該原子的兩個(gè)躍點(diǎn)的跨度。原子的初始表示(捕捉原子的符號、度、氫鄰域數(shù)和芳香性)和鍵的初始表示(捕捉鍵的類型)分別是長度分別為62和6的多個(gè)熱向量。實(shí)驗(yàn)中使用的GCN模型的細(xì)節(jié)見補(bǔ)充算法1。

基因-基因和化學(xué)亞結(jié)構(gòu)-基因特征關(guān)聯(lián)的多頭注意

注意機(jī)制是一個(gè)集合中的一個(gè)元素根據(jù)注意權(quán)重有選擇地聚焦于另一個(gè)集合(注意)或其集合(自我注意)的子集,在基于神經(jīng)網(wǎng)絡(luò)的模型中得到廣泛應(yīng)用,并有效地應(yīng)用于許多人工智能任務(wù),包括計(jì)算機(jī)視覺和自然語言處理。在我們的實(shí)驗(yàn)中,我們提出應(yīng)用多頭注意方法來模擬基因特征、基因和化學(xué)子結(jié)構(gòu)特征之間的關(guān)聯(lián)。在transformer模型中首次提出了多頭注意,它為許多自然語言處理任務(wù)提供了最新的結(jié)果35。基本上,集合中的每個(gè)元素都可以由一組三個(gè)向量表示:查詢、鍵和值。單個(gè)注意模塊是一個(gè)將查詢和鍵值對集映射到輸出矩陣的函數(shù),輸出矩陣由以下公式計(jì)算:

{\mathrm{Attention}}({Q},{K},{V})={\mathrm{softmax}}\left(\frac{{QK}^{T}}{\sqrt{u0z1t8os_{k}}}\right){V}

其中Q、K、V分別是查詢、鍵、值的矩陣(集合),T是轉(zhuǎn)置運(yùn)算,dk是縮放因子。多頭注意通過連接幾個(gè)單獨(dú)的注意模塊來關(guān)注不同的表示子空間:

{\mathrm{MultiHead}}({Q},{K},{V})={\mathrm{concat}}({\mathrm{heau0z1t8os}}_{1},...,{\mathrm{heau0z1t8os}}_{h}){{W}}^{O}

其中{\mathrm{heau0z1t8os}}_{i}={\mathrm{Attention}}({Q}{{W}}_{i}^{Q},{K}{{W}}_{i}^{K},{V}{{W}}_{i}^{V}),WO,WQ,WK,WV是學(xué)習(xí)參數(shù),h是頭數(shù)。

這種多頭注意機(jī)制是用來構(gòu)建DeepCE交互成分的主要成分。特別地,交互組件包括兩個(gè)相同的層,其中第一層的輸出用作第二層的輸入。對于每一層,我們使用兩個(gè)獨(dú)立的多頭部注意模塊,每個(gè)模塊有四個(gè)頭部來模擬基因集中的基因之間以及基因集中的元素和化學(xué)子結(jié)構(gòu)集中的元素之間的關(guān)聯(lián)。查詢、鍵和值向量的長度設(shè)置為512。將這兩個(gè)多頭注意模塊的輸出串聯(lián)起來,放入歸一化層、前饋層和另一歸一化層。交互組件的抽象架構(gòu)如圖2所示。

多輸出預(yù)測

多輸出預(yù)測組件是一個(gè)具有校正線性單元(ReLU)激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò),將輸入作為化學(xué)神經(jīng)指紋、互作組件生成的基因特征、細(xì)胞系和化學(xué)劑量特征的串聯(lián),以預(yù)測所有基因的基因表達(dá)值L1000基因組合如下:

{Y}={{W}}_{2}(\mathrm{{ReLU}}({{W}}_{1}{X}+{{\bf}}_{1}))+{{\bf}}_{2}

其中W1、W2、b1、b2是該網(wǎng)絡(luò)的權(quán)重矩陣和偏差向量。這個(gè)前饋神經(jīng)網(wǎng)絡(luò)的輸出大小被設(shè)置為978,這是L1000個(gè)基因的數(shù)目。

目標(biāo)函數(shù)

DeepCE模型中使用的目標(biāo)函數(shù)是預(yù)測值和基本真值基因表達(dá)值之間的均方誤差(MSE),計(jì)算如下:

{{\bf{loss}}}_{\mathrm{DeepCE}}({{\Theta }})=\frac{1}{NM}\mathop{\sum }\nolimits_{i = 1}^{N}\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{y}_{i,j})}^{2}

其中,Θ是DeepCE模型中的一組參數(shù);N和M分別是數(shù)據(jù)集中基因表達(dá)譜的數(shù)量和L1000基因的數(shù)量;zi,j和yi,j分別是第i個(gè)基因表達(dá)譜中第j個(gè)基因的基本真值和預(yù)測基因表達(dá)值。

基線模型

在本節(jié)中,我們描述了我們實(shí)驗(yàn)中使用的幾種基線模型,包括線性模型、香草神經(jīng)網(wǎng)絡(luò)、kNN和TT-WOPT24。

線性模型

我們實(shí)驗(yàn)了一個(gè)多輸出線性回歸模型及其正則化版本,包括套索回歸(L1正則化)和嶺回歸(L2正則化)模型。與DeepCE類似,這些模型的輸入是化學(xué)、基因、細(xì)胞系和化學(xué)劑量特征的數(shù)值表示的串聯(lián),但是我們使用預(yù)定義的化學(xué)指紋和藥物靶點(diǎn)特征,而不是來自GCN的數(shù)據(jù)驅(qū)動表示。這些陳述的細(xì)節(jié)在補(bǔ)充資料中描述。多輸出線性模型可以看作是無激活函數(shù)的單層前饋神經(jīng)網(wǎng)絡(luò)。

香草神經(jīng)網(wǎng)絡(luò)

我們實(shí)驗(yàn)中使用的香草神經(jīng)網(wǎng)絡(luò)可以看作是DeepCE模型的一個(gè)簡單版本,它不包括用于模擬基因-基因和基因-化學(xué)子結(jié)構(gòu)特征關(guān)聯(lián)的交互網(wǎng)絡(luò)組件,以及用于生成神經(jīng)指紋的GCN。這種普通神經(jīng)網(wǎng)絡(luò)的輸入類似于線性模型的輸入。該網(wǎng)絡(luò)中的以下幾層類似于DeepCE模型中的預(yù)測網(wǎng)絡(luò)組件,它是一個(gè)具有ReLU激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)。

kNN公司

我們還提出了一種基于kNN的新化學(xué)環(huán)境下基因表達(dá)預(yù)測方法。具體地,通過對同一設(shè)置中的訓(xùn)練集中的新化合物的最近鄰域的基因表達(dá)譜求平均來生成在一特定設(shè)置(即,細(xì)胞系、化學(xué)劑量)中的新化合物的基因表達(dá)譜。在我們的研究中,我們實(shí)驗(yàn)了從1到15的不同鄰域數(shù)和不同的相似性度量,包括余弦、相關(guān)、Jaccard和Tanimoto,以及歐氏距離。

張量列車重量優(yōu)化

張量序列權(quán)重優(yōu)化(TT-WOPT)是一種張量完成方法,旨在從現(xiàn)有的張量數(shù)據(jù)中提取缺失值。它已被證明是預(yù)測L1000數(shù)據(jù)集缺失值的有效方法,L1000數(shù)據(jù)集可以表示為張量結(jié)構(gòu)對象,而無需使用額外的信息24。在我們的研究中,我們進(jìn)行了實(shí)驗(yàn)比較TT-WOPT與我們提出的模型,特別是在從頭化學(xué)設(shè)置。由于該模型不需要額外的信息,因此輸入是以張量表示的L1000基因表達(dá)值。

數(shù)據(jù)擴(kuò)充

從補(bǔ)充圖1可以看出,L1000中只有少量的實(shí)驗(yàn)是可靠的(平均皮爾遜相關(guān)(APC)得分?≥?0.7),因此如果我們不能從大量不可靠的實(shí)驗(yàn)中利用有用的信息,將是浪費(fèi)。我們在表1中顯示,簡單地向高質(zhì)量的訓(xùn)練集(原始訓(xùn)練集)添加不可靠的實(shí)驗(yàn)會使我們的模型的性能變差。因此,我們提出了一種數(shù)據(jù)擴(kuò)充方法,通過這種方法我們可以有效地利用不可靠的實(shí)驗(yàn)來提高我們模型的性能。我們認(rèn)為,雖然一個(gè)實(shí)驗(yàn)(5級數(shù)據(jù))是不可靠的,但并不是所有的生物復(fù)制實(shí)驗(yàn)(4級數(shù)據(jù))都是不可靠的,我們將通過我們提出的數(shù)據(jù)擴(kuò)充方法提取這些可靠的生物復(fù)制實(shí)驗(yàn)。其基本思想是,我們首先在高質(zhì)量的訓(xùn)練集上訓(xùn)練我們的模型,然后為不可靠的實(shí)驗(yàn)生成預(yù)測的基因表達(dá)譜。將這些預(yù)測的基因表達(dá)譜與它們的生物復(fù)制基因表達(dá)譜進(jìn)行比較,并且我們合并了與它們的預(yù)測基因表達(dá)譜的相似性分?jǐn)?shù)大于閾值的生物復(fù)制基因表達(dá)譜。補(bǔ)充算法2詳細(xì)介紹了這種數(shù)據(jù)擴(kuò)充方法。在我們的設(shè)置中,相似性得分是皮爾遜相關(guān)。

表1用不同訓(xùn)練集訓(xùn)練的普通神經(jīng)網(wǎng)絡(luò)、kNN、具有不同化學(xué)特征的線性模型、TTWOPT和DeepCE及其簡單變體的測試集的性能


績效評估

實(shí)驗(yàn)中采用皮爾遜相關(guān)系數(shù)作為評價(jià)模型性能的主要指標(biāo)。在微陣列數(shù)據(jù)分析中,測量基本真值和預(yù)測基因表達(dá)譜之間關(guān)系的相關(guān)分?jǐn)?shù)已被證明比誤差測量更有效36,37。此外,利用Pearson相關(guān),我們可以對我們的模型進(jìn)行無偏評估,這些模型是針對MSE優(yōu)化的。我們計(jì)算數(shù)據(jù)集的平均皮爾遜相關(guān)性如下:

r=\frac{1}{N}\mathop{\sum }\nolimits_{i = 1}^{N}\frac{\mathop{\sum }\nolimits_{j = 1}^{M}({z}_{i,j}-{\bar{z}}_{i})({y}_{i,j}-{\bar{y}}_{i})}{\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{\bar{z}}_{i})}^{2}}\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({y}_{i,j}-{\bar{y}}_{i})}^{2}}}

其中{z}_{i,j},{y}_{i,j},{\bar{z}}_{i},{\bar{y}}_{i}分別是第i個(gè)基因表達(dá)譜中第j個(gè)基因的基本真值和預(yù)測基因表達(dá)值,以及第i個(gè)基因表達(dá)譜的基本真值和預(yù)測平均值。

除了Pearson相關(guān)外,我們還報(bào)告了其他指標(biāo)的模型性能,包括均方根誤差(r.m.s.e.)、基因集富集分析(GSEA)38、39和39精度@k。雖然皮爾遜相關(guān)和r.m.s.e.捕獲了所有L1000基因之間的變異,GSEA和P@k公司(包括正面和負(fù)面)P@k公司)只關(guān)注最重要的上調(diào)和下調(diào)基因。因此,使用多個(gè)度量標(biāo)準(zhǔn)可以從不同方面衡量模型的性能。這些額外指標(biāo)的詳情見補(bǔ)充說明3。

此外,我們使用受試者操作特性曲線(AUC)下的面積來驗(yàn)證這些預(yù)測輪廓對于下游二分類任務(wù)(包括藥物靶點(diǎn)和ATC代碼預(yù)測)的有效性。

結(jié)果和討論

下面的結(jié)果和討論主要基于Pearson相關(guān);我們還通過其他指標(biāo)觀察到相同的模式。

在新的化學(xué)環(huán)境中,DeepCE大大優(yōu)于基線模型

在這個(gè)實(shí)驗(yàn)中,我們比較了DeepCE和它的簡單變體,這些變體是通過去除整個(gè)相互作用成分或僅僅是其中的一部分(即化學(xué)亞結(jié)構(gòu)-基因或基因-基因特征關(guān)聯(lián)模塊)來構(gòu)建的,包括一個(gè)香草神經(jīng)網(wǎng)絡(luò)、kNN、線性模型和TT-WOPT。雖然TT-WOPT僅根據(jù)基因表達(dá)值預(yù)測產(chǎn)量,但其他模型則學(xué)習(xí)實(shí)驗(yàn)信息與基因表達(dá)譜之間的關(guān)系進(jìn)行預(yù)測。對于DeepCE,我們使用神經(jīng)指紋,而對于其他模型,我們使用預(yù)定義的指紋,包括PubChem和circular(ECFP6)指紋,以及藥物靶點(diǎn)信息,包括潛在靶點(diǎn)相互作用譜(LTIP)40和我們提出的藥物靶點(diǎn)特征來表示化學(xué)品。所有模型都在高質(zhì)量的訓(xùn)練集上進(jìn)行訓(xùn)練,并在測試集上進(jìn)行評估。

如表1所示,DeepCE模型及其變體比基線模型實(shí)現(xiàn)了數(shù)量級的改進(jìn)。特別是,通過在測試集上實(shí)現(xiàn)0.4907的皮爾遜相關(guān)(配對t檢驗(yàn),P值?<?4.63?×?10?15),DeepCE模型大大優(yōu)于其他模型,包括香草神經(jīng)網(wǎng)絡(luò)、kNN、線性模型和TT-WOPT。與去除了相互作用成分的簡單變體相比,DeepCE也獲得了更好的性能,表明化學(xué)亞結(jié)構(gòu)-基因和基因-基因特征關(guān)聯(lián)建模的有效性。具體而言,當(dāng)去除化學(xué)亞結(jié)構(gòu)-基因特征關(guān)聯(lián)部分(Deep-CE-藥物-基因attn)、基因-基因特征關(guān)聯(lián)部分(Deep-CE-基因-基因attn)和整個(gè)相互作用成分(Deep-CE-基因attn)時(shí),DeepCE的性能降低到0.4620、0.4477和0.4418(配對t檢驗(yàn),P值?<?2.25?×?10?5)。我們還通過觀察細(xì)胞系、化學(xué)劑量和L1000基因來深入研究DeepCE的性能。該分析的結(jié)果顯示在補(bǔ)充圖中。2和3。對于基線模型,vanilla神經(jīng)網(wǎng)絡(luò)和kNN取得了較好的性能。線性模型包括線性回歸,套索和嶺回歸不能很好地解決我們的問題。這表明線性關(guān)系不足以對數(shù)據(jù)集中變量之間的依賴關(guān)系進(jìn)行建模。TT-WOPT,正如預(yù)期的那樣,不利用基因表達(dá)值以外的其他特征來進(jìn)行預(yù)測,在從頭化學(xué)環(huán)境中不起作用。特別是,它實(shí)現(xiàn)了0.0144的皮爾遜相關(guān),這類似于隨機(jī)性。我們還通過對高質(zhì)量數(shù)據(jù)集進(jìn)行交叉驗(yàn)證,對這些性能進(jìn)行了誤差估計(jì)。結(jié)果見補(bǔ)充表5。

在插補(bǔ)設(shè)置方面,DeepCE優(yōu)于最先進(jìn)的方法

我們進(jìn)一步研究了DeepCE在傳統(tǒng)插補(bǔ)設(shè)置下的性能,該設(shè)置不要求測試集中的化學(xué)物質(zhì)與訓(xùn)練集中的化學(xué)物質(zhì)不同,并將其與TT-WOPT進(jìn)行了比較,結(jié)果表明,TT-WOPT對該設(shè)置是有效的。為此,我們將高質(zhì)量的數(shù)據(jù)集隨機(jī)拆分為新的訓(xùn)練集、開發(fā)集和測試集,并在這些集上進(jìn)行實(shí)驗(yàn)。請注意,此時(shí),我們按基因表達(dá)譜(而不是化合物)拆分?jǐn)?shù)據(jù)集。插補(bǔ)設(shè)置的培訓(xùn)、開發(fā)和測試集詳情見補(bǔ)充表3。

對于傳統(tǒng)的插補(bǔ)設(shè)置,我們觀察到DeepCE比TT-WOPT有很大的優(yōu)勢。特別是,對于TT-WOPT,DeepCE的Pearson相關(guān)系數(shù)為0.7010對0.5113。這一結(jié)果表明,通過有效利用化學(xué)和生物對象(包括化合物和基因)的特征,DeepCE在從頭化學(xué)和傳統(tǒng)插補(bǔ)設(shè)置中始終取得最佳性能。

化學(xué)相似性對預(yù)測性能有影響

為了深入研究我們模型的預(yù)測性能,我們探討了測試集和訓(xùn)練集之間化學(xué)相似性的影響。特別地,我們計(jì)算測試集中的一個(gè)實(shí)驗(yàn)和訓(xùn)練集中的最近鄰實(shí)驗(yàn)之間的距離,這些實(shí)驗(yàn)是由同一細(xì)胞系上最相似的化學(xué)物質(zhì)(通過比較它們的指紋和測試集中的實(shí)驗(yàn)所誘導(dǎo)的化學(xué)化合物的指紋來確定)誘導(dǎo)的。兩個(gè)實(shí)驗(yàn)之間的距離是兩種化學(xué)物質(zhì)PubChem指紋的Tanimoto系數(shù),測試集中的實(shí)驗(yàn)與其訓(xùn)練集中的最近鄰實(shí)驗(yàn)之間的距離是該實(shí)驗(yàn)與其每個(gè)最近鄰實(shí)驗(yàn)之間距離的平均值。在計(jì)算測試集中所有實(shí)驗(yàn)到訓(xùn)練集的距離后,我們按升序排序并比較這些實(shí)驗(yàn)的Pearson相關(guān)分?jǐn)?shù)。我們計(jì)算測試集中所有實(shí)驗(yàn)的平均皮爾遜相關(guān)分?jǐn)?shù),這些實(shí)驗(yàn)到訓(xùn)練集的距離小于排序列表的第一個(gè)四分位數(shù)(Q1),從Q1到第二個(gè)四分位數(shù)(Q2),從Q2到第三個(gè)四分位數(shù)(Q3),并且大于Q3。圖3顯示了三個(gè)模型(包括DeepCE、vanilla神經(jīng)網(wǎng)絡(luò)和kNN)在這些距離上的平均Pearson相關(guān)分?jǐn)?shù);我們可以看到,當(dāng)測試集中的實(shí)驗(yàn)與訓(xùn)練集中的最近鄰實(shí)驗(yàn)更相似時(shí),所有模型的預(yù)測性能都更高。我們還認(rèn)識到,對于所有距離類別,DeepCE都比vanilla神經(jīng)網(wǎng)絡(luò)和kNN具有更好的性能,特別是對于距離訓(xùn)練集小于Q1的實(shí)驗(yàn)。

在訓(xùn)練集和測試集中,不同化學(xué)品之間距離的DeepCE、vanilla神經(jīng)網(wǎng)絡(luò)和kNN的性能。d是由Tanimoto系數(shù)在訓(xùn)練集和測試集中測量的化合物之間的距離,Q1、Q2和Q3是距離排序列表的第一、第二和第三個(gè)四分位數(shù)。

數(shù)據(jù)質(zhì)量對預(yù)測性能有重要影響

除了稀疏性問題外,L1000數(shù)據(jù)集還包含許多不可靠的基因表達(dá)譜。為了研究噪聲對我們模型預(yù)測性能的影響,我們在不同的訓(xùn)練集上訓(xùn)練了兩個(gè)基線模型(包括神經(jīng)網(wǎng)絡(luò)和kNN),這些訓(xùn)練集是通過過濾不可靠的基因表達(dá)譜而產(chǎn)生的,不同的APC閾值從–1(原始訓(xùn)練集)到0.7(高質(zhì)量訓(xùn)練集)。PubChem指紋圖譜是本實(shí)驗(yàn)所用的化學(xué)特征。

如圖4所示,所有模型具有相同的模式。從閾值0.1開始,當(dāng)閾值較高時(shí),它們在測試集上獲得更好的性能,最佳設(shè)置是在高質(zhì)量的訓(xùn)練集上訓(xùn)練我們的模型(即,vanilla神經(jīng)網(wǎng)絡(luò)的Pearson相關(guān)系數(shù)為0.3923,kNN的Pearson相關(guān)系數(shù)為0.3903)。對于在閾值<0.1的原始訓(xùn)練集和過濾不可靠實(shí)驗(yàn)生成的其他訓(xùn)練集上的訓(xùn)練,地面真值和預(yù)測的基因表達(dá)譜是不相關(guān)的,顯示了模型預(yù)測的隨機(jī)性。這些結(jié)果表明,不可靠數(shù)據(jù)對預(yù)測性能有嚴(yán)重的負(fù)面影響,從數(shù)據(jù)集中去除這部分?jǐn)?shù)據(jù)是獲得良好性能的必要條件。

香草神經(jīng)網(wǎng)絡(luò)和kNN在不同APC閾值設(shè)置下的皮爾遜相關(guān)分?jǐn)?shù)。這些模型在不同APC閾值下過濾不可靠實(shí)驗(yàn)生成的訓(xùn)練集上進(jìn)行訓(xùn)練,然后在高質(zhì)量的測試集上進(jìn)行評估。

一種新的數(shù)據(jù)擴(kuò)充方法提高了模型的性能

我們提出了數(shù)據(jù)擴(kuò)充方法(在補(bǔ)充算法2中詳細(xì)描述)來有效地利用來自不可靠基因表達(dá)譜的有用信息。在這個(gè)實(shí)驗(yàn)中,我們評估了這種方法對我們的模型的影響。特別地,使用高質(zhì)量訓(xùn)練集上訓(xùn)練的DeepCE生成基因表達(dá)譜,選擇生物復(fù)制譜的閾值為0.5,這與DeepCE的性能相似。此擴(kuò)充訓(xùn)練集的統(tǒng)計(jì)數(shù)據(jù)如補(bǔ)充表1所示。

在增廣訓(xùn)練集上訓(xùn)練vanilla神經(jīng)網(wǎng)絡(luò)、kNN和DeepCE的實(shí)驗(yàn)結(jié)果如表1所示。我們可以看到,在大多數(shù)情況下,在這個(gè)增廣訓(xùn)練集上訓(xùn)練的所有模型的性能都得到了提高。例如,DeepCE的Pearson相關(guān)系數(shù)從0.4907增加到0.5014(配對t檢驗(yàn),P值<0.05)。這些結(jié)果表明,從不可靠的基因表達(dá)譜中提取的信息對基因表達(dá)預(yù)測是有效的。

化學(xué)特征的選擇影響模型的性能

在這個(gè)實(shí)驗(yàn)中,我們研究了幾種化學(xué)特征表示對我們模型的有效性。本實(shí)驗(yàn)中使用的模型是一個(gè)用于PubChem的香草神經(jīng)網(wǎng)絡(luò)、ECFP指紋、我們提出的藥物靶點(diǎn)特征和LTIP,以及用于神經(jīng)指紋的沒有交互成分的DeepCE模型。這些模型是在高質(zhì)量的訓(xùn)練集上訓(xùn)練的。我們還通過從離散均勻分布生成大小類似于PubChem指紋的隨機(jī)二元向量來創(chuàng)建隨機(jī)化學(xué)特征。

表1顯示了這些模型在不同化學(xué)特征表示下的皮爾遜相關(guān)性能。首先,化學(xué)特征比隨機(jī)特征具有更好的性能,這表明化學(xué)特征捕獲了有關(guān)化學(xué)物質(zhì)的重要信息,有助于預(yù)測基因表達(dá)譜。第二,使用神經(jīng)指紋的DeepCE獲得了0.4418的Pearson相關(guān)性,這是與其他設(shè)置(配對t檢驗(yàn),P值?<?4.89?×?10?5)相比的最佳性能。對于其他化學(xué)特征,基于生物的特征(包括藥物靶點(diǎn)特征和LTIP)比基于化學(xué)的特征(包括PubChem和ECFP指紋)的性能稍好。所有這些觀察結(jié)果均通過配對t檢驗(yàn)進(jìn)行驗(yàn)證,P值<0.01。事實(shí)上,大多數(shù)P值遠(yuǎn)小于0.01。

我們還進(jìn)行了消融研究,通過從特征向量中去除其他特征(即細(xì)胞系、劑量)來研究它們對預(yù)測性能的影響。補(bǔ)充表6中的結(jié)果表明,刪除這些特征會降低DeepCE的性能,最壞的情況是刪除細(xì)胞系和劑量信息。

DeepCE在預(yù)測下游任務(wù)方面是有效的

在本節(jié)中,我們設(shè)計(jì)了一個(gè)實(shí)驗(yàn)來回答這樣一個(gè)問題:這些預(yù)測的基因表達(dá)譜是否能夠?yàn)橄掠晤A(yù)測任務(wù)提供附加值,特別是在L1000數(shù)據(jù)集中的原始基因表達(dá)譜不可靠的情況下。我們首先提取在L1000(原始特征集)中沒有可靠實(shí)驗(yàn)的化學(xué)品的基因表達(dá)譜,并使用在高質(zhì)量訓(xùn)練集上訓(xùn)練的DeepCE模型生成這些藥物的基因表達(dá)譜(預(yù)測特征集)。然后,我們使用這些集合作為藥物的特征來訓(xùn)練兩個(gè)任務(wù)的分類模型:ATC編碼和藥物靶點(diǎn)預(yù)測。這些數(shù)據(jù)集的構(gòu)造細(xì)節(jié)見補(bǔ)充說明1和補(bǔ)充表7。最后,我們訓(xùn)練了四種流行的分類模型,包括logistic回歸、支持向量機(jī)、kNN和決策樹,使用14種不同版本的化學(xué)特征(每個(gè)原始特征集和預(yù)測特征集有7種細(xì)胞特異性特征),用于14個(gè)二元分類任務(wù)(即,10個(gè)ATC代碼和4個(gè)毒品目標(biāo))。對于每個(gè)實(shí)驗(yàn)設(shè)置,我們使用交叉驗(yàn)證并報(bào)告平均結(jié)果。

COVID-19的藥物再利用

為了進(jìn)一步證明DeepCE的價(jià)值,我們使用化學(xué)誘導(dǎo)的基因表達(dá)譜來發(fā)現(xiàn)治療COVID-19的潛在藥物。由于COVID-19患者的疾病狀態(tài)和癥狀因年齡、性別、基礎(chǔ)條件等因素的不同而顯著不同,因此我們在兩種情況下評估了COVID-19任務(wù)的藥物再利用,包括人群(患者組)和個(gè)體(患者個(gè)體)分析。特別是,我們首先在L1000數(shù)據(jù)集的高質(zhì)量部分使用經(jīng)過訓(xùn)練的DeepCE生成Drugbank數(shù)據(jù)庫中所有11179種藥物在最大化學(xué)劑量下的預(yù)測基因表達(dá)譜。對于患者基因表達(dá)譜,我們使用來自NGDC和NCBI的SARS-COV-2基因表達(dá)數(shù)據(jù)集,分別計(jì)算基于人群和個(gè)體的患者的差異基因表達(dá)譜。具體來說,DESeq2軟件包用于從8個(gè)SARS-CoV-2患者和12個(gè)健康樣本(基于人群)以及從1個(gè)SARS-CoV-2患者和2個(gè)健康樣本(基于個(gè)體)生成患者檔案。然后,我們通過計(jì)算Spearman的基因表達(dá)譜與患者基因表達(dá)譜之間的秩序相關(guān)得分,在Drugbank中篩選藥物,并選擇得分最負(fù)的藥物作為潛在藥物。在這里,我們將A549的基因表達(dá)譜與高質(zhì)量數(shù)據(jù)集中的主要七個(gè)細(xì)胞系相鄰的癌肺組織結(jié)合起來。除了預(yù)測的基因表達(dá)譜外,我們還包括從L1000數(shù)據(jù)集的高質(zhì)量部分提取的基因表達(dá)譜。對于每個(gè)細(xì)胞系,我們提取與患者資料負(fù)相關(guān)得分最高的前100種藥物作為潛在藥物。最后,作為篩選過程的結(jié)果,我們輸出了在所有細(xì)胞系中都有可能進(jìn)行COVID-19治療的藥物。

表2用于COVID-19治療的潛在藥物的化學(xué)結(jié)構(gòu)、現(xiàn)狀和已知用途(即,當(dāng)通過Spearman相關(guān)性將其細(xì)胞特異性預(yù)測基因表達(dá)譜與基于polulation的患者譜進(jìn)行比較時(shí),出現(xiàn)在所有8個(gè)細(xì)胞系的前100個(gè)藥物列表中的藥物)。實(shí)驗(yàn)藥物和研究藥物分別是處于臨床前或動物試驗(yàn)階段和人體臨床試驗(yàn)階段的藥物

基于人群和個(gè)體的藥物再利用結(jié)果分別如表2和擴(kuò)展數(shù)據(jù)圖2所示。COVID-19誘導(dǎo)的急性呼吸衰竭被認(rèn)為與病毒的直接致病性和宿主炎癥反應(yīng)的失調(diào)有關(guān)。如表2所示,在我們確定用于人群分析的十種藥物中,三種是用于丙型肝炎治療的抗病毒藥物,兩種是免疫抑制劑。特別是,揮發(fā)性物質(zhì)通道蛋白和環(huán)孢霉素是免疫抑制劑和鈣調(diào)神經(jīng)磷酸酶抑制劑,具有相似的結(jié)構(gòu)。環(huán)孢霉素已被用于預(yù)防器官排斥反應(yīng)和治療T細(xì)胞相關(guān)的自身免疫性疾病,并在預(yù)防COVID-1941,42,43,44引起的炎癥反應(yīng)失控、SARS-CoV-2復(fù)制和急性肺損傷等方面顯示出潛在的作用。鈣調(diào)神經(jīng)磷酸酶抑制劑也被證明是有希望的治療嚴(yán)重COVID-19病例45,46。Alisporivir是環(huán)孢素的一種非免疫抑制類似物,具有強(qiáng)的親環(huán)素抑制特性,在Vero E6細(xì)胞中被證明能有效減少SARS-CoV-2 RNA的產(chǎn)生47。此外,纈沙坦可抑制影響免疫抑制劑轉(zhuǎn)運(yùn)的P-糖蛋白,頭孢泊泊龍可用于醫(yī)院和社區(qū)獲得性肺炎48。

對于基于個(gè)體的分析,在我們確定的15種藥物中(擴(kuò)展數(shù)據(jù)圖2),9種是抗病毒藥物,其中7種作為NS5A抑制劑用于治療丙型肝炎。它們與基于人群的分析確定的排名靠前的藥物相似。特別是來自丙型肝炎治療的兩種藥物(elbasvir和velpatasvir)通過使用其他方法49、50、51被證明是COVID-19治療的潛在候選藥物。此外,兩種藥物具有抗炎或免疫調(diào)節(jié)功能,并有可能在COVID-19感染下調(diào)節(jié)免疫應(yīng)答。拉尼基達(dá)能抑制P-糖蛋白1的功能,影響免疫抑制劑的轉(zhuǎn)運(yùn)?;趥€(gè)體的分析也能識別具有相似作用模式的藥物。AMG-487靶向趨化因子受體CXCR3,CXCR3可調(diào)節(jié)白細(xì)胞的轉(zhuǎn)運(yùn)。值得注意的是,這里的所有潛在藥物在L1000數(shù)據(jù)集中都不可用,這表明在基于人群和基于個(gè)體的情況下,DeepCE對于表型復(fù)合物篩選的有效性。

結(jié)論

深度學(xué)習(xí)在藥物發(fā)現(xiàn)中引起了極大的關(guān)注。過去和現(xiàn)有的努力主要集中于加速針對單一靶點(diǎn)的化合物篩選52。然而,這樣一種單藥一基因的模式在追蹤復(fù)雜疾病方面被證明不太成功。一種系統(tǒng)的化合物篩選方法,既考慮到生物系統(tǒng)的信息,又使用化學(xué)誘導(dǎo)的系統(tǒng)反應(yīng)作為讀數(shù),將為發(fā)現(xiàn)安全有效的生物系統(tǒng)治療方法提供新的機(jī)會。在這項(xiàng)研究中,我們提出了DeepCE,一個(gè)新的和強(qiáng)大的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的模型預(yù)測化學(xué)誘導(dǎo)基因表達(dá)譜從化學(xué)和生物對象,特別是在從頭化學(xué)設(shè)置。與其他模型相比,我們的模型在預(yù)測基因表達(dá)譜方面取得了最新的成果,不僅在從頭化學(xué)環(huán)境中,而且在傳統(tǒng)環(huán)境中。此外,我們還針對L1000的不可靠測量問題,引入了數(shù)據(jù)增強(qiáng)方法,有效地利用不可靠基因表達(dá)譜中的有用信息,提高了模型的預(yù)測性能。此外,下游預(yù)測任務(wù)評估表明,在L1000中,用DeepCE生成的基因表達(dá)譜訓(xùn)練分類模型比用不可靠的基因表達(dá)譜訓(xùn)練分類模型取得更好的性能,表明DeepCE對下游預(yù)測的附加值。最后,DeepCE通過對DrugBank中所有化合物進(jìn)行電子篩選,針對COVID-19患者的臨床表型(即,將DeepCE產(chǎn)生的化學(xué)誘導(dǎo)基因表達(dá)譜與患者譜進(jìn)行比較),證明了DeepCE在尋找COVID-19治療方法這一挑戰(zhàn)和緊迫問題上的有效性??傊?,DeepCE可能是一個(gè)強(qiáng)大的基于表型的化合物篩選工具。

數(shù)據(jù)可用性

基于貝葉斯的峰值反褶積LINCS L1000數(shù)據(jù)集可在https://github.com/njpipeorgan/L1000-bayesian。我們研究中使用的訓(xùn)練、開發(fā)和測試基因表達(dá)集,DrugBank中所有藥物的基因表達(dá)譜從DeepCE生成,可在https://github.com/pth1993/DeepCE。

Code availability

DeepCE source code and its usage instructions are available in Github (https://github.com/pth1993/DeepCE) and Zenodo (https://doi.org/10.5281/zenodo.3978774).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容