少妇喷水福利视频,97十区精品视频

A deep learning framework for high-throughput mechanism-driven phenotype compound screening and its application to COVID-19 drug repurposing

https://www.nature.com/articles/s42256-020-00285-9

基于表型的化合物篩選比基于靶點(diǎn)的藥物發(fā)現(xiàn)具有優(yōu)勢，但不可擴(kuò)展，對藥物作用機(jī)制缺乏了解。化學(xué)誘導(dǎo)的基因表達(dá)譜提供了表型反應(yīng)的機(jī)制性特征；然而，這些數(shù)據(jù)的使用受到其稀疏性、不可靠性和相對較低的吞吐量的限制。很少有方法可以進(jìn)行基于表型的從頭化合物篩選。在這里，我們提出了一種基于機(jī)制驅(qū)動的神經(jīng)網(wǎng)絡(luò)方法DeepCE，它利用圖形神經(jīng)網(wǎng)絡(luò)和多頭注意機(jī)制來模擬化學(xué)亞結(jié)構(gòu)-基因和基因-基因關(guān)聯(lián)，以預(yù)測由從頭化學(xué)物質(zhì)擾動的差異基因表達(dá)譜。此外，我們提出了一種新的數(shù)據(jù)擴(kuò)充方法，從L1000數(shù)據(jù)集中不可靠的實(shí)驗(yàn)中提取有用的信息。實(shí)驗(yàn)結(jié)果表明，DeepCE的性能優(yōu)于現(xiàn)有的方法。DeepCE生成的基因表達(dá)譜的有效性通過與下游分類任務(wù)的觀察數(shù)據(jù)進(jìn)行比較得到了進(jìn)一步的支持。為了證明DeepCE的價(jià)值，我們將其應(yīng)用于COVID-19的藥物再利用，并產(chǎn)生與臨床證據(jù)一致的新的先導(dǎo)化合物。因此，DeepCE通過利用噪聲組學(xué)數(shù)據(jù)和篩選新的化學(xué)物質(zhì)來調(diào)節(jié)系統(tǒng)對疾病的反應(yīng)，為穩(wěn)健的預(yù)測建模提供了一個(gè)潛在的強(qiáng)大框架。

以靶向?yàn)榛A(chǔ)的高通量篩選在傳統(tǒng)的藥物發(fā)現(xiàn)過程中占主導(dǎo)地位。幾十年來，它一直是計(jì)算機(jī)輔助藥物發(fā)現(xiàn)的焦點(diǎn)，包括深度學(xué)習(xí)的最新應(yīng)用；然而，一種化學(xué)物質(zhì)對一種蛋白質(zhì)的調(diào)節(jié)所產(chǎn)生的讀數(shù)與機(jī)體水平的治療效果或副作用關(guān)系不大。因此，從靶向篩選產(chǎn)生的先導(dǎo)化合物到批準(zhǔn)藥物的失敗率很高?；诒硇偷暮Y選為鑒定細(xì)胞活性化合物帶來了新的興趣，但由于高通量和目標(biāo)反褶積困難。因此，高通量、機(jī)制驅(qū)動的表型化合物篩選方法將有助于藥物的發(fā)現(xiàn)和開發(fā)。

基因表達(dá)譜已被廣泛用于表征細(xì)胞和機(jī)體表型。對人類細(xì)胞系化學(xué)擾動的全基因組基因表達(dá)的系統(tǒng)分析已經(jīng)導(dǎo)致了藥物發(fā)現(xiàn)和藥理學(xué)系統(tǒng)的重大改進(jìn)。特別是，基因表達(dá)譜可應(yīng)用于藥物重組1、2、3、4、發(fā)現(xiàn)藥物機(jī)制5、識別先導(dǎo)化合物6和預(yù)測臨床前化合物7的副作用。使用全基因組化學(xué)誘導(dǎo)的基因表達(dá)最初是由于連接性圖譜（CMap）8的出現(xiàn)而成為可能的，該圖譜由5個(gè)人類癌癥細(xì)胞系的基因表達(dá)譜組成，這些細(xì)胞系在6小時(shí)后受到約1300種化合物的干擾；然而，跨細(xì)胞類型的有限數(shù)據(jù)可用性限制了上述分析的性能，這在很大程度上取決于化學(xué)品和人類細(xì)胞系的覆蓋范圍。為了克服這一限制，美國國立衛(wèi)生研究院（NIH）綜合網(wǎng)絡(luò)細(xì)胞特征庫（LINCS）項(xiàng)目9開發(fā)了一種新的基因表達(dá)譜分析方法L1000（它是CMap項(xiàng)目的擴(kuò)展）。在LINCS的第一階段之后，L1000數(shù)據(jù)集包含了約1400000個(gè)基因表達(dá)譜，這些基因表達(dá)譜是關(guān)于約50個(gè)人類細(xì)胞系對約20000種化合物中的一種在不同濃度范圍內(nèi)的反應(yīng)。L1000數(shù)據(jù)集及其規(guī)范化版本10最近廣泛用于藥物再利用和發(fā)現(xiàn)11,12。盡管取得了這些成功，但在使用L1000時(shí)仍存在幾個(gè)主要問題。首先，盡管基因表達(dá)譜的數(shù)目比CMap中的要大得多，但是在化學(xué)品和細(xì)胞系的巨大組合空間中仍然存在許多缺失的表達(dá)值。第二，有數(shù)以億計(jì)的類似藥物的、可購買的化學(xué)物質(zhì)是潛在的候選藥物13。用實(shí)驗(yàn)方法檢測所有這些化學(xué)物質(zhì)在多個(gè)細(xì)胞系中的化學(xué)誘導(dǎo)基因表達(dá)譜是不可行的。最后，由于各種實(shí)驗(yàn)問題（例如批量效應(yīng)），許多實(shí)驗(yàn)測量不可靠（如補(bǔ)充圖1所示）。這些嚴(yán)重的障礙將限制利用L1000數(shù)據(jù)集進(jìn)行藥物發(fā)現(xiàn)的有效性和范圍。因此，為不可測量和不可靠的實(shí)驗(yàn)預(yù)測基因表達(dá)值是必要的。

組合空間中丟失的條目不是L1000數(shù)據(jù)集獨(dú)有的問題。在L1000出現(xiàn)之前，已經(jīng)提出了幾種基因表達(dá)數(shù)據(jù)缺失值的插補(bǔ)方法。我們將這些方法分為兩種主要方法，它們依賴于基因表達(dá)數(shù)據(jù)以外的其他信息。第一種方法不使用任何額外的信息。遵循這種方法的工作包括k近鄰（kNN）14、奇異值分解14、最小均方15、16、17、貝葉斯主成分分析18、高斯混合聚類19和支持向量回歸20。第二種方法使用額外的信息來預(yù)測表達(dá)譜。例如，化學(xué)結(jié)構(gòu)用于預(yù)測化學(xué)誘導(dǎo)的基因表達(dá)，但這項(xiàng)工作沒有考慮細(xì)胞特異性信息21。

上述方法是為矩陣結(jié)構(gòu)數(shù)據(jù)（即，基因××實(shí)驗(yàn)）設(shè)計(jì)的，而L1000數(shù)據(jù)集是張量結(jié)構(gòu)數(shù)據(jù)（即，基因××化學(xué)××細(xì)胞××劑量××?xí)r間），因此不能用于捕捉有助于插補(bǔ)缺失值的高維關(guān)聯(lián)1000英鎊。在L1000數(shù)據(jù)集中，提出了幾種預(yù)測基因表達(dá)譜的方法。特別是，為了處理高維結(jié)構(gòu)化數(shù)據(jù)，我們開發(fā)了一個(gè)稱為多元回歸的線性回歸模型的擴(kuò)展，以捕獲特征間出現(xiàn)的交互作用22。矩陣完成方法也適用于處理張量結(jié)構(gòu)的基因表達(dá)數(shù)據(jù)23,24。

化學(xué)誘導(dǎo)基因表達(dá)預(yù)測模型及數(shù)據(jù)集

在本節(jié)中，我們介紹了我們研究中使用的數(shù)據(jù)集和我們提出的模型DeepCE，以及用于預(yù)測基因表達(dá)譜的基線模型，如線性模型、香草神經(jīng)網(wǎng)絡(luò)、kNN和張量訓(xùn)練權(quán)重優(yōu)化（TT-WOPT）模型。圖1顯示了用于L1000基因表達(dá)譜預(yù)測的訓(xùn)練和測試這些計(jì)算模型的一般框架?；旧?，計(jì)算模型以L1000的實(shí)驗(yàn)信息（即化合物、細(xì)胞系、時(shí)間戳和化學(xué)劑量）為輸入，將其轉(zhuǎn)化為數(shù)值表示，然后根據(jù)這些表示預(yù)測L1000的基因表達(dá)譜。在我們的研究中使用的化學(xué)和生物物體的數(shù)值特征轉(zhuǎn)換過程以及DeepCE和其他基線的模型實(shí)現(xiàn)的細(xì)節(jié)見補(bǔ)充說明2和4。本文還提出了從L1000不可靠實(shí)驗(yàn)中提取有用信息的數(shù)據(jù)增強(qiáng)方法，以提高模型的預(yù)測性能，并給出了模型的評價(jià)方法。

圖1：用于訓(xùn)練L1000基因表達(dá)譜預(yù)測的計(jì)算模型并將其用于下游應(yīng)用（即用于COVID-19治療的藥物再利用）的一般框架。

θ是一組模型參數(shù)，f是θ的函數(shù)，用于將實(shí)驗(yàn)信息映射到基因表達(dá)譜，l是θ的函數(shù)，用于計(jì)算預(yù)測基因表達(dá)譜和基本真基因表達(dá)譜之間的差異。學(xué)習(xí)過程的目標(biāo)是盡量減少L1000數(shù)據(jù)集中預(yù)測剖面和地面真實(shí)剖面之間的損失。經(jīng)過訓(xùn)練后，這些模型被用于在外部分子數(shù)據(jù)庫（DrugBank）中生成新化學(xué)品的配置文件。然后將這些圖譜用于電子篩選（與患者基因表達(dá)進(jìn)行比較），以尋找治療COVID-19的潛在藥物。

數(shù)據(jù)集集合

在下面的段落中，我們介紹了我們研究中幾個(gè)生物數(shù)據(jù)集的細(xì)節(jié)和用法，包括L1000、STRING、藥庫和COVID-19患者的轉(zhuǎn)錄組數(shù)據(jù)。我們還在補(bǔ)充表1中提供了這些數(shù)據(jù)集的摘要。

基于貝葉斯的L1000數(shù)據(jù)峰值反褶積

在L1000的原始版本發(fā)布9之后，人們做出了許多努力來提高這個(gè)數(shù)據(jù)集的質(zhì)量。例如，一些工作建議使用高斯混合模型來提高峰值反褶積步驟26、27的精度，而不是按照原始版本使用k均值聚類算法。另一項(xiàng)工作是開發(fā)一種稱為特征方向的多變量方法來計(jì)算基因特征，而不是使用原始版本10的調(diào)節(jié)z-分?jǐn)?shù)。在我們的研究中，我們在基于貝葉斯的峰值反褶積L1000數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，結(jié)果表明，該數(shù)據(jù)集可以從L1000分析數(shù)據(jù)中生成更穩(wěn)健的z-分?jǐn)?shù)剖面，因此可以更好地表示擾動因子28。特別是，我們在這個(gè)數(shù)據(jù)集的第5級數(shù)據(jù)上訓(xùn)練和評估我們提出的方法。利用L1000數(shù)據(jù)集中7個(gè)最常見細(xì)胞系和6個(gè)最常見化學(xué)劑量的實(shí)驗(yàn)結(jié)果構(gòu)建了我們的基因表達(dá)數(shù)據(jù)集。然后，我們從我們的數(shù)據(jù)集中選擇高質(zhì)量的實(shí)驗(yàn)，并將它們分成高質(zhì)量的訓(xùn)練集以及開發(fā)和測試集。我們還通過在我們的基因表達(dá)數(shù)據(jù)集中保留不可靠的實(shí)驗(yàn)來構(gòu)造原始訓(xùn)練集，并通過我們的數(shù)據(jù)擴(kuò)充算法生成擴(kuò)充訓(xùn)練集。這些集合的構(gòu)造細(xì)節(jié)見補(bǔ)充說明1。這些培訓(xùn)、開發(fā)和測試集的統(tǒng)計(jì)數(shù)據(jù)見補(bǔ)充表2。

人類蛋白質(zhì)相互作用的字符串?dāng)?shù)據(jù)庫

STRING29是蛋白質(zhì)相互作用的多源數(shù)據(jù)庫。這些可以直接（物理）或間接（功能）已知或預(yù)測的相互作用來自五個(gè)主要來源，包括基因組背景預(yù)測、高通量實(shí)驗(yàn)室實(shí)驗(yàn)、保守共表達(dá)、自動文本挖掘和過去的知識數(shù)據(jù)庫。在我們的設(shè)置中，我們從這個(gè)數(shù)據(jù)庫中提取人類蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)（即約19000個(gè)節(jié)點(diǎn)（蛋白質(zhì)）和約12000000個(gè)邊緣（相互作用）），以計(jì)算L1000基因的載體表達(dá)。在我們的研究中使用的化合物的藥物靶向載體表示也由這個(gè)人類蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)計(jì)算。從字符串?dāng)?shù)據(jù)庫生成這些表示的詳細(xì)信息見補(bǔ)充說明2。

用于藥物-靶點(diǎn)相互作用和疾病預(yù)測的藥物庫數(shù)據(jù)庫

DrugBank是一個(gè)著名的綜合數(shù)據(jù)庫，用于許多生物信息學(xué)和化學(xué)信息學(xué)任務(wù)30。這個(gè)數(shù)據(jù)庫包括有關(guān)藥物及其靶點(diǎn)的信息。在我們的實(shí)驗(yàn)中，我們從ATC樹的第一級提取解剖治療化學(xué)（ATC）標(biāo)簽，并從DrugBank的L1000數(shù)據(jù)集中提取藥物靶點(diǎn)。在提取的數(shù)據(jù)集中有698個(gè)藥物靶點(diǎn)和14個(gè)ATC標(biāo)簽。在此數(shù)據(jù)集中，我們根據(jù)藥物標(biāo)簽的出現(xiàn)頻率，選擇出現(xiàn)頻率最高的ATC標(biāo)簽和藥物靶點(diǎn)作為藥物標(biāo)簽，分別形成藥物靶點(diǎn)和ATC預(yù)測數(shù)據(jù)集。這些數(shù)據(jù)集用于評估從我們的模型生成的基因表達(dá)譜的性能。我們還預(yù)測了DrugBank中所有藥物的基因表達(dá)譜，并用它們來篩選COVID-19治療的潛在候選藥物。

SARS-CoV-2感染對患者表達(dá)的影響

本研究的患者表達(dá)數(shù)據(jù)集可從國家基因組數(shù)據(jù)中心（NGDC，PRJCA002273）31和國家生物技術(shù)信息中心（NCBI，GSE147507）32下載。前者包括8例SARS-CoV-2患者和12例健康樣本，后者只有1例SARS-CoV-2患者和2例健康樣本。對于每個(gè)數(shù)據(jù)集，我們使用來自SARS-CoV-2患者和健康陰性對照的表達(dá)譜進(jìn)行差異表達(dá)分析。因此，第一個(gè)數(shù)據(jù)集可以被認(rèn)為是基于人群的基因表達(dá)分析，而第二個(gè)數(shù)據(jù)集是針對患者的基因表達(dá)分析。DESeq233包用于生成患者的差異基因表達(dá)譜。并不是所有的L1000基因都出現(xiàn)在DESeq2包的結(jié)果中，因此我們在與化學(xué)誘導(dǎo)的基因表達(dá)譜進(jìn)行比較時(shí)，只考慮同時(shí)出現(xiàn)在L1000數(shù)據(jù)集和DESeq2包中的基因。

該模型由三個(gè)主要部分組成：用GCN生成化合物特征的特征轉(zhuǎn)換部分，用預(yù)先訓(xùn)練好的信息表示L1000個(gè)基因，用前饋神經(jīng)網(wǎng)絡(luò)生成細(xì)胞和劑量的特征；學(xué)習(xí)高級特征關(guān)聯(lián)的交互網(wǎng)絡(luò)（省略與交互網(wǎng)絡(luò)中第一層結(jié)構(gòu)相似的第二層的細(xì)節(jié)以節(jié)省空間）；從高級特征預(yù)測基因表達(dá)譜的預(yù)測網(wǎng)絡(luò)。

神經(jīng)指紋的GCN

對于許多生物預(yù)測問題，數(shù)據(jù)驅(qū)動的化學(xué)指紋比預(yù)先定義的化學(xué)指紋（如PubChem，Extended Connectivity Fingerprint（ECFP））更有效。因此，我們建議使用GCN來捕捉化學(xué)子結(jié)構(gòu)信息。用于化學(xué)指紋的原始GCN模型34以化合物的圖結(jié)構(gòu)作為輸入，并通過卷積運(yùn)算從圖（化合物）的鄰域更新圖（化合物）中的每個(gè)節(jié)點(diǎn)（原子）的向量表示。因此，卷積運(yùn)算后每個(gè)節(jié)點(diǎn)的向量可以看作是化學(xué)子結(jié)構(gòu)的表示。最后一個(gè)向量（每個(gè)節(jié)點(diǎn)的向量之和）作為化學(xué)指紋。在我們的實(shí)驗(yàn)中使用的GCN模型主要是基于該模型，但有一個(gè)小的修改。特別是，我們?yōu)槊總€(gè)節(jié)點(diǎn)輸出向量表示，而不是為化合物輸出一個(gè)向量表示，因?yàn)槲覀兿胍M化學(xué)子結(jié)構(gòu)特征與基因特征的關(guān)聯(lián)。在我們的設(shè)置中，我們使用具有兩個(gè)卷積層（半徑，R?=?2）的GCN模型。這意味著每個(gè)原子的GCN的輸出向量表示化學(xué)子結(jié)構(gòu)，它是該原子的兩個(gè)躍點(diǎn)的跨度。原子的初始表示（捕捉原子的符號、度、氫鄰域數(shù)和芳香性）和鍵的初始表示（捕捉鍵的類型）分別是長度分別為62和6的多個(gè)熱向量。實(shí)驗(yàn)中使用的GCN模型的細(xì)節(jié)見補(bǔ)充算法1。

基因-基因和化學(xué)亞結(jié)構(gòu)-基因特征關(guān)聯(lián)的多頭注意

注意機(jī)制是一個(gè)集合中的一個(gè)元素根據(jù)注意權(quán)重有選擇地聚焦于另一個(gè)集合（注意）或其集合（自我注意）的子集，在基于神經(jīng)網(wǎng)絡(luò)的模型中得到廣泛應(yīng)用，并有效地應(yīng)用于許多人工智能任務(wù)，包括計(jì)算機(jī)視覺和自然語言處理。在我們的實(shí)驗(yàn)中，我們提出應(yīng)用多頭注意方法來模擬基因特征、基因和化學(xué)子結(jié)構(gòu)特征之間的關(guān)聯(lián)。在transformer模型中首次提出了多頭注意，它為許多自然語言處理任務(wù)提供了最新的結(jié)果35。基本上，集合中的每個(gè)元素都可以由一組三個(gè)向量表示：查詢、鍵和值。單個(gè)注意模塊是一個(gè)將查詢和鍵值對集映射到輸出矩陣的函數(shù)，輸出矩陣由以下公式計(jì)算：

${\mathrm{Attention}}({Q},{K},{V})={\mathrm{softmax}}\left(\frac{{QK}^{T}}{\sqrt{u0z1t8os_{k}}}\right){V}$

其中Q、K、V分別是查詢、鍵、值的矩陣（集合），T是轉(zhuǎn)置運(yùn)算，dk是縮放因子。多頭注意通過連接幾個(gè)單獨(dú)的注意模塊來關(guān)注不同的表示子空間：

${\mathrm{MultiHead}}({Q},{K},{V})={\mathrm{concat}}({\mathrm{heau0z1t8os}}_{1},...,{\mathrm{heau0z1t8os}}_{h}){{W}}^{O}$

其中 ${\mathrm{heau0z1t8os}}_{i}={\mathrm{Attention}}({Q}{{W}}_{i}^{Q},{K}{{W}}_{i}^{K},{V}{{W}}_{i}^{V})$ ，WO，WQ，WK，WV是學(xué)習(xí)參數(shù)，h是頭數(shù)。

這種多頭注意機(jī)制是用來構(gòu)建DeepCE交互成分的主要成分。特別地，交互組件包括兩個(gè)相同的層，其中第一層的輸出用作第二層的輸入。對于每一層，我們使用兩個(gè)獨(dú)立的多頭部注意模塊，每個(gè)模塊有四個(gè)頭部來模擬基因集中的基因之間以及基因集中的元素和化學(xué)子結(jié)構(gòu)集中的元素之間的關(guān)聯(lián)。查詢、鍵和值向量的長度設(shè)置為512。將這兩個(gè)多頭注意模塊的輸出串聯(lián)起來，放入歸一化層、前饋層和另一歸一化層。交互組件的抽象架構(gòu)如圖2所示。

多輸出預(yù)測

多輸出預(yù)測組件是一個(gè)具有校正線性單元（ReLU）激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)，將輸入作為化學(xué)神經(jīng)指紋、互作組件生成的基因特征、細(xì)胞系和化學(xué)劑量特征的串聯(lián)，以預(yù)測所有基因的基因表達(dá)值L1000基因組合如下：

${Y}={{W}}_{2}(\mathrm{{ReLU}}({{W}}_{1}{X}+{{\bf}}_{1}))+{{\bf}}_{2}$

其中W1、W2、b1、b2是該網(wǎng)絡(luò)的權(quán)重矩陣和偏差向量。這個(gè)前饋神經(jīng)網(wǎng)絡(luò)的輸出大小被設(shè)置為978，這是L1000個(gè)基因的數(shù)目。

目標(biāo)函數(shù)

DeepCE模型中使用的目標(biāo)函數(shù)是預(yù)測值和基本真值基因表達(dá)值之間的均方誤差（MSE），計(jì)算如下：

${{\bf{loss}}}_{\mathrm{DeepCE}}({{\Theta }})=\frac{1}{NM}\mathop{\sum }\nolimits_{i = 1}^{N}\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{y}_{i,j})}^{2}$

其中，Θ是DeepCE模型中的一組參數(shù)；N和M分別是數(shù)據(jù)集中基因表達(dá)譜的數(shù)量和L1000基因的數(shù)量；zi，j和yi，j分別是第i個(gè)基因表達(dá)譜中第j個(gè)基因的基本真值和預(yù)測基因表達(dá)值。

基線模型

在本節(jié)中，我們描述了我們實(shí)驗(yàn)中使用的幾種基線模型，包括線性模型、香草神經(jīng)網(wǎng)絡(luò)、kNN和TT-WOPT24。

線性模型

我們實(shí)驗(yàn)了一個(gè)多輸出線性回歸模型及其正則化版本，包括套索回歸（L1正則化）和嶺回歸（L2正則化）模型。與DeepCE類似，這些模型的輸入是化學(xué)、基因、細(xì)胞系和化學(xué)劑量特征的數(shù)值表示的串聯(lián)，但是我們使用預(yù)定義的化學(xué)指紋和藥物靶點(diǎn)特征，而不是來自GCN的數(shù)據(jù)驅(qū)動表示。這些陳述的細(xì)節(jié)在補(bǔ)充資料中描述。多輸出線性模型可以看作是無激活函數(shù)的單層前饋神經(jīng)網(wǎng)絡(luò)。

香草神經(jīng)網(wǎng)絡(luò)

我們實(shí)驗(yàn)中使用的香草神經(jīng)網(wǎng)絡(luò)可以看作是DeepCE模型的一個(gè)簡單版本，它不包括用于模擬基因-基因和基因-化學(xué)子結(jié)構(gòu)特征關(guān)聯(lián)的交互網(wǎng)絡(luò)組件，以及用于生成神經(jīng)指紋的GCN。這種普通神經(jīng)網(wǎng)絡(luò)的輸入類似于線性模型的輸入。該網(wǎng)絡(luò)中的以下幾層類似于DeepCE模型中的預(yù)測網(wǎng)絡(luò)組件，它是一個(gè)具有ReLU激活函數(shù)的兩層前饋神經(jīng)網(wǎng)絡(luò)。

kNN公司

我們還提出了一種基于kNN的新化學(xué)環(huán)境下基因表達(dá)預(yù)測方法。具體地，通過對同一設(shè)置中的訓(xùn)練集中的新化合物的最近鄰域的基因表達(dá)譜求平均來生成在一特定設(shè)置（即，細(xì)胞系、化學(xué)劑量）中的新化合物的基因表達(dá)譜。在我們的研究中，我們實(shí)驗(yàn)了從1到15的不同鄰域數(shù)和不同的相似性度量，包括余弦、相關(guān)、Jaccard和Tanimoto，以及歐氏距離。

張量列車重量優(yōu)化

張量序列權(quán)重優(yōu)化（TT-WOPT）是一種張量完成方法，旨在從現(xiàn)有的張量數(shù)據(jù)中提取缺失值。它已被證明是預(yù)測L1000數(shù)據(jù)集缺失值的有效方法，L1000數(shù)據(jù)集可以表示為張量結(jié)構(gòu)對象，而無需使用額外的信息24。在我們的研究中，我們進(jìn)行了實(shí)驗(yàn)比較TT-WOPT與我們提出的模型，特別是在從頭化學(xué)設(shè)置。由于該模型不需要額外的信息，因此輸入是以張量表示的L1000基因表達(dá)值。

數(shù)據(jù)擴(kuò)充

從補(bǔ)充圖1可以看出，L1000中只有少量的實(shí)驗(yàn)是可靠的（平均皮爾遜相關(guān)（APC）得分?≥?0.7），因此如果我們不能從大量不可靠的實(shí)驗(yàn)中利用有用的信息，將是浪費(fèi)。我們在表1中顯示，簡單地向高質(zhì)量的訓(xùn)練集（原始訓(xùn)練集）添加不可靠的實(shí)驗(yàn)會使我們的模型的性能變差。因此，我們提出了一種數(shù)據(jù)擴(kuò)充方法，通過這種方法我們可以有效地利用不可靠的實(shí)驗(yàn)來提高我們模型的性能。我們認(rèn)為，雖然一個(gè)實(shí)驗(yàn)（5級數(shù)據(jù)）是不可靠的，但并不是所有的生物復(fù)制實(shí)驗(yàn)（4級數(shù)據(jù)）都是不可靠的，我們將通過我們提出的數(shù)據(jù)擴(kuò)充方法提取這些可靠的生物復(fù)制實(shí)驗(yàn)。其基本思想是，我們首先在高質(zhì)量的訓(xùn)練集上訓(xùn)練我們的模型，然后為不可靠的實(shí)驗(yàn)生成預(yù)測的基因表達(dá)譜。將這些預(yù)測的基因表達(dá)譜與它們的生物復(fù)制基因表達(dá)譜進(jìn)行比較，并且我們合并了與它們的預(yù)測基因表達(dá)譜的相似性分?jǐn)?shù)大于閾值的生物復(fù)制基因表達(dá)譜。補(bǔ)充算法2詳細(xì)介紹了這種數(shù)據(jù)擴(kuò)充方法。在我們的設(shè)置中，相似性得分是皮爾遜相關(guān)。

表1用不同訓(xùn)練集訓(xùn)練的普通神經(jīng)網(wǎng)絡(luò)、kNN、具有不同化學(xué)特征的線性模型、TTWOPT和DeepCE及其簡單變體的測試集的性能

績效評估

實(shí)驗(yàn)中采用皮爾遜相關(guān)系數(shù)作為評價(jià)模型性能的主要指標(biāo)。在微陣列數(shù)據(jù)分析中，測量基本真值和預(yù)測基因表達(dá)譜之間關(guān)系的相關(guān)分?jǐn)?shù)已被證明比誤差測量更有效36,37。此外，利用Pearson相關(guān)，我們可以對我們的模型進(jìn)行無偏評估，這些模型是針對MSE優(yōu)化的。我們計(jì)算數(shù)據(jù)集的平均皮爾遜相關(guān)性如下：

$r=\frac{1}{N}\mathop{\sum }\nolimits_{i = 1}^{N}\frac{\mathop{\sum }\nolimits_{j = 1}^{M}({z}_{i,j}-{\bar{z}}_{i})({y}_{i,j}-{\bar{y}}_{i})}{\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({z}_{i,j}-{\bar{z}}_{i})}^{2}}\sqrt{\mathop{\sum }\nolimits_{j = 1}^{M}{({y}_{i,j}-{\bar{y}}_{i})}^{2}}}$

其中 ${z}_{i,j},{y}_{i,j},{\bar{z}}_{i},{\bar{y}}_{i}$ 分別是第i個(gè)基因表達(dá)譜中第j個(gè)基因的基本真值和預(yù)測基因表達(dá)值，以及第i個(gè)基因表達(dá)譜的基本真值和預(yù)測平均值。

除了Pearson相關(guān)外，我們還報(bào)告了其他指標(biāo)的模型性能，包括均方根誤差（r.m.s.e.）、基因集富集分析（GSEA）38、39和39精度@k。雖然皮爾遜相關(guān)和r.m.s.e.捕獲了所有L1000基因之間的變異，GSEA和P@k公司（包括正面和負(fù)面）P@k公司)只關(guān)注最重要的上調(diào)和下調(diào)基因。因此，使用多個(gè)度量標(biāo)準(zhǔn)可以從不同方面衡量模型的性能。這些額外指標(biāo)的詳情見補(bǔ)充說明3。

此外，我們使用受試者操作特性曲線（AUC）下的面積來驗(yàn)證這些預(yù)測輪廓對于下游二分類任務(wù)（包括藥物靶點(diǎn)和ATC代碼預(yù)測）的有效性。

結(jié)果和討論

下面的結(jié)果和討論主要基于Pearson相關(guān)；我們還通過其他指標(biāo)觀察到相同的模式。

在新的化學(xué)環(huán)境中，DeepCE大大優(yōu)于基線模型

在這個(gè)實(shí)驗(yàn)中，我們比較了DeepCE和它的簡單變體，這些變體是通過去除整個(gè)相互作用成分或僅僅是其中的一部分（即化學(xué)亞結(jié)構(gòu)-基因或基因-基因特征關(guān)聯(lián)模塊）來構(gòu)建的，包括一個(gè)香草神經(jīng)網(wǎng)絡(luò)、kNN、線性模型和TT-WOPT。雖然TT-WOPT僅根據(jù)基因表達(dá)值預(yù)測產(chǎn)量，但其他模型則學(xué)習(xí)實(shí)驗(yàn)信息與基因表達(dá)譜之間的關(guān)系進(jìn)行預(yù)測。對于DeepCE，我們使用神經(jīng)指紋，而對于其他模型，我們使用預(yù)定義的指紋，包括PubChem和circular（ECFP6）指紋，以及藥物靶點(diǎn)信息，包括潛在靶點(diǎn)相互作用譜（LTIP）40和我們提出的藥物靶點(diǎn)特征來表示化學(xué)品。所有模型都在高質(zhì)量的訓(xùn)練集上進(jìn)行訓(xùn)練，并在測試集上進(jìn)行評估。

如表1所示，DeepCE模型及其變體比基線模型實(shí)現(xiàn)了數(shù)量級的改進(jìn)。特別是，通過在測試集上實(shí)現(xiàn)0.4907的皮爾遜相關(guān)（配對t檢驗(yàn)，P值?<?4.63?×?10?15），DeepCE模型大大優(yōu)于其他模型，包括香草神經(jīng)網(wǎng)絡(luò)、kNN、線性模型和TT-WOPT。與去除了相互作用成分的簡單變體相比，DeepCE也獲得了更好的性能，表明化學(xué)亞結(jié)構(gòu)-基因和基因-基因特征關(guān)聯(lián)建模的有效性。具體而言，當(dāng)去除化學(xué)亞結(jié)構(gòu)-基因特征關(guān)聯(lián)部分（Deep-CE-藥物-基因attn）、基因-基因特征關(guān)聯(lián)部分（Deep-CE-基因-基因attn）和整個(gè)相互作用成分（Deep-CE-基因attn）時(shí)，DeepCE的性能降低到0.4620、0.4477和0.4418（配對t檢驗(yàn)，P值?<?2.25?×?10?5）。我們還通過觀察細(xì)胞系、化學(xué)劑量和L1000基因來深入研究DeepCE的性能。該分析的結(jié)果顯示在補(bǔ)充圖中。2和3。對于基線模型，vanilla神經(jīng)網(wǎng)絡(luò)和kNN取得了較好的性能。線性模型包括線性回歸，套索和嶺回歸不能很好地解決我們的問題。這表明線性關(guān)系不足以對數(shù)據(jù)集中變量之間的依賴關(guān)系進(jìn)行建模。TT-WOPT，正如預(yù)期的那樣，不利用基因表達(dá)值以外的其他特征來進(jìn)行預(yù)測，在從頭化學(xué)環(huán)境中不起作用。特別是，它實(shí)現(xiàn)了0.0144的皮爾遜相關(guān)，這類似于隨機(jī)性。我們還通過對高質(zhì)量數(shù)據(jù)集進(jìn)行交叉驗(yàn)證，對這些性能進(jìn)行了誤差估計(jì)。結(jié)果見補(bǔ)充表5。

在插補(bǔ)設(shè)置方面，DeepCE優(yōu)于最先進(jìn)的方法

我們進(jìn)一步研究了DeepCE在傳統(tǒng)插補(bǔ)設(shè)置下的性能，該設(shè)置不要求測試集中的化學(xué)物質(zhì)與訓(xùn)練集中的化學(xué)物質(zhì)不同，并將其與TT-WOPT進(jìn)行了比較，結(jié)果表明，TT-WOPT對該設(shè)置是有效的。為此，我們將高質(zhì)量的數(shù)據(jù)集隨機(jī)拆分為新的訓(xùn)練集、開發(fā)集和測試集，并在這些集上進(jìn)行實(shí)驗(yàn)。請注意，此時(shí)，我們按基因表達(dá)譜（而不是化合物）拆分?jǐn)?shù)據(jù)集。插補(bǔ)設(shè)置的培訓(xùn)、開發(fā)和測試集詳情見補(bǔ)充表3。

對于傳統(tǒng)的插補(bǔ)設(shè)置，我們觀察到DeepCE比TT-WOPT有很大的優(yōu)勢。特別是，對于TT-WOPT，DeepCE的Pearson相關(guān)系數(shù)為0.7010對0.5113。這一結(jié)果表明，通過有效利用化學(xué)和生物對象（包括化合物和基因）的特征，DeepCE在從頭化學(xué)和傳統(tǒng)插補(bǔ)設(shè)置中始終取得最佳性能。

化學(xué)相似性對預(yù)測性能有影響

為了深入研究我們模型的預(yù)測性能，我們探討了測試集和訓(xùn)練集之間化學(xué)相似性的影響。特別地，我們計(jì)算測試集中的一個(gè)實(shí)驗(yàn)和訓(xùn)練集中的最近鄰實(shí)驗(yàn)之間的距離，這些實(shí)驗(yàn)是由同一細(xì)胞系上最相似的化學(xué)物質(zhì)（通過比較它們的指紋和測試集中的實(shí)驗(yàn)所誘導(dǎo)的化學(xué)化合物的指紋來確定）誘導(dǎo)的。兩個(gè)實(shí)驗(yàn)之間的距離是兩種化學(xué)物質(zhì)PubChem指紋的Tanimoto系數(shù)，測試集中的實(shí)驗(yàn)與其訓(xùn)練集中的最近鄰實(shí)驗(yàn)之間的距離是該實(shí)驗(yàn)與其每個(gè)最近鄰實(shí)驗(yàn)之間距離的平均值。在計(jì)算測試集中所有實(shí)驗(yàn)到訓(xùn)練集的距離后，我們按升序排序并比較這些實(shí)驗(yàn)的Pearson相關(guān)分?jǐn)?shù)。我們計(jì)算測試集中所有實(shí)驗(yàn)的平均皮爾遜相關(guān)分?jǐn)?shù)，這些實(shí)驗(yàn)到訓(xùn)練集的距離小于排序列表的第一個(gè)四分位數(shù)（Q1），從Q1到第二個(gè)四分位數(shù)（Q2），從Q2到第三個(gè)四分位數(shù)（Q3），并且大于Q3。圖3顯示了三個(gè)模型（包括DeepCE、vanilla神經(jīng)網(wǎng)絡(luò)和kNN）在這些距離上的平均Pearson相關(guān)分?jǐn)?shù)；我們可以看到，當(dāng)測試集中的實(shí)驗(yàn)與訓(xùn)練集中的最近鄰實(shí)驗(yàn)更相似時(shí)，所有模型的預(yù)測性能都更高。我們還認(rèn)識到，對于所有距離類別，DeepCE都比vanilla神經(jīng)網(wǎng)絡(luò)和kNN具有更好的性能，特別是對于距離訓(xùn)練集小于Q1的實(shí)驗(yàn)。

在訓(xùn)練集和測試集中，不同化學(xué)品之間距離的DeepCE、vanilla神經(jīng)網(wǎng)絡(luò)和kNN的性能。d是由Tanimoto系數(shù)在訓(xùn)練集和測試集中測量的化合物之間的距離，Q1、Q2和Q3是距離排序列表的第一、第二和第三個(gè)四分位數(shù)。

數(shù)據(jù)質(zhì)量對預(yù)測性能有重要影響

除了稀疏性問題外，L1000數(shù)據(jù)集還包含許多不可靠的基因表達(dá)譜。為了研究噪聲對我們模型預(yù)測性能的影響，我們在不同的訓(xùn)練集上訓(xùn)練了兩個(gè)基線模型（包括神經(jīng)網(wǎng)絡(luò)和kNN），這些訓(xùn)練集是通過過濾不可靠的基因表達(dá)譜而產(chǎn)生的，不同的APC閾值從–1（原始訓(xùn)練集）到0.7（高質(zhì)量訓(xùn)練集）。PubChem指紋圖譜是本實(shí)驗(yàn)所用的化學(xué)特征。

如圖4所示，所有模型具有相同的模式。從閾值0.1開始，當(dāng)閾值較高時(shí)，它們在測試集上獲得更好的性能，最佳設(shè)置是在高質(zhì)量的訓(xùn)練集上訓(xùn)練我們的模型（即，vanilla神經(jīng)網(wǎng)絡(luò)的Pearson相關(guān)系數(shù)為0.3923，kNN的Pearson相關(guān)系數(shù)為0.3903）。對于在閾值<0.1的原始訓(xùn)練集和過濾不可靠實(shí)驗(yàn)生成的其他訓(xùn)練集上的訓(xùn)練，地面真值和預(yù)測的基因表達(dá)譜是不相關(guān)的，顯示了模型預(yù)測的隨機(jī)性。這些結(jié)果表明，不可靠數(shù)據(jù)對預(yù)測性能有嚴(yán)重的負(fù)面影響，從數(shù)據(jù)集中去除這部分?jǐn)?shù)據(jù)是獲得良好性能的必要條件。

香草神經(jīng)網(wǎng)絡(luò)和kNN在不同APC閾值設(shè)置下的皮爾遜相關(guān)分?jǐn)?shù)。這些模型在不同APC閾值下過濾不可靠實(shí)驗(yàn)生成的訓(xùn)練集上進(jìn)行訓(xùn)練，然后在高質(zhì)量的測試集上進(jìn)行評估。

一種新的數(shù)據(jù)擴(kuò)充方法提高了模型的性能

我們提出了數(shù)據(jù)擴(kuò)充方法（在補(bǔ)充算法2中詳細(xì)描述）來有效地利用來自不可靠基因表達(dá)譜的有用信息。在這個(gè)實(shí)驗(yàn)中，我們評估了這種方法對我們的模型的影響。特別地，使用高質(zhì)量訓(xùn)練集上訓(xùn)練的DeepCE生成基因表達(dá)譜，選擇生物復(fù)制譜的閾值為0.5，這與DeepCE的性能相似。此擴(kuò)充訓(xùn)練集的統(tǒng)計(jì)數(shù)據(jù)如補(bǔ)充表1所示。

在增廣訓(xùn)練集上訓(xùn)練vanilla神經(jīng)網(wǎng)絡(luò)、kNN和DeepCE的實(shí)驗(yàn)結(jié)果如表1所示。我們可以看到，在大多數(shù)情況下，在這個(gè)增廣訓(xùn)練集上訓(xùn)練的所有模型的性能都得到了提高。例如，DeepCE的Pearson相關(guān)系數(shù)從0.4907增加到0.5014（配對t檢驗(yàn)，P值<0.05）。這些結(jié)果表明，從不可靠的基因表達(dá)譜中提取的信息對基因表達(dá)預(yù)測是有效的。

化學(xué)特征的選擇影響模型的性能

在這個(gè)實(shí)驗(yàn)中，我們研究了幾種化學(xué)特征表示對我們模型的有效性。本實(shí)驗(yàn)中使用的模型是一個(gè)用于PubChem的香草神經(jīng)網(wǎng)絡(luò)、ECFP指紋、我們提出的藥物靶點(diǎn)特征和LTIP，以及用于神經(jīng)指紋的沒有交互成分的DeepCE模型。這些模型是在高質(zhì)量的訓(xùn)練集上訓(xùn)練的。我們還通過從離散均勻分布生成大小類似于PubChem指紋的隨機(jī)二元向量來創(chuàng)建隨機(jī)化學(xué)特征。

表1顯示了這些模型在不同化學(xué)特征表示下的皮爾遜相關(guān)性能。首先，化學(xué)特征比隨機(jī)特征具有更好的性能，這表明化學(xué)特征捕獲了有關(guān)化學(xué)物質(zhì)的重要信息，有助于預(yù)測基因表達(dá)譜。第二，使用神經(jīng)指紋的DeepCE獲得了0.4418的Pearson相關(guān)性，這是與其他設(shè)置（配對t檢驗(yàn)，P值?<?4.89?×?10?5）相比的最佳性能。對于其他化學(xué)特征，基于生物的特征（包括藥物靶點(diǎn)特征和LTIP）比基于化學(xué)的特征（包括PubChem和ECFP指紋）的性能稍好。所有這些觀察結(jié)果均通過配對t檢驗(yàn)進(jìn)行驗(yàn)證，P值<0.01。事實(shí)上，大多數(shù)P值遠(yuǎn)小于0.01。

我們還進(jìn)行了消融研究，通過從特征向量中去除其他特征（即細(xì)胞系、劑量）來研究它們對預(yù)測性能的影響。補(bǔ)充表6中的結(jié)果表明，刪除這些特征會降低DeepCE的性能，最壞的情況是刪除細(xì)胞系和劑量信息。

DeepCE在預(yù)測下游任務(wù)方面是有效的

在本節(jié)中，我們設(shè)計(jì)了一個(gè)實(shí)驗(yàn)來回答這樣一個(gè)問題：這些預(yù)測的基因表達(dá)譜是否能夠?yàn)橄掠晤A(yù)測任務(wù)提供附加值，特別是在L1000數(shù)據(jù)集中的原始基因表達(dá)譜不可靠的情況下。我們首先提取在L1000（原始特征集）中沒有可靠實(shí)驗(yàn)的化學(xué)品的基因表達(dá)譜，并使用在高質(zhì)量訓(xùn)練集上訓(xùn)練的DeepCE模型生成這些藥物的基因表達(dá)譜（預(yù)測特征集）。然后，我們使用這些集合作為藥物的特征來訓(xùn)練兩個(gè)任務(wù)的分類模型：ATC編碼和藥物靶點(diǎn)預(yù)測。這些數(shù)據(jù)集的構(gòu)造細(xì)節(jié)見補(bǔ)充說明1和補(bǔ)充表7。最后，我們訓(xùn)練了四種流行的分類模型，包括logistic回歸、支持向量機(jī)、kNN和決策樹，使用14種不同版本的化學(xué)特征（每個(gè)原始特征集和預(yù)測特征集有7種細(xì)胞特異性特征），用于14個(gè)二元分類任務(wù)（即，10個(gè)ATC代碼和4個(gè)毒品目標(biāo)）。對于每個(gè)實(shí)驗(yàn)設(shè)置，我們使用交叉驗(yàn)證并報(bào)告平均結(jié)果。

COVID-19的藥物再利用

為了進(jìn)一步證明DeepCE的價(jià)值，我們使用化學(xué)誘導(dǎo)的基因表達(dá)譜來發(fā)現(xiàn)治療COVID-19的潛在藥物。由于COVID-19患者的疾病狀態(tài)和癥狀因年齡、性別、基礎(chǔ)條件等因素的不同而顯著不同，因此我們在兩種情況下評估了COVID-19任務(wù)的藥物再利用，包括人群（患者組）和個(gè)體（患者個(gè)體）分析。特別是，我們首先在L1000數(shù)據(jù)集的高質(zhì)量部分使用經(jīng)過訓(xùn)練的DeepCE生成Drugbank數(shù)據(jù)庫中所有11179種藥物在最大化學(xué)劑量下的預(yù)測基因表達(dá)譜。對于患者基因表達(dá)譜，我們使用來自NGDC和NCBI的SARS-COV-2基因表達(dá)數(shù)據(jù)集，分別計(jì)算基于人群和個(gè)體的患者的差異基因表達(dá)譜。具體來說，DESeq2軟件包用于從8個(gè)SARS-CoV-2患者和12個(gè)健康樣本（基于人群）以及從1個(gè)SARS-CoV-2患者和2個(gè)健康樣本（基于個(gè)體）生成患者檔案。然后，我們通過計(jì)算Spearman的基因表達(dá)譜與患者基因表達(dá)譜之間的秩序相關(guān)得分，在Drugbank中篩選藥物，并選擇得分最負(fù)的藥物作為潛在藥物。在這里，我們將A549的基因表達(dá)譜與高質(zhì)量數(shù)據(jù)集中的主要七個(gè)細(xì)胞系相鄰的癌肺組織結(jié)合起來。除了預(yù)測的基因表達(dá)譜外，我們還包括從L1000數(shù)據(jù)集的高質(zhì)量部分提取的基因表達(dá)譜。對于每個(gè)細(xì)胞系，我們提取與患者資料負(fù)相關(guān)得分最高的前100種藥物作為潛在藥物。最后，作為篩選過程的結(jié)果，我們輸出了在所有細(xì)胞系中都有可能進(jìn)行COVID-19治療的藥物。

表2用于COVID-19治療的潛在藥物的化學(xué)結(jié)構(gòu)、現(xiàn)狀和已知用途（即，當(dāng)通過Spearman相關(guān)性將其細(xì)胞特異性預(yù)測基因表達(dá)譜與基于polulation的患者譜進(jìn)行比較時(shí)，出現(xiàn)在所有8個(gè)細(xì)胞系的前100個(gè)藥物列表中的藥物）。實(shí)驗(yàn)藥物和研究藥物分別是處于臨床前或動物試驗(yàn)階段和人體臨床試驗(yàn)階段的藥物

基于人群和個(gè)體的藥物再利用結(jié)果分別如表2和擴(kuò)展數(shù)據(jù)圖2所示。COVID-19誘導(dǎo)的急性呼吸衰竭被認(rèn)為與病毒的直接致病性和宿主炎癥反應(yīng)的失調(diào)有關(guān)。如表2所示，在我們確定用于人群分析的十種藥物中，三種是用于丙型肝炎治療的抗病毒藥物，兩種是免疫抑制劑。特別是，揮發(fā)性物質(zhì)通道蛋白和環(huán)孢霉素是免疫抑制劑和鈣調(diào)神經(jīng)磷酸酶抑制劑，具有相似的結(jié)構(gòu)。環(huán)孢霉素已被用于預(yù)防器官排斥反應(yīng)和治療T細(xì)胞相關(guān)的自身免疫性疾病，并在預(yù)防COVID-1941,42,43,44引起的炎癥反應(yīng)失控、SARS-CoV-2復(fù)制和急性肺損傷等方面顯示出潛在的作用。鈣調(diào)神經(jīng)磷酸酶抑制劑也被證明是有希望的治療嚴(yán)重COVID-19病例45,46。Alisporivir是環(huán)孢素的一種非免疫抑制類似物，具有強(qiáng)的親環(huán)素抑制特性，在Vero E6細(xì)胞中被證明能有效減少SARS-CoV-2 RNA的產(chǎn)生47。此外，纈沙坦可抑制影響免疫抑制劑轉(zhuǎn)運(yùn)的P-糖蛋白，頭孢泊泊龍可用于醫(yī)院和社區(qū)獲得性肺炎48。

對于基于個(gè)體的分析，在我們確定的15種藥物中（擴(kuò)展數(shù)據(jù)圖2），9種是抗病毒藥物，其中7種作為NS5A抑制劑用于治療丙型肝炎。它們與基于人群的分析確定的排名靠前的藥物相似。特別是來自丙型肝炎治療的兩種藥物（elbasvir和velpatasvir）通過使用其他方法49、50、51被證明是COVID-19治療的潛在候選藥物。此外，兩種藥物具有抗炎或免疫調(diào)節(jié)功能，并有可能在COVID-19感染下調(diào)節(jié)免疫應(yīng)答。拉尼基達(dá)能抑制P-糖蛋白1的功能，影響免疫抑制劑的轉(zhuǎn)運(yùn)?；趥€(gè)體的分析也能識別具有相似作用模式的藥物。AMG-487靶向趨化因子受體CXCR3，CXCR3可調(diào)節(jié)白細(xì)胞的轉(zhuǎn)運(yùn)。值得注意的是，這里的所有潛在藥物在L1000數(shù)據(jù)集中都不可用，這表明在基于人群和基于個(gè)體的情況下，DeepCE對于表型復(fù)合物篩選的有效性。

結(jié)論

深度學(xué)習(xí)在藥物發(fā)現(xiàn)中引起了極大的關(guān)注。過去和現(xiàn)有的努力主要集中于加速針對單一靶點(diǎn)的化合物篩選52。然而，這樣一種單藥一基因的模式在追蹤復(fù)雜疾病方面被證明不太成功。一種系統(tǒng)的化合物篩選方法，既考慮到生物系統(tǒng)的信息，又使用化學(xué)誘導(dǎo)的系統(tǒng)反應(yīng)作為讀數(shù)，將為發(fā)現(xiàn)安全有效的生物系統(tǒng)治療方法提供新的機(jī)會。在這項(xiàng)研究中，我們提出了DeepCE，一個(gè)新的和強(qiáng)大的神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的模型預(yù)測化學(xué)誘導(dǎo)基因表達(dá)譜從化學(xué)和生物對象，特別是在從頭化學(xué)設(shè)置。與其他模型相比，我們的模型在預(yù)測基因表達(dá)譜方面取得了最新的成果，不僅在從頭化學(xué)環(huán)境中，而且在傳統(tǒng)環(huán)境中。此外，我們還針對L1000的不可靠測量問題，引入了數(shù)據(jù)增強(qiáng)方法，有效地利用不可靠基因表達(dá)譜中的有用信息，提高了模型的預(yù)測性能。此外，下游預(yù)測任務(wù)評估表明，在L1000中，用DeepCE生成的基因表達(dá)譜訓(xùn)練分類模型比用不可靠的基因表達(dá)譜訓(xùn)練分類模型取得更好的性能，表明DeepCE對下游預(yù)測的附加值。最后，DeepCE通過對DrugBank中所有化合物進(jìn)行電子篩選，針對COVID-19患者的臨床表型（即，將DeepCE產(chǎn)生的化學(xué)誘導(dǎo)基因表達(dá)譜與患者譜進(jìn)行比較），證明了DeepCE在尋找COVID-19治療方法這一挑戰(zhàn)和緊迫問題上的有效性?？傊?，DeepCE可能是一個(gè)強(qiáng)大的基于表型的化合物篩選工具。

數(shù)據(jù)可用性

基于貝葉斯的峰值反褶積LINCS L1000數(shù)據(jù)集可在https://github.com/njpipeorgan/L1000-bayesian。我們研究中使用的訓(xùn)練、開發(fā)和測試基因表達(dá)集，DrugBank中所有藥物的基因表達(dá)譜從DeepCE生成，可在https://github.com/pth1993/DeepCE。

Code availability

DeepCE source code and its usage instructions are available in Github (https://github.com/pth1993/DeepCE) and Zenodo (https://doi.org/10.5281/zenodo.3978774).

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

高通量機(jī)制驅(qū)動表型化合物篩選的深度學(xué)習(xí)框架及其在COVID-19藥物再利用中的應(yīng)用

高通量機(jī)制驅(qū)動表型化合物篩選的深度學(xué)習(xí)框架及其在COVID-19藥物再利用中的應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

高通量機(jī)制驅(qū)動表型化合物篩選的深度學(xué)習(xí)框架及其在COVID-19藥物再利用中的應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av