Deep-learning augmented RNA-seq analysis of transcript splicing

0. 簡(jiǎn)介

這篇文章是發(fā)表在Nature Methods上的使用深度學(xué)習(xí)來(lái)擴(kuò)充可變剪切的分析。通訊作者是來(lái)自于UCLA的邢毅老師。這篇文章創(chuàng)新點(diǎn)在于將貝葉斯假設(shè)檢驗(yàn)框架和深度學(xué)習(xí)結(jié)合在一起,首先使用貝葉斯假設(shè)檢驗(yàn)來(lái)檢驗(yàn)可變差異剪切,并用來(lái)作為訓(xùn)練模型的標(biāo)簽,然后根據(jù)深度學(xué)習(xí)預(yù)測(cè)的結(jié)果重新作為貝葉斯假設(shè)檢驗(yàn)的先驗(yàn)概率從而估計(jì)后驗(yàn)概率;除此之外,作者針對(duì)于類別不平衡預(yù)測(cè)結(jié)果還做了rank-transformation。

文章鏈接
文章代碼

1. 摘要

  • 可變剪切的RNA-Seq分析最大的局限在于非常依賴測(cè)序深度;
  • 作者在這里提出DARTS, 通過(guò)整合先驗(yàn)的RNA-Seq證據(jù)以及深度學(xué)習(xí)預(yù)測(cè)結(jié)果來(lái)推斷不同生物學(xué)樣本中的差異可變剪切;
    DARTS利用公共數(shù)據(jù)庫(kù)中的大量的RNA-Seq數(shù)據(jù)通過(guò)深度學(xué)習(xí)提供可變剪切調(diào)節(jié)的knowledge base, 因此可以用來(lái)幫助研究人員即使在中等測(cè)序深度的情況下更好的刻畫(huà)可變剪切。

2. 結(jié)果

2.1 DARTS方法簡(jiǎn)介

  • RNA-Seq測(cè)序使得分析轉(zhuǎn)錄組水平的可變剪切成為可能,RNA-Seq的快速積累也為分析可變剪切提供了前所未有的機(jī)遇。但是可變剪切的分析卻受限于測(cè)序深度。
  • 因此作者提出了DARTS,如下圖所示:DARTS由兩個(gè)成份組成,DNN(Deep neural network)基于外顯子特異性的序列特征以及樣本特異性的調(diào)控特征預(yù)測(cè)兩個(gè)條件是不是差異可變剪切;BHT(Bayesian hypothesis testing)統(tǒng)計(jì)模型通過(guò)整合特定RNA-Seq數(shù)據(jù)的經(jīng)驗(yàn)證據(jù)(由DNN預(yù)測(cè)得來(lái))與可變剪切的先驗(yàn)概率推斷差異可變剪切;
  • 在訓(xùn)練的時(shí)候,首先使用無(wú)信息先驗(yàn)?zāi)P椭换赗NA-Seq數(shù)據(jù)生成高置信度差異以及非差異的標(biāo)簽,然后再用于訓(xùn)練,然后預(yù)測(cè)的結(jié)果又用于DARTS BHT(info),用預(yù)測(cè)結(jié)果作為先驗(yàn);
  • Figure 1B: 與其他方法不同的是,DARTS不僅使用了cis sequence還整合了兩種情況下trans RNA-binding proteins(RBPs)的mRNA水平。這可以允許DARTS分析RBPs的表達(dá)如何影響剪切,作者使用了2926個(gè)序列特征以及1498個(gè)注釋的RBPs的mRNA水平(trans RBP特征);

    20190327-Fig2.png
    - Figure 1C: 作者使用了兩個(gè)cell lines(K562和HepG2)對(duì)應(yīng)的RBP-depletion RNA-seq,在兩個(gè)cell lines中都有的196個(gè) RBPs depleted by short-harpin RNA (shRNA), 對(duì)應(yīng)著408對(duì)(knockdown-versus-control);對(duì)于只在一個(gè)細(xì)胞系中出現(xiàn)的58組數(shù)據(jù)用于leave-out test;
  • Figure 1D: DARTS在leave-out數(shù)據(jù)集上的表現(xiàn),與其他模型進(jìn)行比較;

2.2 DARTS BHT框架的性能評(píng)估以及訓(xùn)練數(shù)據(jù)集對(duì)于DARTS DNN的影響

  • Figure 2A: DARTS BHT (info)與DARTS BHT (flat)的性能比較, 測(cè)序深度越淺,性能提升的越顯著;
  • Figure 2B: DARTS在leave0out數(shù)據(jù)集上的預(yù)測(cè)效果;

2.3 DARTS在上皮-間質(zhì)轉(zhuǎn)化中的可變剪切分析

  • Figure 3A: 將DARTS DNN用于時(shí)序的RNA0Seq數(shù)據(jù),底部的bar plot是無(wú)先驗(yàn)?zāi)P偷慕Y(jié)果,線圖是DNN的預(yù)測(cè)結(jié)果;

3. 方法

3.1 DARTS貝葉斯假設(shè)檢驗(yàn)框架

  • 這部分使用貝葉斯假設(shè)檢驗(yàn)來(lái)確定差異可變剪切事件,DARTS的核心是先利用貝葉斯假設(shè)檢驗(yàn)確定樣本的標(biāo)簽(differential splicing or unchanged splicing),然后使用深度學(xué)習(xí)建模預(yù)測(cè),把深度學(xué)習(xí)預(yù)測(cè)結(jié)果作為先驗(yàn)信息,再結(jié)合RNA-Seq數(shù)據(jù)(實(shí)驗(yàn)證據(jù))得到樣本最終的標(biāo)簽。以最簡(jiǎn)單的情況(檢測(cè)兩個(gè)條件下exon-inclusion levels; PSI values)為例, 認(rèn)為在特定PSI的情況下,外顯子保留的read count符合二項(xiàng)分布,其中n為外顯子保留的read數(shù)目加上外顯子跳躍read數(shù)目,概率p=f_i(\psi_{ij})\,詳情如下:

  • **首先聲明: **i表示第i個(gè)外顯子,j\in{1,2} 分別代表差異splicing和unchanged splicing;
    I_{ij}|\psi_{ij}\sim Binomial(n=I_{ij}+S_{ij},p=f_i(\psi_{ij}))
    \psi_{i1}=\mu_i
    \psi_{i2}=\mu_i+\delta_i
    \mu_i\sim Unif(0,1)
    \delta_i\sim N(0,\tau^2)

  • I_{ij}: 外顯子保留的read count;

  • S_{ij}: 外顯子跳躍的read count;

  • \psi_{ij}: 外顯子 i 在sample group j\in{1,2}的外顯子保留水平,也就是PSI值;

  • f_i: 外顯子 i 的長(zhǎng)度標(biāo)準(zhǔn)化函數(shù),這個(gè)函數(shù)考慮了外顯子保留和跳躍的有效長(zhǎng)度

  • \mu_i: 外顯子 i 的baseline inclusion level;

  • \delta_i: 兩個(gè)條件下期望的外顯子保留水平之差

  • 差異可變剪切分析的目標(biāo)就是檢驗(yàn)兩個(gè)條件下是否有很高的概率使得\delta_i大于指定的閾值c (例如:0.05)。對(duì)應(yīng)如下公式:
    p(|\delta_i|>c|I_{ij},S_{ij})\approx1

  • 在貝葉斯統(tǒng)計(jì)中,可以通過(guò)使用參數(shù)\deltaspike-and-slab先驗(yàn)來(lái)估計(jì)結(jié)果。spike-and-slab先驗(yàn)是雙組分混合分布,其中“spike”描繪了模型參數(shù)\delta被約束在零附近的概率,而“slab”分量描繪了模型參數(shù)\delta的無(wú)約束分布。

  • 在貝葉斯統(tǒng)計(jì)框架中,為了考慮到隨機(jī)的技術(shù)干擾對(duì)PSI值的影響,作者利用了spike prior H_0 with a small variance \tau=\tau_0; slab prior H_1 with a small variance \tau=\tau_1。設(shè)置\tau_0=0.03, 對(duì)應(yīng)著90%的密度約束在\delta\in[-0.05,0.05], \tau_1=0.3, 因此后驗(yàn)概率可以寫(xiě)做:
    p(H_1|I_{ij},S_{ij})=\frac1Zp(H_1)*p(I_{ij},S_{ij}|H_1)
    p(I_{ij},S_{ij}|H_1)=\int_\tau\int_\mu p(I_{ij},S_{ij}|\mu_i,\delta_i)*p(\mu_i,\delta_i|H_1)d\mu_id\delta_i
    p(H_0|I_{ij},S_{ij})=\frac1Zp(H_0)*p(I_{ij},S_{ij}|H_0)
    p(I_{ij},S_{ij}|H_0)=\int_\tau\int_\mu p(I_{ij},S_{ij}|\mu_i,\delta_i)*p(\mu_i,\delta_i|H_0)d\mu_id\delta_i

  • 說(shuō)明:

    • p(H_1)外顯子i差異剪切的先驗(yàn)概率,在模型訓(xùn)練之前這個(gè)采用無(wú)信息先驗(yàn)分布,訓(xùn)練模型之后用預(yù)測(cè)分值作為先驗(yàn)信息, 因此這里還是無(wú)信息先驗(yàn)
    • p(H_0)=1-p(H_1): 外顯子iunchanged的先驗(yàn)概率;
    • p(I_{ij},S_{ij}|H_1)p(I_{ij},S_{ij}|H_0)分別表示在differential splicing and unchanged splicing模型下的likelihoods;
    • Z:標(biāo)準(zhǔn)常數(shù);
  • 由于是比較兩個(gè)模型,因此又可以寫(xiě)成以下形式:
    \frac{p(H_1|I_{ij},S_{ij})}{p(H_0|I_{ij},S_{ij})}=\frac{p(H_1)}{p(H_0)}*\frac{p(I_{ij},S_{ij}|H_1)}{p(I_{ij},S_{ij}|H_0)}

  • 由于采用無(wú)信息先驗(yàn),所以:p(H_0)=p(H_1)=0.5; 因此上式等價(jià)于似然比檢驗(yàn),這里作者稱為DARTS BHT (flat); 當(dāng)整合基于深度學(xué)習(xí)的預(yù)測(cè)結(jié)果作為先驗(yàn)信息時(shí),作者稱為DARTS BHT (info)。

  • 最終,使用上述公式,我們可以得到參數(shù)\delta_i的邊際后驗(yàn)概率p(\delta_i|I_{ij},S_{ij}),即兩個(gè)模型的后驗(yàn)混合:
    p(\delta_i|I_{ij},S_{ij})=p(\delta_i|H_1,I_{ij},S_{ij})*p(H_1|I_{ij},S_{ij})+p(\delta_i|H_0,I_{ij},S_{ij})*p(H_0|I_{ij},S_{ij})

  • 最終就是推斷p(|\delta_i|>c|I_{ij},S_{ij}), 作者在分析中,設(shè)置c=0.05, 即:外顯子保留水平有5%的變化。認(rèn)為p(|\delta_i|>0.05|I_{ij},S_{ij})>0.9為顯著差異剪切事件;p(|\delta_i|>0.05|I_{ij},S_{ij})<0.1為顯著的unchanged splicing事件。

3.2 DARTS預(yù)測(cè)差異可變剪切的深度神經(jīng)網(wǎng)絡(luò)模型(DARTS DNN model for predicting differential alternative splicing)

  • DARTS的一個(gè)核心就是利用DNN檢測(cè)兩個(gè)條件下一個(gè)特定的外顯子是不是差異剪切,這里作者利用了兩個(gè)層面的特征,第一個(gè)是序列層面的特征,第二個(gè)是在兩個(gè)條件下樣本特異性的反式RBP表達(dá)水平的特征,因此預(yù)測(cè)問(wèn)題可以表述為以下公式:
    p(Y_{ik}=1)=F(Y_{ik};E_i,G_k)
  • 其中Y_{ik}就是外顯子i在比較k中的標(biāo)簽;E_i是一個(gè)向量,包含2936個(gè)進(jìn)化保守型特征、2973個(gè)剪切點(diǎn)的長(zhǎng)度、2971個(gè)調(diào)控motif的組成以及1748個(gè)RNA二級(jí)結(jié)構(gòu)特征( skipped exons, alternative 5′ splice sites, alternative 3′ splice sites, and retained introns);而G_k是2996維的向量代表1498個(gè)RBPs在兩個(gè)條件下的標(biāo)準(zhǔn)化基因表達(dá)量;DNN的預(yù)測(cè)結(jié)果可以背進(jìn)一步整合為貝葉斯假設(shè)檢驗(yàn)框架中的先驗(yàn)信息;
  • 模型由4個(gè)全連接隱層分別包含1200,500,300和200個(gè)神經(jīng)元均使用ReLu激活函數(shù);RMSprop優(yōu)化,minibatch設(shè)置為1000,加入Dropout防止過(guò)擬合。

3.3 RNA-seq數(shù)據(jù)處理以及DARTS DNN模型的訓(xùn)練

  • 使用rMATS處理bam文件檢測(cè)可變剪切;
  • Kallisto定基因表達(dá)量,使用Gencode生成index;
  • 使用DARTS BHT(flat)生成訓(xùn)練標(biāo)簽,后驗(yàn)概率p(|\Delta\psi|>0.05)>0.9作為正樣本;后驗(yàn)概率p(|\Delta\psi|>0.05)<0.1作為負(fù)樣本;
  • 10%的樣本用于測(cè)試數(shù)據(jù),剩下90%數(shù)據(jù)用于五倍交叉驗(yàn)證;
  • 同時(shí)也收集了只在一個(gè)細(xì)胞系中存在的ENCODE RBP-knockdown實(shí)驗(yàn)作為leave-out datasets來(lái)評(píng)估模型的精度;

3.4 DARTS信息先驗(yàn)的Rank-transformation

  • 由于unchanged splicing要比differential splicing大幾個(gè)數(shù)量級(jí),因此機(jī)器學(xué)習(xí)算法會(huì)偏向于類別多的樣本,作者為了解決這個(gè)問(wèn)題,使用了非監(jiān)督的rank-tranformation重新scale DARTS DNN的預(yù)測(cè)分值來(lái)獲得DARTS BHT框架的先驗(yàn)信息;
  • 具體來(lái)說(shuō),作者將所有DARTS DNN的預(yù)測(cè)分值擬合成的雙峰(兩個(gè)component)的高斯混合模型,然后得出兩個(gè)混合高斯峰的均值和方差,以及屬于特定成分的每個(gè)DARTS DNN得分的后驗(yàn)概率\lambda;
  • 每個(gè)高斯成分的均值和方差分別設(shè)置為: \mu_0, \mu_1, \sigma_0, \sigma_1,然后每個(gè)原始預(yù)測(cè)分值通過(guò)rank-transformed成新的高斯成分然后通過(guò)權(quán)重參數(shù)\lambda加權(quán)平均;
  • 最后,為了保持有限的先驗(yàn)概率,把transformed DARTS DNN score scale到[\alpha, 1-\alpha], 其中\alpha\in[0,0.5);
  • 在實(shí)際操作中,用到的參數(shù)設(shè)置為:\mu_0=0.05, \mu_1=0.95, \sigma_0=\sigma_1=0.1, \alpha=0.05。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容