0. 簡(jiǎn)介
這篇文章是發(fā)表在Nature Methods上的使用深度學(xué)習(xí)來(lái)擴(kuò)充可變剪切的分析。通訊作者是來(lái)自于UCLA的邢毅老師。這篇文章創(chuàng)新點(diǎn)在于將貝葉斯假設(shè)檢驗(yàn)框架和深度學(xué)習(xí)結(jié)合在一起,首先使用貝葉斯假設(shè)檢驗(yàn)來(lái)檢驗(yàn)可變差異剪切,并用來(lái)作為訓(xùn)練模型的標(biāo)簽,然后根據(jù)深度學(xué)習(xí)預(yù)測(cè)的結(jié)果重新作為貝葉斯假設(shè)檢驗(yàn)的先驗(yàn)概率從而估計(jì)后驗(yàn)概率;除此之外,作者針對(duì)于類別不平衡預(yù)測(cè)結(jié)果還做了rank-transformation。
1. 摘要
- 可變剪切的RNA-Seq分析最大的局限在于非常依賴測(cè)序深度;
- 作者在這里提出DARTS, 通過(guò)整合先驗(yàn)的RNA-Seq證據(jù)以及深度學(xué)習(xí)預(yù)測(cè)結(jié)果來(lái)推斷不同生物學(xué)樣本中的差異可變剪切;
DARTS利用公共數(shù)據(jù)庫(kù)中的大量的RNA-Seq數(shù)據(jù)通過(guò)深度學(xué)習(xí)提供可變剪切調(diào)節(jié)的knowledge base, 因此可以用來(lái)幫助研究人員即使在中等測(cè)序深度的情況下更好的刻畫(huà)可變剪切。
2. 結(jié)果
2.1 DARTS方法簡(jiǎn)介
- RNA-Seq測(cè)序使得分析轉(zhuǎn)錄組水平的可變剪切成為可能,RNA-Seq的快速積累也為分析可變剪切提供了前所未有的機(jī)遇。但是可變剪切的分析卻受限于測(cè)序深度。
- 因此作者提出了DARTS,如下圖所示:DARTS由兩個(gè)成份組成,DNN(Deep neural network)基于外顯子特異性的序列特征以及樣本特異性的調(diào)控特征預(yù)測(cè)兩個(gè)條件是不是差異可變剪切;BHT(Bayesian hypothesis testing)統(tǒng)計(jì)模型通過(guò)整合特定RNA-Seq數(shù)據(jù)的經(jīng)驗(yàn)證據(jù)(由DNN預(yù)測(cè)得來(lái))與可變剪切的先驗(yàn)概率推斷差異可變剪切;
- 在訓(xùn)練的時(shí)候,首先使用無(wú)信息先驗(yàn)?zāi)P椭换赗NA-Seq數(shù)據(jù)生成高置信度差異以及非差異的標(biāo)簽,然后再用于訓(xùn)練,然后預(yù)測(cè)的結(jié)果又用于DARTS BHT(info),用預(yù)測(cè)結(jié)果作為先驗(yàn);
-
Figure 1B: 與其他方法不同的是,DARTS不僅使用了cis sequence還整合了兩種情況下trans RNA-binding proteins(RBPs)的mRNA水平。這可以允許DARTS分析RBPs的表達(dá)如何影響剪切,作者使用了2926個(gè)序列特征以及1498個(gè)注釋的RBPs的mRNA水平(trans RBP特征);
- Figure 1C: 作者使用了兩個(gè)cell lines(K562和HepG2)對(duì)應(yīng)的RBP-depletion RNA-seq,在兩個(gè)cell lines中都有的196個(gè) RBPs depleted by short-harpin RNA (shRNA), 對(duì)應(yīng)著408對(duì)(knockdown-versus-control);對(duì)于只在一個(gè)細(xì)胞系中出現(xiàn)的58組數(shù)據(jù)用于leave-out test;20190327-Fig2.png - Figure 1D: DARTS在leave-out數(shù)據(jù)集上的表現(xiàn),與其他模型進(jìn)行比較;
2.2 DARTS BHT框架的性能評(píng)估以及訓(xùn)練數(shù)據(jù)集對(duì)于DARTS DNN的影響
- Figure 2A: DARTS BHT (info)與DARTS BHT (flat)的性能比較, 測(cè)序深度越淺,性能提升的越顯著;
- Figure 2B: DARTS在leave0out數(shù)據(jù)集上的預(yù)測(cè)效果;

2.3 DARTS在上皮-間質(zhì)轉(zhuǎn)化中的可變剪切分析
- Figure 3A: 將DARTS DNN用于時(shí)序的RNA0Seq數(shù)據(jù),底部的bar plot是無(wú)先驗(yàn)?zāi)P偷慕Y(jié)果,線圖是DNN的預(yù)測(cè)結(jié)果;


3. 方法
3.1 DARTS貝葉斯假設(shè)檢驗(yàn)框架
這部分使用貝葉斯假設(shè)檢驗(yàn)來(lái)確定差異可變剪切事件,DARTS的核心是先利用貝葉斯假設(shè)檢驗(yàn)確定樣本的標(biāo)簽(differential splicing or unchanged splicing),然后使用深度學(xué)習(xí)建模預(yù)測(cè),把深度學(xué)習(xí)預(yù)測(cè)結(jié)果作為先驗(yàn)信息,再結(jié)合RNA-Seq數(shù)據(jù)(實(shí)驗(yàn)證據(jù))得到樣本最終的標(biāo)簽。以最簡(jiǎn)單的情況(檢測(cè)兩個(gè)條件下exon-inclusion levels; PSI values)為例, 認(rèn)為在特定PSI的情況下,外顯子保留的read count符合二項(xiàng)分布,其中
為外顯子保留的read數(shù)目加上外顯子跳躍read數(shù)目,概率
,詳情如下:
**首先聲明: **
表示第
個(gè)外顯子,
分別代表差異splicing和unchanged splicing;
: 外顯子保留的read count;
: 外顯子跳躍的read count;
: 外顯子
在sample group
的外顯子保留水平,也就是PSI值;
: 外顯子
的長(zhǎng)度標(biāo)準(zhǔn)化函數(shù),這個(gè)函數(shù)考慮了外顯子保留和跳躍的有效長(zhǎng)度;
: 外顯子
的baseline inclusion level;
: 兩個(gè)條件下期望的外顯子保留水平之差;
差異可變剪切分析的目標(biāo)就是檢驗(yàn)兩個(gè)條件下是否有很高的概率使得
大于指定的閾值
(例如:0.05)。對(duì)應(yīng)如下公式:
在貝葉斯統(tǒng)計(jì)中,可以通過(guò)使用參數(shù)
的spike-and-slab先驗(yàn)來(lái)估計(jì)結(jié)果。spike-and-slab先驗(yàn)是雙組分混合分布,其中“spike”描繪了模型參數(shù)
被約束在零附近的概率,而“slab”分量描繪了模型參數(shù)
的無(wú)約束分布。
在貝葉斯統(tǒng)計(jì)框架中,為了考慮到隨機(jī)的技術(shù)干擾對(duì)PSI值的影響,作者利用了spike prior
with a small variance
; slab prior
with a small variance
。設(shè)置
, 對(duì)應(yīng)著90%的密度約束在
,
, 因此后驗(yàn)概率可以寫(xiě)做:
-
說(shuō)明:
-
:外顯子
差異剪切的先驗(yàn)概率,在模型訓(xùn)練之前這個(gè)采用無(wú)信息先驗(yàn)分布,訓(xùn)練模型之后用預(yù)測(cè)分值作為先驗(yàn)信息, 因此這里還是無(wú)信息先驗(yàn);
-
: 外顯子
unchanged的先驗(yàn)概率;
-
和
分別表示在differential splicing and unchanged splicing模型下的likelihoods;
-
:標(biāo)準(zhǔn)常數(shù);
-
由于是比較兩個(gè)模型,因此又可以寫(xiě)成以下形式:
由于采用無(wú)信息先驗(yàn),所以:
; 因此上式等價(jià)于似然比檢驗(yàn),這里作者稱為DARTS BHT (flat); 當(dāng)整合基于深度學(xué)習(xí)的預(yù)測(cè)結(jié)果作為先驗(yàn)信息時(shí),作者稱為DARTS BHT (info)。
最終,使用上述公式,我們可以得到參數(shù)
的邊際后驗(yàn)概率
,即兩個(gè)模型的后驗(yàn)混合:
最終就是推斷
, 作者在分析中,設(shè)置
, 即:外顯子保留水平有5%的變化。認(rèn)為
為顯著差異剪切事件;
為顯著的unchanged splicing事件。
3.2 DARTS預(yù)測(cè)差異可變剪切的深度神經(jīng)網(wǎng)絡(luò)模型(DARTS DNN model for predicting differential alternative splicing)
- DARTS的一個(gè)核心就是利用DNN檢測(cè)兩個(gè)條件下一個(gè)特定的外顯子是不是差異剪切,這里作者利用了兩個(gè)層面的特征,第一個(gè)是序列層面的特征,第二個(gè)是在兩個(gè)條件下樣本特異性的反式RBP表達(dá)水平的特征,因此預(yù)測(cè)問(wèn)題可以表述為以下公式:
- 其中
就是外顯子
在比較
中的標(biāo)簽;
是一個(gè)向量,包含2936個(gè)進(jìn)化保守型特征、2973個(gè)剪切點(diǎn)的長(zhǎng)度、2971個(gè)調(diào)控motif的組成以及1748個(gè)RNA二級(jí)結(jié)構(gòu)特征( skipped exons, alternative 5′ splice sites, alternative 3′ splice sites, and retained introns);而
是2996維的向量代表1498個(gè)RBPs在兩個(gè)條件下的標(biāo)準(zhǔn)化基因表達(dá)量;DNN的預(yù)測(cè)結(jié)果可以背進(jìn)一步整合為貝葉斯假設(shè)檢驗(yàn)框架中的先驗(yàn)信息;
- 模型由4個(gè)全連接隱層分別包含1200,500,300和200個(gè)神經(jīng)元均使用ReLu激活函數(shù);RMSprop優(yōu)化,minibatch設(shè)置為1000,加入Dropout防止過(guò)擬合。
3.3 RNA-seq數(shù)據(jù)處理以及DARTS DNN模型的訓(xùn)練
- 使用rMATS處理bam文件檢測(cè)可變剪切;
- Kallisto定基因表達(dá)量,使用Gencode生成index;
- 使用DARTS BHT(flat)生成訓(xùn)練標(biāo)簽,后驗(yàn)概率
作為正樣本;后驗(yàn)概率
作為負(fù)樣本;
- 10%的樣本用于測(cè)試數(shù)據(jù),剩下90%數(shù)據(jù)用于五倍交叉驗(yàn)證;
- 同時(shí)也收集了只在一個(gè)細(xì)胞系中存在的ENCODE RBP-knockdown實(shí)驗(yàn)作為leave-out datasets來(lái)評(píng)估模型的精度;
3.4 DARTS信息先驗(yàn)的Rank-transformation
- 由于unchanged splicing要比differential splicing大幾個(gè)數(shù)量級(jí),因此機(jī)器學(xué)習(xí)算法會(huì)偏向于類別多的樣本,作者為了解決這個(gè)問(wèn)題,使用了非監(jiān)督的rank-tranformation重新scale DARTS DNN的預(yù)測(cè)分值來(lái)獲得DARTS BHT框架的先驗(yàn)信息;
- 具體來(lái)說(shuō),作者將所有DARTS DNN的預(yù)測(cè)分值擬合成的雙峰(兩個(gè)component)的高斯混合模型,然后得出兩個(gè)混合高斯峰的均值和方差,以及屬于特定成分的每個(gè)DARTS DNN得分的后驗(yàn)概率
;
- 每個(gè)高斯成分的均值和方差分別設(shè)置為:
,
,
,
,然后每個(gè)原始預(yù)測(cè)分值通過(guò)rank-transformed成新的高斯成分然后通過(guò)權(quán)重參數(shù)
加權(quán)平均;
- 最后,為了保持有限的先驗(yàn)概率,把transformed DARTS DNN score scale到
, 其中
;
- 在實(shí)際操作中,用到的參數(shù)設(shè)置為:
,
,
,
。

