青青久久在线视频观看,美女高潮中文字幕网,青青草黄视频

0. 簡(jiǎn)介

這篇文章是發(fā)表在Nature Methods上的使用深度學(xué)習(xí)來(lái)擴(kuò)充可變剪切的分析。通訊作者是來(lái)自于UCLA的邢毅老師。這篇文章創(chuàng)新點(diǎn)在于將貝葉斯假設(shè)檢驗(yàn)框架和深度學(xué)習(xí)結(jié)合在一起，首先使用貝葉斯假設(shè)檢驗(yàn)來(lái)檢驗(yàn)可變差異剪切，并用來(lái)作為訓(xùn)練模型的標(biāo)簽，然后根據(jù)深度學(xué)習(xí)預(yù)測(cè)的結(jié)果重新作為貝葉斯假設(shè)檢驗(yàn)的先驗(yàn)概率從而估計(jì)后驗(yàn)概率；除此之外，作者針對(duì)于類別不平衡預(yù)測(cè)結(jié)果還做了rank-transformation。

文章鏈接
 文章代碼

1. 摘要

可變剪切的RNA-Seq分析最大的局限在于非常依賴測(cè)序深度；
作者在這里提出DARTS, 通過(guò)整合先驗(yàn)的RNA-Seq證據(jù)以及深度學(xué)習(xí)預(yù)測(cè)結(jié)果來(lái)推斷不同生物學(xué)樣本中的差異可變剪切；
DARTS利用公共數(shù)據(jù)庫(kù)中的大量的RNA-Seq數(shù)據(jù)通過(guò)深度學(xué)習(xí)提供可變剪切調(diào)節(jié)的knowledge base, 因此可以用來(lái)幫助研究人員即使在中等測(cè)序深度的情況下更好的刻畫(huà)可變剪切。

2. 結(jié)果

2.1 DARTS方法簡(jiǎn)介

RNA-Seq測(cè)序使得分析轉(zhuǎn)錄組水平的可變剪切成為可能，RNA-Seq的快速積累也為分析可變剪切提供了前所未有的機(jī)遇。但是可變剪切的分析卻受限于測(cè)序深度。
因此作者提出了DARTS，如下圖所示：DARTS由兩個(gè)成份組成，DNN（Deep neural network）基于外顯子特異性的序列特征以及樣本特異性的調(diào)控特征預(yù)測(cè)兩個(gè)條件是不是差異可變剪切；BHT(Bayesian hypothesis testing)統(tǒng)計(jì)模型通過(guò)整合特定RNA-Seq數(shù)據(jù)的經(jīng)驗(yàn)證據(jù)（由DNN預(yù)測(cè)得來(lái)）與可變剪切的先驗(yàn)概率推斷差異可變剪切；
在訓(xùn)練的時(shí)候，首先使用無(wú)信息先驗(yàn)?zāi)Ｐ椭换赗NA-Seq數(shù)據(jù)生成高置信度差異以及非差異的標(biāo)簽，然后再用于訓(xùn)練，然后預(yù)測(cè)的結(jié)果又用于DARTS BHT（info），用預(yù)測(cè)結(jié)果作為先驗(yàn)；
Figure 1B: 與其他方法不同的是，DARTS不僅使用了cis sequence還整合了兩種情況下trans RNA-binding proteins(RBPs)的mRNA水平。這可以允許DARTS分析RBPs的表達(dá)如何影響剪切，作者使用了2926個(gè)序列特征以及1498個(gè)注釋的RBPs的mRNA水平（trans RBP特征）；

20190327-Fig2.png

- Figure 1C: 作者使用了兩個(gè)cell lines(K562和HepG2)對(duì)應(yīng)的RBP-depletion RNA-seq，在兩個(gè)cell lines中都有的196個(gè) RBPs depleted by short-harpin RNA (shRNA), 對(duì)應(yīng)著408對(duì)（knockdown-versus-control）;對(duì)于只在一個(gè)細(xì)胞系中出現(xiàn)的58組數(shù)據(jù)用于leave-out test;
Figure 1D: DARTS在leave-out數(shù)據(jù)集上的表現(xiàn)，與其他模型進(jìn)行比較；

2.2 DARTS BHT框架的性能評(píng)估以及訓(xùn)練數(shù)據(jù)集對(duì)于DARTS DNN的影響

Figure 2A: DARTS BHT (info)與DARTS BHT (flat)的性能比較, 測(cè)序深度越淺，性能提升的越顯著；
Figure 2B: DARTS在leave0out數(shù)據(jù)集上的預(yù)測(cè)效果；

2.3 DARTS在上皮-間質(zhì)轉(zhuǎn)化中的可變剪切分析

Figure 3A: 將DARTS DNN用于時(shí)序的RNA0Seq數(shù)據(jù)，底部的bar plot是無(wú)先驗(yàn)?zāi)Ｐ偷慕Y(jié)果，線圖是DNN的預(yù)測(cè)結(jié)果；

3. 方法

3.1 DARTS貝葉斯假設(shè)檢驗(yàn)框架

這部分使用貝葉斯假設(shè)檢驗(yàn)來(lái)確定差異可變剪切事件，DARTS的核心是先利用貝葉斯假設(shè)檢驗(yàn)確定樣本的標(biāo)簽（differential splicing or unchanged splicing）,然后使用深度學(xué)習(xí)建模預(yù)測(cè)，把深度學(xué)習(xí)預(yù)測(cè)結(jié)果作為先驗(yàn)信息，再結(jié)合RNA-Seq數(shù)據(jù)（實(shí)驗(yàn)證據(jù)）得到樣本最終的標(biāo)簽。以最簡(jiǎn)單的情況（檢測(cè)兩個(gè)條件下exon-inclusion levels; PSI values）為例, 認(rèn)為在特定PSI的情況下，外顯子保留的read count符合二項(xiàng)分布，其中 $n$ 為外顯子保留的read數(shù)目加上外顯子跳躍read數(shù)目，概率 $p=f_i(\psi_{ij})\$ ，詳情如下：
**首先聲明: ** $i$ 表示第 $i$ 個(gè)外顯子， $j\in{1,2}$ 分別代表差異splicing和unchanged splicing；
$I_{ij}|\psi_{ij}\sim Binomial(n=I_{ij}+S_{ij},p=f_i(\psi_{ij}))$
$\psi_{i1}=\mu_i$
$\psi_{i2}=\mu_i+\delta_i$
$\mu_i\sim Unif(0,1)$
$\delta_i\sim N(0,\tau^2)$
$I_{ij}$ : 外顯子保留的read count；
$S_{ij}$ : 外顯子跳躍的read count；
$\psi_{ij}$ : 外顯子 $i$ 在sample group $j\in{1,2}$ 的外顯子保留水平,也就是PSI值；
$f_i$ : 外顯子 $i$ 的長(zhǎng)度標(biāo)準(zhǔn)化函數(shù)，這個(gè)函數(shù)考慮了外顯子保留和跳躍的有效長(zhǎng)度；
$\mu_i$ : 外顯子 $i$ 的baseline inclusion level；
$\delta_i$ : 兩個(gè)條件下期望的外顯子保留水平之差；
差異可變剪切分析的目標(biāo)就是檢驗(yàn)兩個(gè)條件下是否有很高的概率使得 $\delta_i$ 大于指定的閾值 $c$ (例如：0.05)。對(duì)應(yīng)如下公式：
$p(|\delta_i|>c|I_{ij},S_{ij})\approx1$
在貝葉斯統(tǒng)計(jì)中，可以通過(guò)使用參數(shù) $\delta$ 的spike-and-slab先驗(yàn)來(lái)估計(jì)結(jié)果。spike-and-slab先驗(yàn)是雙組分混合分布，其中“spike”描繪了模型參數(shù) $\delta$ 被約束在零附近的概率，而“slab”分量描繪了模型參數(shù) $\delta$ 的無(wú)約束分布。
在貝葉斯統(tǒng)計(jì)框架中，為了考慮到隨機(jī)的技術(shù)干擾對(duì)PSI值的影響，作者利用了spike prior $H_0$ with a small variance $\tau=\tau_0$ ; slab prior $H_1$ with a small variance $\tau=\tau_1$ 。設(shè)置 $\tau_0=0.03$ , 對(duì)應(yīng)著90%的密度約束在 $\delta\in[-0.05,0.05]$ , $\tau_1=0.3$ , 因此后驗(yàn)概率可以寫(xiě)做：
$p(H_1|I_{ij},S_{ij})=\frac1Zp(H_1)*p(I_{ij},S_{ij}|H_1)$
$p(I_{ij},S_{ij}|H_1)=\int_\tau\int_\mu p(I_{ij},S_{ij}|\mu_i,\delta_i)*p(\mu_i,\delta_i|H_1)d\mu_id\delta_i$
$p(H_0|I_{ij},S_{ij})=\frac1Zp(H_0)*p(I_{ij},S_{ij}|H_0)$
$p(I_{ij},S_{ij}|H_0)=\int_\tau\int_\mu p(I_{ij},S_{ij}|\mu_i,\delta_i)*p(\mu_i,\delta_i|H_0)d\mu_id\delta_i$
說(shuō)明：
- $p(H_1)$ ：外顯子 $i$ 差異剪切的先驗(yàn)概率，在模型訓(xùn)練之前這個(gè)采用無(wú)信息先驗(yàn)分布，訓(xùn)練模型之后用預(yù)測(cè)分值作為先驗(yàn)信息, 因此這里還是無(wú)信息先驗(yàn)；
- $p(H_0)=1-p(H_1)$ : 外顯子 $i$ unchanged的先驗(yàn)概率；
- $p(I_{ij},S_{ij}|H_1)$ 和 $p(I_{ij},S_{ij}|H_0)$ 分別表示在differential splicing and unchanged splicing模型下的likelihoods；
- $Z$ ：標(biāo)準(zhǔn)常數(shù)；
由于是比較兩個(gè)模型，因此又可以寫(xiě)成以下形式：
$\frac{p(H_1|I_{ij},S_{ij})}{p(H_0|I_{ij},S_{ij})}=\frac{p(H_1)}{p(H_0)}*\frac{p(I_{ij},S_{ij}|H_1)}{p(I_{ij},S_{ij}|H_0)}$
由于采用無(wú)信息先驗(yàn)，所以： $p(H_0)=p(H_1)=0.5$ ; 因此上式等價(jià)于似然比檢驗(yàn)，這里作者稱為DARTS BHT (flat); 當(dāng)整合基于深度學(xué)習(xí)的預(yù)測(cè)結(jié)果作為先驗(yàn)信息時(shí)，作者稱為DARTS BHT (info)。
最終，使用上述公式，我們可以得到參數(shù) $\delta_i$ 的邊際后驗(yàn)概率 $p(\delta_i|I_{ij},S_{ij})$ ，即兩個(gè)模型的后驗(yàn)混合：
$p(\delta_i|I_{ij},S_{ij})=p(\delta_i|H_1,I_{ij},S_{ij})*p(H_1|I_{ij},S_{ij})+p(\delta_i|H_0,I_{ij},S_{ij})*p(H_0|I_{ij},S_{ij})$
最終就是推斷 $p(|\delta_i|>c|I_{ij},S_{ij})$ , 作者在分析中，設(shè)置 $c=0.05$ , 即：外顯子保留水平有5%的變化。認(rèn)為 $p(|\delta_i|>0.05|I_{ij},S_{ij})>0.9$ 為顯著差異剪切事件； $p(|\delta_i|>0.05|I_{ij},S_{ij})<0.1$ 為顯著的unchanged splicing事件。

3.2 DARTS預(yù)測(cè)差異可變剪切的深度神經(jīng)網(wǎng)絡(luò)模型(DARTS DNN model for predicting differential alternative splicing)

DARTS的一個(gè)核心就是利用DNN檢測(cè)兩個(gè)條件下一個(gè)特定的外顯子是不是差異剪切，這里作者利用了兩個(gè)層面的特征，第一個(gè)是序列層面的特征，第二個(gè)是在兩個(gè)條件下樣本特異性的反式RBP表達(dá)水平的特征，因此預(yù)測(cè)問(wèn)題可以表述為以下公式：
$p(Y_{ik}=1)=F(Y_{ik};E_i,G_k)$
其中 $Y_{ik}$ 就是外顯子 $i$ 在比較 $k$ 中的標(biāo)簽； $E_i$ 是一個(gè)向量，包含2936個(gè)進(jìn)化保守型特征、2973個(gè)剪切點(diǎn)的長(zhǎng)度、2971個(gè)調(diào)控motif的組成以及1748個(gè)RNA二級(jí)結(jié)構(gòu)特征（ skipped exons, alternative 5′ splice sites, alternative 3′ splice sites, and retained introns）；而 $G_k$ 是2996維的向量代表1498個(gè)RBPs在兩個(gè)條件下的標(biāo)準(zhǔn)化基因表達(dá)量；DNN的預(yù)測(cè)結(jié)果可以背進(jìn)一步整合為貝葉斯假設(shè)檢驗(yàn)框架中的先驗(yàn)信息；
模型由4個(gè)全連接隱層分別包含1200，500，300和200個(gè)神經(jīng)元均使用ReLu激活函數(shù)；RMSprop優(yōu)化，minibatch設(shè)置為1000，加入Dropout防止過(guò)擬合。

3.3 RNA-seq數(shù)據(jù)處理以及DARTS DNN模型的訓(xùn)練

使用rMATS處理bam文件檢測(cè)可變剪切；
Kallisto定基因表達(dá)量，使用Gencode生成index；
使用DARTS BHT(flat)生成訓(xùn)練標(biāo)簽，后驗(yàn)概率 $p(|\Delta\psi|>0.05)>0.9$ 作為正樣本；后驗(yàn)概率 $p(|\Delta\psi|>0.05)<0.1$ 作為負(fù)樣本；
10%的樣本用于測(cè)試數(shù)據(jù)，剩下90%數(shù)據(jù)用于五倍交叉驗(yàn)證；
同時(shí)也收集了只在一個(gè)細(xì)胞系中存在的ENCODE RBP-knockdown實(shí)驗(yàn)作為leave-out datasets來(lái)評(píng)估模型的精度；

3.4 DARTS信息先驗(yàn)的Rank-transformation

由于unchanged splicing要比differential splicing大幾個(gè)數(shù)量級(jí)，因此機(jī)器學(xué)習(xí)算法會(huì)偏向于類別多的樣本，作者為了解決這個(gè)問(wèn)題，使用了非監(jiān)督的rank-tranformation重新scale DARTS DNN的預(yù)測(cè)分值來(lái)獲得DARTS BHT框架的先驗(yàn)信息；
具體來(lái)說(shuō)，作者將所有DARTS DNN的預(yù)測(cè)分值擬合成的雙峰（兩個(gè)component）的高斯混合模型，然后得出兩個(gè)混合高斯峰的均值和方差，以及屬于特定成分的每個(gè)DARTS DNN得分的后驗(yàn)概率 $\lambda$ ；
每個(gè)高斯成分的均值和方差分別設(shè)置為: $\mu_0$ , $\mu_1$ , $\sigma_0$ , $\sigma_1$ ，然后每個(gè)原始預(yù)測(cè)分值通過(guò)rank-transformed成新的高斯成分然后通過(guò)權(quán)重參數(shù) $\lambda$ 加權(quán)平均；
最后，為了保持有限的先驗(yàn)概率，把transformed DARTS DNN score scale到 $[\alpha, 1-\alpha]$ , 其中 $\alpha\in[0,0.5)$ ；
在實(shí)際操作中，用到的參數(shù)設(shè)置為： $\mu_0=0.05$ , $\mu_1=0.95$ , $\sigma_0=\sigma_1=0.1$ , $\alpha=0.05$ 。