差異表達(dá)3|MaGeck

MaGeck

MaGeck是對CRISPR screen結(jié)果進(jìn)行篩選的軟件,差異表達(dá)的對象是sgRNA,再對不同sgRNA的結(jié)果進(jìn)行整合,得到差異基因。

1. median-normalized

2. sgRNA mean-variance modeling

參考了edgeR和DeSeq2的方法,使用廣義負(fù)二項(xiàng)式模型找差異基因。

一般而言,樣本間的變異系數(shù)(coefficient of variance,CV)是由兩部分組成的,一是技術(shù)差異(Technical CV),另一個是生物學(xué)差異(Biological coefficient of variance,BCV)。前者是會隨著測序通量的提升而消失的,而后者則是樣本間真實(shí)存在的差異。所以,對于一個基因而言,它的BCV在樣本間足夠大的話,就可以認(rèn)為基因是一個差異表達(dá)基因。但評價離散值時,需要參考均值,因?yàn)榫翟酱笠话惴讲罹驮酱蟆?/p>

在評價時,可以使用以下幾種分布:

(1)泊松分布:在泊松分布中,方差和均值相等。如果某個基因的表達(dá)值偏離分布模型,那么該基因?yàn)椴町惐磉_(dá)基因。

(2)負(fù)二項(xiàng)分布:真實(shí)數(shù)據(jù)的分布偏離泊松分布,方差明顯比均值大,edgeR和后期的DeSeq2使用負(fù)二項(xiàng)模型NB2:Var=??+????^2

3. sgRNA ranking by Negative binomial P-value

為condition A擬合負(fù)二項(xiàng)分布,再為condition B計(jì)算tail probability that the null NB distribution generates a read count that is more extreme than μiB。

利用計(jì)算出來的p值,對所有sgRNA進(jìn)行排序。

4. essential gene identification

在CRISPR screen中,通常一個基因有多于1個的sgRNA,不同sgRNA有不同rank,如何對這些rank進(jìn)行整合得到一個綜合的排序?

基于Robust Rank Aggregation,Mageck做出了改進(jìn):

(1) RRA是一種對排名進(jìn)行整合,獲得一個綜合性排名列表的算法。

首先將原始排名轉(zhuǎn)換為相對值 -> 計(jì)算 p-value ρ_k for the kth smallest value based on the beta distribution (beta distribution: 一組定義在[0,1) 區(qū)間的連續(xù)概率分布) -> 取其中最小的p值來代表這個基因,稱之為rho score: ρ score = min (p_ij) -> 當(dāng)總的基因數(shù)不是很多(~100)的時候,可以使bonferroni校正ρ score,得到的p_adj很接近p值的上界。

(2) 問題:uniformity的假設(shè)可能不符合現(xiàn)實(shí)

(3) 優(yōu)化:改進(jìn)了ρ value的計(jì)算

  • We first select the top ranked α% sgRNAs if their negative binomial P-values are smaller than a threshold (for example, 0.05)

  • If j of the n sgRNAs targeting a gene are selected, then the modified ρ value is defined as ρ = min(p1,p2, …, pj)

5. enriched pathway identification

  1. GO/KEGG

參考文獻(xiàn)

  1. MaGeck:MAGeCK enables robust identification of essential genes from genome-scale CRISPR/Cas9 knockout screens
  2. DeSeq2/edgeR
    1. Gene expression units explained: RPM, RPKM, FPKM, TPM, DESeq, TMM, SCnorm, GeTMM, and ComBat-Seq
    2. statquest
  3. 負(fù)二項(xiàng)模型
    1. 廣義典型相關(guān)分析廣義線性模型(GLM)概述及負(fù)二項(xiàng)回歸應(yīng)用舉例和R計(jì)算weixin_39629467的博客-CSDN博客
    2. 17. 負(fù)二項(xiàng)式模型 — 張振虎的博客 張振虎 文檔
  4. Robust Rank Aggregation
    1. 「R」Robust Rank Aggregation 算法介紹 - 云+社區(qū) - 騰訊云
    2. Robust rank aggregation for gene list integration and meta-analysis
    3. 排名聚合之前的常用算法:[技術(shù)博客] 較科學(xué)的排名算法介紹與實(shí)現(xiàn) - 提不起勁想趕緊完工 - 博客園
    4. 博士論文:跨平臺芯片數(shù)據(jù)整合分析挖掘胃癌潛在關(guān)鍵基因構(gòu)建預(yù)后評估模型及其生物學(xué)功能研究 2.2.4
    5. 計(jì)算p值方法:數(shù)理統(tǒng)計(jì)4:均勻分布的參數(shù)估計(jì),次序統(tǒng)計(jì)量的分布,Beta分布 - 江景景景頁 - 博客園
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容