MaGeck
MaGeck是對CRISPR screen結(jié)果進(jìn)行篩選的軟件,差異表達(dá)的對象是sgRNA,再對不同sgRNA的結(jié)果進(jìn)行整合,得到差異基因。
1. median-normalized
2. sgRNA mean-variance modeling
參考了edgeR和DeSeq2的方法,使用廣義負(fù)二項(xiàng)式模型找差異基因。
一般而言,樣本間的變異系數(shù)(coefficient of variance,CV)是由兩部分組成的,一是技術(shù)差異(Technical CV),另一個是生物學(xué)差異(Biological coefficient of variance,BCV)。前者是會隨著測序通量的提升而消失的,而后者則是樣本間真實(shí)存在的差異。所以,對于一個基因而言,它的BCV在樣本間足夠大的話,就可以認(rèn)為基因是一個差異表達(dá)基因。但評價離散值時,需要參考均值,因?yàn)榫翟酱笠话惴讲罹驮酱蟆?/p>
在評價時,可以使用以下幾種分布:
(1)泊松分布:在泊松分布中,方差和均值相等。如果某個基因的表達(dá)值偏離分布模型,那么該基因?yàn)椴町惐磉_(dá)基因。
(2)負(fù)二項(xiàng)分布:真實(shí)數(shù)據(jù)的分布偏離泊松分布,方差明顯比均值大,edgeR和后期的DeSeq2使用負(fù)二項(xiàng)模型NB2:
3. sgRNA ranking by Negative binomial P-value
為condition A擬合負(fù)二項(xiàng)分布,再為condition B計(jì)算tail probability that the null NB distribution generates a read count that is more extreme than μiB。
利用計(jì)算出來的p值,對所有sgRNA進(jìn)行排序。
4. essential gene identification
在CRISPR screen中,通常一個基因有多于1個的sgRNA,不同sgRNA有不同rank,如何對這些rank進(jìn)行整合得到一個綜合的排序?
基于Robust Rank Aggregation,Mageck做出了改進(jìn):
(1) RRA是一種對排名進(jìn)行整合,獲得一個綜合性排名列表的算法。
首先將原始排名轉(zhuǎn)換為相對值 -> 計(jì)算 p-value ρ_k for the kth smallest value based on the beta distribution (beta distribution: 一組定義在[0,1) 區(qū)間的連續(xù)概率分布) -> 取其中最小的p值來代表這個基因,稱之為rho score: ρ score = min (p_ij) -> 當(dāng)總的基因數(shù)不是很多(~100)的時候,可以使bonferroni校正ρ score,得到的p_adj很接近p值的上界。
(2) 問題:uniformity的假設(shè)可能不符合現(xiàn)實(shí)
(3) 優(yōu)化:改進(jìn)了ρ value的計(jì)算
We first select the top ranked α% sgRNAs if their negative binomial P-values are smaller than a threshold (for example, 0.05)
If j of the n sgRNAs targeting a gene are selected, then the modified ρ value is defined as ρ = min(p1,p2, …, pj)
5. enriched pathway identification
- GO/KEGG
參考文獻(xiàn)
- MaGeck:MAGeCK enables robust identification of essential genes from genome-scale CRISPR/Cas9 knockout screens
- DeSeq2/edgeR
- 負(fù)二項(xiàng)模型
-
Robust Rank Aggregation
- 「R」Robust Rank Aggregation 算法介紹 - 云+社區(qū) - 騰訊云
- Robust rank aggregation for gene list integration and meta-analysis
- 排名聚合之前的常用算法:[技術(shù)博客] 較科學(xué)的排名算法介紹與實(shí)現(xiàn) - 提不起勁想趕緊完工 - 博客園
- 博士論文:跨平臺芯片數(shù)據(jù)整合分析挖掘胃癌潛在關(guān)鍵基因構(gòu)建預(yù)后評估模型及其生物學(xué)功能研究 2.2.4
- 計(jì)算p值方法:數(shù)理統(tǒng)計(jì)4:均勻分布的參數(shù)估計(jì),次序統(tǒng)計(jì)量的分布,Beta分布 - 江景景景頁 - 博客園