生物統(tǒng)計(jì)-置信區(qū)間與假設(shè)檢驗(yàn)

概率基礎(chǔ)

概率定義:重復(fù)多次試驗(yàn),某個(gè)事件發(fā)生的概率。
條件概率:某一重復(fù)試驗(yàn)下,在B事件發(fā)生的概率下,A事件發(fā)生的概率。
貝葉斯概率:描述了P(E2|E1) and P(E1|E2)之間的關(guān)系。
離散變量的概率分布函數(shù):pmf

  • 伯努利分布
  • 二項(xiàng)分布
  • 泊松分布

連續(xù)變量的概率密度函數(shù):pdf

  • 正態(tài)分布
  • t-分布

統(tǒng)計(jì)推斷

從樣本數(shù)據(jù)推獲得群體數(shù)據(jù)相關(guān)結(jié)論。包括以下兩種方法:
置信區(qū)間估計(jì)

  • 點(diǎn)估計(jì),根據(jù)樣本統(tǒng)計(jì)值推斷出接近群體該真實(shí)值的估計(jì)值,計(jì)算的置信區(qū)間(confidence interval,CI)用來反映該估計(jì)值與真實(shí)值的變異性。

【當(dāng)sigma 未知時(shí),以樣本的方差代替,并利用t-分布計(jì)算置信區(qū)間。20次測序數(shù)據(jù)點(diǎn)估計(jì)置信區(qū)間圖表明,20次試驗(yàn)估計(jì)值的置信區(qū)間95%概率下趨近真實(shí)值的分布,圖中第6次實(shí)驗(yàn)估計(jì)結(jié)果遠(yuǎn)不接近真實(shí)值?!?/p>


假設(shè)檢驗(yàn)

  1. 提出假設(shè),零假設(shè)(相對更保守),備擇假設(shè)
  2. 收集數(shù)據(jù)
  3. 選擇合適統(tǒng)計(jì)量,依賴于你的假設(shè)對象,比較兩個(gè)均值是選擇Z-test或t-test,或檢驗(yàn)兩個(gè)類別型變量的獨(dú)立性選擇Fisher檢驗(yàn)或chi-square檢驗(yàn)。
  4. 選擇顯著性水平,通常是0.05,或0.01
  5. 確定在顯著水平下用來拒絕零假設(shè)的critical value
  6. 計(jì)算檢驗(yàn)統(tǒng)計(jì)值 test statistic
  7. 比較test statistic 和 critical value

P-value:被用于評價(jià)零假設(shè)與數(shù)據(jù)不相容的可能性,P越小,零假設(shè)與原始數(shù)據(jù)越不相容?相容可以指元數(shù)據(jù)并不符合正態(tài)分布假設(shè)或數(shù)據(jù)間并不獨(dú)立或其他因素。

兩類假設(shè)檢驗(yàn)的錯(cuò)誤

  • Type I,false positive,拒絕了實(shí)際為真的H0。該類錯(cuò)誤依賴顯著性值alpha,其值越小,犯錯(cuò)誤可能性越低。
  • Type II,false negative,當(dāng)零假設(shè)為假時(shí)沒有拒絕零假設(shè)。應(yīng)用功效性評估假設(shè)的效果,功效值越大,假設(shè)檢驗(yàn)結(jié)果更好。
    【應(yīng)當(dāng)首先避免犯一類錯(cuò)誤的可能性,其次考慮二類錯(cuò)誤。只有增大樣本數(shù)據(jù)量,才能最大程度避免犯兩類錯(cuò)誤的可能。】

兩個(gè)類別型變量的chi-square test
有點(diǎn)難,先放一放。

【假設(shè)檢驗(yàn)的思想就是,對待分析樣本根據(jù)提出的假設(shè),借助統(tǒng)計(jì)分布推斷是否拒絕零假設(shè)。引入的p值,是對檢驗(yàn)結(jié)果的另一個(gè)評價(jià)值。】

非參數(shù)檢驗(yàn)
t-test 的一個(gè)前提是,數(shù)據(jù)服從正太分布,當(dāng)一類、二類錯(cuò)誤被盡量控制時(shí),雖然數(shù)據(jù)并不完全是正態(tài)分布,其檢驗(yàn)結(jié)果仍不會(huì)有很大偏差。參數(shù)檢驗(yàn)可以理解為,分析數(shù)據(jù)能夠通過參數(shù)決定的分布來描述,而非參數(shù)檢驗(yàn)則與之相反。

非參數(shù)檢驗(yàn)包括以下幾種:

  • Wilcoxon-test: 零假設(shè)為數(shù)據(jù)呈現(xiàn)對稱分布。分為單樣本、雙樣本,或pair,unpair 類型檢驗(yàn),在實(shí)現(xiàn)函數(shù)的相關(guān)參數(shù)部分根據(jù)需要進(jìn)行更改。
Wilcoxon檢驗(yàn)
  • Fisher 精確檢驗(yàn):列聯(lián)表式精確檢驗(yàn)。

相關(guān)性非參數(shù)檢驗(yàn)
也就是評估樣本中變量間的內(nèi)在關(guān)系,也可以理解為變量間獨(dú)立性的檢驗(yàn)。包括pearson 相關(guān)系數(shù),Kendall's tau 和Spearman's rho,后兩種為非參數(shù)的相關(guān)性檢驗(yàn)方法。

常用的檢驗(yàn)方法包括以下幾種:

  • pearson 相關(guān)性系數(shù):是一種最簡單的判斷方法,但是其只適用于線性關(guān)系和數(shù)值型數(shù)據(jù)。是一種參數(shù)檢驗(yàn)方法。
  • Kendall's tau:當(dāng)Kendall's tau值大于零是,彼此正相關(guān),否則為負(fù)相關(guān)。

  • Spearman's rho: 直接對X,Y變量的值的排序值進(jìn)行相關(guān)性評估。
    【相比于pearson 相關(guān)系數(shù),后兩種方法主要有一下幾點(diǎn)優(yōu)勢:1. 即使數(shù)據(jù)做了一些變化,仍能反映變量間真實(shí)的相關(guān)性;2. 一般而言,非參數(shù)檢驗(yàn)結(jié)果更好。】

Kendall's tau vs. Spearman's rho

其他內(nèi)容PPT

概率回顧


條件概率

全概率公式

貝葉斯公式

離散型變量概率分布函數(shù)





連續(xù)型變量概率密度函數(shù)

正態(tài)分布


點(diǎn)估計(jì)


點(diǎn)估計(jì)置信區(qū)間與真實(shí)值變異性

sigma 未知的均值估計(jì)



假設(shè)檢驗(yàn)






假設(shè)檢驗(yàn)實(shí)例




test statistic 遠(yuǎn)大于critical value,reject H0

P-value







最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容