欧美极品视频,精品999一区二区,美女视频网站久久

概率基礎(chǔ)

概率定義：重復(fù)多次試驗(yàn)，某個(gè)事件發(fā)生的概率。
條件概率：某一重復(fù)試驗(yàn)下，在B事件發(fā)生的概率下，A事件發(fā)生的概率。
貝葉斯概率：描述了P(E2|E1) and P(E1|E2)之間的關(guān)系。
離散變量的概率分布函數(shù):pmf

伯努利分布
二項(xiàng)分布
泊松分布

連續(xù)變量的概率密度函數(shù)：pdf

正態(tài)分布
t-分布

統(tǒng)計(jì)推斷

從樣本數(shù)據(jù)推獲得群體數(shù)據(jù)相關(guān)結(jié)論。包括以下兩種方法：
置信區(qū)間估計(jì)

點(diǎn)估計(jì)，根據(jù)樣本統(tǒng)計(jì)值推斷出接近群體該真實(shí)值的估計(jì)值，計(jì)算的置信區(qū)間（confidence interval，CI）用來反映該估計(jì)值與真實(shí)值的變異性。

【當(dāng)sigma 未知時(shí)，以樣本的方差代替，并利用t-分布計(jì)算置信區(qū)間。20次測序數(shù)據(jù)點(diǎn)估計(jì)置信區(qū)間圖表明，20次試驗(yàn)估計(jì)值的置信區(qū)間95%概率下趨近真實(shí)值的分布，圖中第6次實(shí)驗(yàn)估計(jì)結(jié)果遠(yuǎn)不接近真實(shí)值?！?/p>

假設(shè)檢驗(yàn)

提出假設(shè)，零假設(shè)（相對更保守），備擇假設(shè)
收集數(shù)據(jù)
選擇合適統(tǒng)計(jì)量，依賴于你的假設(shè)對象，比較兩個(gè)均值是選擇Z-test或t-test，或檢驗(yàn)兩個(gè)類別型變量的獨(dú)立性選擇Fisher檢驗(yàn)或chi-square檢驗(yàn)。
選擇顯著性水平，通常是0.05，或0.01
確定在顯著水平下用來拒絕零假設(shè)的critical value
計(jì)算檢驗(yàn)統(tǒng)計(jì)值 test statistic
比較test statistic 和 critical value

P-value：被用于評價(jià)零假設(shè)與數(shù)據(jù)不相容的可能性，P越小，零假設(shè)與原始數(shù)據(jù)越不相容？相容可以指元數(shù)據(jù)并不符合正態(tài)分布假設(shè)或數(shù)據(jù)間并不獨(dú)立或其他因素。

兩類假設(shè)檢驗(yàn)的錯(cuò)誤

Type I，false positive，拒絕了實(shí)際為真的H0。該類錯(cuò)誤依賴顯著性值alpha,其值越小，犯錯(cuò)誤可能性越低。
Type II，false negative，當(dāng)零假設(shè)為假時(shí)沒有拒絕零假設(shè)。應(yīng)用功效性評估假設(shè)的效果，功效值越大，假設(shè)檢驗(yàn)結(jié)果更好。
【應(yīng)當(dāng)首先避免犯一類錯(cuò)誤的可能性，其次考慮二類錯(cuò)誤。只有增大樣本數(shù)據(jù)量，才能最大程度避免犯兩類錯(cuò)誤的可能。】

兩個(gè)類別型變量的chi-square test
有點(diǎn)難，先放一放。

【假設(shè)檢驗(yàn)的思想就是，對待分析樣本根據(jù)提出的假設(shè)，借助統(tǒng)計(jì)分布推斷是否拒絕零假設(shè)。引入的p值，是對檢驗(yàn)結(jié)果的另一個(gè)評價(jià)值。】

非參數(shù)檢驗(yàn)
t-test 的一個(gè)前提是，數(shù)據(jù)服從正太分布，當(dāng)一類、二類錯(cuò)誤被盡量控制時(shí)，雖然數(shù)據(jù)并不完全是正態(tài)分布，其檢驗(yàn)結(jié)果仍不會(huì)有很大偏差。參數(shù)檢驗(yàn)可以理解為，分析數(shù)據(jù)能夠通過參數(shù)決定的分布來描述，而非參數(shù)檢驗(yàn)則與之相反。

非參數(shù)檢驗(yàn)包括以下幾種：

Wilcoxon-test: 零假設(shè)為數(shù)據(jù)呈現(xiàn)對稱分布。分為單樣本、雙樣本，或pair，unpair 類型檢驗(yàn)，在實(shí)現(xiàn)函數(shù)的相關(guān)參數(shù)部分根據(jù)需要進(jìn)行更改。

Wilcoxon檢驗(yàn)

Fisher 精確檢驗(yàn)：列聯(lián)表式精確檢驗(yàn)。

相關(guān)性非參數(shù)檢驗(yàn)
也就是評估樣本中變量間的內(nèi)在關(guān)系，也可以理解為變量間獨(dú)立性的檢驗(yàn)。包括pearson 相關(guān)系數(shù)，Kendall's tau 和Spearman's rho，后兩種為非參數(shù)的相關(guān)性檢驗(yàn)方法。

常用的檢驗(yàn)方法包括以下幾種：

pearson 相關(guān)性系數(shù)：是一種最簡單的判斷方法，但是其只適用于線性關(guān)系和數(shù)值型數(shù)據(jù)。是一種參數(shù)檢驗(yàn)方法。

Kendall's tau：當(dāng)Kendall's tau值大于零是，彼此正相關(guān)，否則為負(fù)相關(guān)。

Spearman's rho: 直接對X，Y變量的值的排序值進(jìn)行相關(guān)性評估。
【相比于pearson 相關(guān)系數(shù)，后兩種方法主要有一下幾點(diǎn)優(yōu)勢：1. 即使數(shù)據(jù)做了一些變化，仍能反映變量間真實(shí)的相關(guān)性；2. 一般而言，非參數(shù)檢驗(yàn)結(jié)果更好。】