亚洲精品日韩区,精品在线大香蕉

Bayes' Theorem

文章作者：Tyan
博客：noahsnail.com ?|? CSDN ?|? 簡書

1. 引言

貝葉斯估計、最大似然估計(MLE)、最大后驗概率估計(MAP)這幾個概念在機器學(xué)習(xí)和深度學(xué)習(xí)中經(jīng)常碰到，讀文章的時候還感覺挺明白，但獨立思考時經(jīng)常會傻傻分不清楚(??)，因此希望通過本文對其進行總結(jié)。

2. 背景知識

注：由于概率與數(shù)理統(tǒng)計需要了解的背景知識很多，因此這里只列出了部分內(nèi)容，且寫的較簡略，許多概念的學(xué)習(xí)需要根據(jù)標題自己查找答案。

2.1 概率與統(tǒng)計

概率統(tǒng)計是很多人都學(xué)過的內(nèi)容，但概率論與統(tǒng)計學(xué)的關(guān)系是什么？先看一下概率論與統(tǒng)計學(xué)在維基百科中的定義：

概率論是集中研究概率及隨機現(xiàn)象的數(shù)學(xué)分支，是研究隨機性或不確定性等現(xiàn)象的數(shù)學(xué)。
統(tǒng)計學(xué)是在數(shù)據(jù)分析的基礎(chǔ)上，研究如何測定、收集、整理、歸納和分析反映數(shù)據(jù)數(shù)據(jù)，以便給出正確消息的科學(xué)。

下面的一段話引自LarrB Wasserman的《All of Statistics》，對概率和統(tǒng)計推斷的研究內(nèi)容進行了描述：

The basic problem that we studB in probabilitB is: 
Given a data generating process, what are the properities of the outcomes?

The basic problem of statistical inference is the inverse of probabilitB: 
Given the outcomes, what can we saB about the process that generated the data?

概率論是在給定條件（已知模型和參數(shù)）下，對要發(fā)生的事件（新輸入數(shù)據(jù)）的預(yù)測。統(tǒng)計推斷是在給定數(shù)據(jù)（訓(xùn)練數(shù)據(jù)）下，對數(shù)據(jù)生成方式（模型和參數(shù)）的歸納總結(jié)。概率論是統(tǒng)計學(xué)的數(shù)學(xué)基礎(chǔ)，統(tǒng)計學(xué)是對概率論的應(yīng)用。

2.2 描述統(tǒng)計和推斷統(tǒng)計

統(tǒng)計學(xué)分為描述統(tǒng)計學(xué)和推斷統(tǒng)計學(xué)。描述統(tǒng)計，是統(tǒng)計學(xué)中描繪或總結(jié)觀察量基本情況的統(tǒng)計總稱。推斷統(tǒng)計指統(tǒng)計學(xué)中研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法。

描述統(tǒng)計是對數(shù)據(jù)的一種概括。描述統(tǒng)計是羅列所有數(shù)據(jù)，然后選擇一些特征量（例如均值、方差、中位數(shù)、四分中位數(shù)等）對總體數(shù)據(jù)進行描述。推斷統(tǒng)計是一種對數(shù)據(jù)的推測。推斷統(tǒng)計無法獲取所有數(shù)據(jù)，只能得到部分數(shù)據(jù)，然后根據(jù)得到的數(shù)據(jù)推測總體數(shù)據(jù)的情況。

2.3 聯(lián)合概率和邊緣概率

假設(shè)有隨機變量 $A$ 和 $B$ ，此時 $P(A=a,B=b)$ 用于表示 $A=a$ 且 $B=b$ 同時發(fā)生的概率。這類包含多個條件且所有條件同時成立的概率稱為聯(lián)合概率。請注意，聯(lián)合概率并不是其中某個條件成立的概率，而是所有條件同時成立的概率。與之對應(yīng)地， $P(A=a)$ 或 $P(B=b)$ 這類僅與單個隨機變量有關(guān)的概率稱為邊緣概率。

聯(lián)合概率與邊緣概率的關(guān)系如下：

$P(A=a)=\sum_P(A=a,B=b)$
$P(B=b)=\sum_{a}P(A=a,B=b)$

2.4 條件概率

條件概率表示在條件 $B=b$ 成立的情況下， $A=a$ 的概率，記作 $P(A=a|B=b)$ ，或者說條件概率是指事件 $A=a$ 在另外一個事件 $B=b$ 已經(jīng)發(fā)生條件下的發(fā)生概率。為了簡潔表示，后面省略a，b。

聯(lián)合概率、邊緣概率、條件概率的關(guān)系如下：

$P(A|B)=\frac {P(A,B)} {P(B)}$

轉(zhuǎn)換為乘法形式：

$P(A,B)=P(B)*P(A|B)=P(A)*P(B|A)$

2.5 全概率公式

如果事件 $A_1，A_2，A_3，\ldots，A_n$ 構(gòu)成一個完備事件組，即它們兩兩互不相容（互斥），其和為全集；并且 $P(A_i)$ 大于0，則對任意事件 $B$ 有 $P(B)=P(B|A_1)P(A_1)+P(B|A_2)P(A_2)+\ldots+ P(B|A_n)P(A_n)=\sum^n_{i=1}P(B|A_i)P(A_i)$ 上面的公式稱為全概率公式。全概率公式是對復(fù)雜事件 $A$ 的概率求解問題轉(zhuǎn)化為了在不同情況下發(fā)生的簡單事件的概率的求和問題。

2.6 貝葉斯公式

由條件概率的乘法形式可得：

$P(A|B)=\frac {P(B|A)} {P(B)}*P(A)$

上面的式子稱為貝葉斯公式，也叫做貝葉斯定理或貝葉斯法則。在貝葉斯定理中，每個名詞都有約定俗成的名稱：

$P(A|B)$ 是已知 $B$ 發(fā)生后 $A$ 的條件概率，也由于得自 $B$ 的取值而被稱作 $A$ 的后驗概率，表示事件 $B$ 發(fā)生后，事件 $A$ 發(fā)生的置信度。
$P(A)$ 是 $A$ 的先驗概率或邊緣概率，表示事件 $A$ 發(fā)生的置信度。
$P(B|A)$ 是已知 $A$ 發(fā)生后 $B$ 的條件概率，也由于得自 $A$ 的取值而被稱作 $B$ 的后驗概率，也被稱作似然函數(shù)。
$P(B)$ 是 $B$ 的先驗概率或邊緣概率，稱為標準化常量。
$\frac {P(B|A)} {P(B)}$ 稱為標準似然比(這個叫法很多，沒找到標準統(tǒng)一的叫法)，表示事件 $B$ 為事件 $A$ 發(fā)生提供的支持程度。

因此貝葉斯公式可表示為：后驗概率=似然函數(shù)先驗概率/標準化常量=標準似然比先驗概率。根據(jù)標準似然比的大小，可分為下面三種情況：

如果標準似然比 $>1$ ，則先驗概率 $P(A)$ 得到增強，事件 $B$ 的發(fā)生會增大事件 $A$ 發(fā)生的可能性；
如果標準似然比 $=1$ ，則先驗概率 $P(A)$ 保持不變，事件 $B$ 的發(fā)生不影響事件 $A$ 發(fā)生的可能性；
如果標準似然比 $<1$ ，則先驗概率 $P(A)$ 得到削弱，事件 $B$ 的發(fā)生會降低事件 $A$ 發(fā)生的可能性。

由全概率公式、貝葉斯法則可得：
$P(A_i|B)=\frac {P(B|A_i)P(A_i)} {P(B)}=\frac {P(B|A_i)P(A_i)} {\sum^n_{i=1}P(B|A_i)P(A_i)}$

2.7 似然與概率

在英文中，似然（likelihood）和概率（probability）是同義詞，都指事件發(fā)生的可能性。但在統(tǒng)計中，似然與概率是不同的東西。概率是已知參數(shù)，對結(jié)果可能性的預(yù)測。似然是已知結(jié)果，對參數(shù)是某個值的可能性預(yù)測。

2.8 似然函數(shù)與概率函數(shù)

對于函數(shù) $P(x|\theta)$ ，從不同的觀測角度來看可以分為以下兩種情況：

如果 $\theta$ 已知且保持不變， $x$ 是變量，則 $P(x|\theta)$ 稱為概率函數(shù)，表示不同 $x$ 出現(xiàn)的概率。
如果 $x$ 已知且保持不變， $\theta$ 是變量，則 $P(x|\theta)$ 稱為似然函數(shù)，表示不同 $\theta$ 下， $x$ 出現(xiàn)的概率，也記作 $L(\theta|x)$ 或 $L(x;\theta)$ 或 $f(x;\theta)$ 。

注：注意似然函數(shù)的不同寫法。

2.9 推斷統(tǒng)計中需要了解的一些概念

假設(shè)實際觀測值與真實分布相關(guān)，試圖根據(jù)觀測值來推測真實分布
由于觀測值取值隨機，因此由它們計算得到的估計值也是隨機值
估計方式多種多樣，且不同估計方式得到的估計值也有所不同

樣本、樣本容量、參數(shù)統(tǒng)計、非參數(shù)統(tǒng)計、估計量、真實分布、經(jīng)驗分布。

2.10 頻率學(xué)派與貝葉斯學(xué)派

注：頻率學(xué)派與貝葉斯學(xué)派只是解決問題的角度不同。

頻率學(xué)派與貝葉斯學(xué)派探討「不確定性」這件事時的出發(fā)點與立足點不同。頻率學(xué)派從「自然」角度出發(fā)，試圖直接為「事件」本身建模，即事件 $A$ 在獨立重復(fù)試驗中發(fā)生的頻率趨于極限 $p$ ，那么這個極限就是該事件的概率。

貝葉斯學(xué)派并不從試圖刻畫「事件」本身，而從「觀察者」角度出發(fā)。貝葉斯學(xué)派并不試圖說「事件本身是隨機的」，或者「世界的本體帶有某種隨機性」，這套理論根本不言說關(guān)于「世界本體」的東西，而只是從「觀察者知識不完備」這一出發(fā)點開始，構(gòu)造一套在貝葉斯概率論的框架下可以對不確定知識做出推斷的方法。

頻率學(xué)派的代表是最大似然估計；貝葉斯學(xué)派的代表是最大后驗概率估計。

2.11 共軛先驗

在貝葉斯統(tǒng)計中，如果后驗分布與先驗分布屬于同類，則先驗分布與后驗分布被稱為共軛分布，而先驗分布被稱為似然函數(shù)的共軛先驗。

2.12 Beta分布

在概率論中，Beta分布也稱Β分布，是指一組定義在 $(0,1)$ 區(qū)間的連續(xù)概率分布，有兩個參數(shù) $\alpha,\beta>0$ 。Beta分布的概率密度為：

$\begin{align}f(x;\alpha,\beta)&=\frac {x^{\alpha-1}(1-x)^{\beta-1}} {\int_{0}^1 \mu^{\alpha-1}(1-\mu)^{\beta-1}d\mu} \\\\&= \frac{\Gamma(\alpha+\beta)} {\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1} \\\\&=\frac {1} {B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}\end{align}$ 其中， $\Gamma(z)$ 是 $\Gamma$ 函數(shù)。隨機變量 $X$ 服從Beta分布寫作 $X\sim Beta(\alpha,\beta)$ 。

3. 問題定義

以拋硬幣為例，假設(shè)我們有一枚硬幣，現(xiàn)在要估計其正面朝上的概率 $\theta$ 。為了對 $\theta$ 進行估計，我們進行了10次實驗（獨立同分布，i.i.d.），這組實驗記為 $X=x_1，x_2，\ldots，x_{10}$ ，其中正面朝上的次數(shù)為6次，反面朝上的次數(shù)為4次，結(jié)果為 $(1,0,1,1,0,0,0,1,1,1)$ 。

4. 最大似然估計(MLE)

最大似然估計，英文為Maximum Likelihood Estimation，簡寫為MLE，也叫極大似然估計，是用來估計概率模型參數(shù)的一種方法。最大似然估計的思想是使得觀測數(shù)據(jù)（樣本）發(fā)生概率最大的參數(shù)就是最好的參數(shù)。

對一個獨立同分布的樣本集來說，總體的似然就是每個樣本似然的乘積。針對拋硬幣的問題，似然函數(shù)可寫作： $L(X;\theta)=\prod_{i=0}^nP(x_i|\theta)=\theta^6(1-\theta)^4$ 根據(jù)最大似然估計，使 $L(X;\theta)$ 取得最大值的 $\theta$ 即為估計結(jié)果，令 $L(X;\theta)\prime =0$ 可得 $\hat{\theta}=0.6$ 。似然函數(shù)圖如下：

MLE

由于總體的似然就是每個樣本似然的乘積，為了求解方便，我們通常會將似然函數(shù)轉(zhuǎn)成對數(shù)似然函數(shù)，然后再求解?？梢赞D(zhuǎn)成對數(shù)似然函數(shù)的主要原因是對數(shù)函數(shù)并不影響函數(shù)的凹凸性。因此上式可變?yōu)椋?img class="math-block" src="https://math.jianshu.com/math?formula=lnL(X%3B%5Ctheta)%3Dln%5Cprod_%7Bi%3D0%7D%5EnP(x_i%7C%5Ctheta)%3D%5Csum_%7Bi%3D0%7D%5Enln(P(x_i%7C%5Ctheta))%3D6ln(%5Ctheta)%2B4ln(1-%5Ctheta)" alt="lnL(X;\theta)=ln\prod_{i=0}^nP(x_i|\theta)=\sum_{i=0}^nln(P(x_i|\theta))=6ln(\theta)+4ln(1-\theta)" mathimg="1">令 $ln(L(X;\theta)\prime) =0$ 可得 $\hat{\theta}=0.6$ 。

正態(tài)分布的最大似然估計

假設(shè)樣本服從正態(tài)分布 $N\sim(\mu,\sigma^2)$ ，則其似然函數(shù)為 $L(\mu,\sigma^2)=\prod_{i=0}^n \frac {1} {\sqrt{2\pi} \sigma}e^{-\frac {(x_i-\mu)^2} {2\sigma^2}}$ 對其取對數(shù)得： $lnL(\mu,\sigma^2)=-\frac {n} {2}ln(2\pi) - \frac {n} {2} ln(\sigma^2) - \frac {1} {2\sigma^2} \sum_{i=0}^n(x_i-\mu)^2$
分別對 $\mu，\sigma^2$ 求偏導(dǎo)，并令偏導(dǎo)數(shù)為0，得： $\begin{cases} \frac {\partial lnL(\mu,\sigma^2)} {\partial \mu}= \frac {1} {\sigma^2} \sum_{i=0}^n(x_i-\mu) =0\\\\ \frac {\partial lnL(\mu,\sigma^2)} {\partial \sigma^2}= -\frac {n} {2\sigma^2} + \frac {1} {2\sigma^4}\sum_{i=0}^n(x_i-\mu)^2 =0 \end{cases}$

解得：
$\begin{cases} \hat{\mu}= \frac {1} {n} \sum_{i=0}^nx_i=\bar{x}\\\\ \hat{\sigma^2} = \frac {1} {n} \sum_{i=0}^n(x_i-\bar{x})^2 \end{cases}$

$\hat{\mu}，\hat{\sigma^2}$ 就是正態(tài)分布中 $\mu，\sigma^2$ 的最大似然估計。

最大似然估計的求解步驟：

確定似然函數(shù)
將似然函數(shù)轉(zhuǎn)換為對數(shù)似然函數(shù)
求對數(shù)似然函數(shù)的最大值（求導(dǎo)，解似然方程）

5. 最大后驗概率估計(MAP)

最大后驗概率估計，英文為Maximum A Posteriori Estimation，簡寫為MAP?；氐綊佊矌诺膯栴}，最大似然估計認為使似然函數(shù) $P(X|\theta)$ 最大的參數(shù) $\theta$ 即為最好的 $\theta$ ，此時最大似然估計是將 $\theta$ 看作固定的值，只是其值未知；最大后驗概率分布認為 $\theta$ 是一個隨機變量，即 $\theta$ 具有某種概率分布，稱為先驗分布，求解時除了要考慮似然函數(shù) $P(X|\theta)$ 之外，還要考慮 $\theta$ 的先驗分布 $P(\theta)$ ，因此其認為使 $P(X|\theta)P(\theta)$ 取最大值的 $\theta$ 就是最好的 $\theta$ 。此時要最大化的函數(shù)變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=P(X%7C%5Ctheta)P(%5Ctheta)" alt="P(X|\theta)P(\theta)" mathimg="1">，由于 $X$ 的先驗分布 $P(X)$ 是固定的（可通過分析數(shù)據(jù)獲得，其實我們也不關(guān)心 $X$ 的分布，我們關(guān)心的是 $\theta$ ），因此最大化函數(shù)可變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Cfrac%20%7BP(X%7C%5Ctheta)P(%5Ctheta)%7D%20%7BP(X)%7D" alt="\frac {P(X|\theta)P(\theta)} {P(X)}" mathimg="1">，根據(jù)貝葉斯法則，要最大化的函數(shù) $\frac {P(X|\theta)P(\theta)} {P(X)}=P(\theta|X)$ ，因此要最大化的函數(shù)是 $P(\theta|X)$ ，而 $P(\theta|X)$ 是 $\theta$ 的后驗概率。最大后驗概率估計可以看作是正則化的最大似然估計，當然機器學(xué)習(xí)或深度學(xué)習(xí)中的正則項通常是加法，而在最大后驗概率估計中采用的是乘法， $P(\theta)$ 是正則項。在最大似然估計中，由于認為 $\theta$ 是固定的，因此 $P(\theta)=1$ 。

最大后驗概率估計的公式表示： $\mathop{argmax}_{\theta}P(\theta|X)=\mathop{argmax}_{\theta}\frac {P(X|\theta)P(\theta)} {P(X)}\propto \mathop{argmax}_{\theta}P(X|\theta)P(\theta)$

在拋硬幣的例子中，通常認為 $\theta=0.5$ 的可能性最大，因此我們用均值為 $0.5$ ，方差為 $0.1$ 的高斯分布來描述 $\theta$ 的先驗分布，當然也可以使用其它的分布來描述 $\theta$ 的先驗分布。 $\theta$ 的先驗分布為： $\frac {1} {\sqrt{2\pi}\sigma}e^{-\frac {(\theta-\mu)^2} {2\sigma^2}} = \frac {1} {10\sqrt{2\pi}}e^{-50(\theta-0.5)^2}$ 先驗分布的函數(shù)圖如下：

Gaussian

在最大似然估計中，已知似然函數(shù)為 $P(X|\theta)=\theta^6(1-\theta)^4$ ，因此： $P(X|\theta)P(\theta)=\theta^6\times (1-\theta)^4\times \frac {1} {10\sqrt{2\pi}}\times e^{-50(\theta-0.5)^2}$ 轉(zhuǎn)換為對數(shù)函數(shù)： $ln(P(X|\theta)P(\theta))=ln(\theta^6\times (1-\theta)^4 \times \frac {1} {10\sqrt{2\pi}}\times e^{-50(\theta-0.5)^2})=6ln(\theta)+4ln(1-\theta)+ln(\frac {1} {10\sqrt{2\pi}})-50(\theta-0.5)^2$

令 $ln(P(X|\theta)P(\theta))\prime=0$ ，可得： $100\theta^3-150\theta^2+40\theta+6=0$ 由于 $0\le\theta\le1$ ，解得： $\hat{\theta}\approx0.529$ 。 $P(X|\theta)P(\theta)$ 的函數(shù)圖像如下，基本符合 $\theta$ 的估計值 $\hat{\theta}$ ：

MAP

如果我們用均值為 $0.6$ ，方差為 $0.1$ 的高斯分布來描述 $\theta$ 的先驗分布，則 $\hat{\theta}=0.6$ 。由此可見，在最大后驗概率估計中， $\theta$ 的估計值與 $\theta$ 的先驗分布有很大的關(guān)系。這也說明一個合理的先驗概率假設(shè)是非常重要的。如果先驗分布假設(shè)錯誤，則會導(dǎo)致估計的參數(shù)值偏離實際的參數(shù)值。

先驗分布為Beta分布

如果用 $\alpha=3,\beta=3$ 的Beta分布來描述 $\theta$ 的先驗分布，則 $P(X|\theta)P(\theta)=\theta^6\times (1-\theta)^4\times \frac {1} {B(\alpha,\beta)}\times \theta^{\alpha-1}(1-\theta)^{\beta-1}$ 令 $P(X|\theta)P(\theta)\prime=0$ 求解可得： $\hat{\theta}=\frac {\alpha+5} {\alpha + \beta +8}=\frac {8} {3 + 3 +8}\approx 0.57$

$Beta(3,3)$ 的概率密度圖像如下圖：

Beta(3,3)

最大后驗概率估計的求解步驟：

確定參數(shù)的先驗分布以及似然函數(shù)
確定參數(shù)的后驗分布函數(shù)
將后驗分布函數(shù)轉(zhuǎn)換為對數(shù)函數(shù)
求對數(shù)函數(shù)的最大值（求導(dǎo)，解方程）

6. 貝葉斯估計

貝葉斯估計是最大后驗估計的進一步擴展，貝葉斯估計同樣假定 $\theta$ 是一個隨機變量，但貝葉斯估計并不是直接估計出 $\theta$ 的某個特定值，而是估計 $\theta$ 的分布，這是貝葉斯估計與最大后驗概率估計不同的地方。在貝葉斯估計中，先驗分布 $P(X)$ 是不可忽略的?；氐綊佊矌诺睦又?，在已知 $X$ 的情況下，描述 $\theta$ 的分布即描述 $P(\theta|X)$ ， $P(\theta|X)$ 是一種后驗分布。如果后驗分布的范圍較窄，則估計值的準確度相對較高，反之，如果后驗分布的范圍較廣，則估計值的準確度就較低。

貝葉斯公式： $P(\theta|X)=\frac {P(X|\theta)P(\theta)} {P(X)}$

在連續(xù)型隨機變量中，由于 $P(X)=\int_{\Theta}P(X|\theta)P(\theta)d\theta$ ，因此貝葉斯公式變?yōu)椋?img class="math-block" src="https://math.jianshu.com/math?formula=P(%5Ctheta%7CX)%3D%5Cfrac%20%7BP(X%7C%5Ctheta)P(%5Ctheta)%7D%20%7B%5Cint_%7B%5CTheta%7DP(X%7C%5Ctheta)P(%5Ctheta)d%5Ctheta%7D" alt="P(\theta|X)=\frac {P(X|\theta)P(\theta)} {\int_{\Theta}P(X|\theta)P(\theta)d\theta}" mathimg="1">

從上面的公式中可以看出，貝葉斯估計的求解非常復(fù)雜，因此選擇合適的先驗分布就非常重要。一般來說，計算積分 $\int_{\theta}P(X|\theta)P(\theta)d\theta$ 是不可能的。對于這個拋硬幣的例子來說，如果使用共軛先驗分布，就可以更好的解決這個問題。二項分布參數(shù)的共軛先驗是Beta分布，由于 $\theta$ 的似然函數(shù)服從二項分布，因此在貝葉斯估計中，假設(shè) $\theta$ 的先驗分布服從 $P(\theta)\sim Beta(\alpha, \beta)$ ，Beta分布的概率密度公式為： $f(x;\alpha,\beta)=\frac {1} {B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}$ 因此，貝葉斯公式可寫作： $\begin{aligned} P(\theta|X)&=\frac {P(X|\theta)P(\theta)} {\int_{\Theta}P(X|\theta)P(\theta)d\theta} \\\\ &=\frac {\theta^6(1-\theta)^4 \frac {\theta^{\alpha-1}(1-\theta)^{\beta-1}} {B(\alpha,\beta)} } {\int_{\Theta}\theta^6(1-\theta)^4 \frac {\theta^{\alpha-1}(1-\theta)^{\beta-1}} {B(\alpha,\beta)}d\theta} \\\\&=\frac {\theta^{\alpha+6-1}(1-\theta)^{\beta+4-1}} {\int_{\Theta}\theta^{\alpha+6-1}(1-\theta)^{\beta+4-1}d\theta} \\\\ &=\frac {\theta^{\alpha+6-1}(1-\theta)^{\beta+4-1}} {B(\alpha+6-1,\beta+4-1)} \\\\ &=Beta(\theta|\alpha+6-1,\beta+4-1) \\\\&=Beta(\theta|\alpha+6,\beta+4)\end{aligned}$ 從上面的公式可以看出， $P(\theta|X) \sim Beta(\theta|\alpha+6,\beta+4)$ 。其中 $B$ 函數(shù)，也稱 $Beta$ 函數(shù)，是一個標準化常量，用來使整個概率的積分為1。 $Beta(\theta|\alpha+6,\beta+4)$ 就是貝葉斯估計的結(jié)果。

如果使用貝葉斯估計得到的 $\theta$ 分布存在一個有限均值，則可以用后驗分布的期望作為 $\theta$ 的估計值。假設(shè) $\alpha=3,\beta=3$ ，在這種情況下，先驗分布會在 $0.5$ 處取得最大值，則 $P(\theta|X) \sim Beta(\theta|9,7)$ ， $Beta(\theta|9,7)$ 的曲線如下圖：

Beta(9,7)

從上圖可以看出，在 $\alpha=3,\beta=3$ 的情況下， $\theta$ 的估計值 $\hat{\theta}$ 應(yīng)該在 $0.6$ 附近。根據(jù)Beta分布的數(shù)學(xué)期望公式 $E(\theta)=\frac {\alpha} {\alpha+\beta}$ 可得： $\hat{\theta}=\int_{\Theta} \theta P(\theta|X)d\theta=E(\theta)=\frac {\alpha} {\alpha+\beta}=\frac {9} {9+7}=0.5625$

注：二項分布參數(shù)的共軛先驗是Beta分布，多項式分布參數(shù)的共軛先驗是Dirichlet分布，指數(shù)分布參數(shù)的共軛先驗是Gamma分布，?斯分布均值的共軛先驗是另?個?斯分布，泊松分布的共軛先驗是Gamma分布。

貝葉斯估計要解決的不是如何估計參數(shù)，而是用來估計新測量數(shù)據(jù)出現(xiàn)的概率，對于新出現(xiàn)的數(shù)據(jù) $\tilde{x}$ ：

$P(\tilde{x}|X) = \int_{\Theta}P(\tilde{x}|\theta)P(\theta|X)d\theta=\int_{\Theta}P(\tilde{x}|\theta)\frac {P(X|\theta)P(\theta)} {P(X)}d\theta$

貝葉斯估計的求解步驟：

確定參數(shù)的似然函數(shù)
確定參數(shù)的先驗分布，應(yīng)是后驗分布的共軛先驗
確定參數(shù)的后驗分布函數(shù)
根據(jù)貝葉斯公式求解參數(shù)的后驗分布

7. 總結(jié)

從最大似然估計、最大后驗概率估計到貝葉斯估計，從下表可以看出 $\theta$ 的估計值 $\hat{\theta}$ 是逐漸接近 $0.5$ 的。從公式的變化可以看出，使用的信息是逐漸增多的。最大似然估計、最大后驗概率估計中都是假設(shè) $\theta$ 未知，但是確定的值，都將使函數(shù)取得最大值的 $\theta$ 作為估計值，區(qū)別在于最大化的函數(shù)不同，最大后驗概率估計使用了 $\theta$ 的先驗概率。而在貝葉斯估計中，假設(shè)參數(shù) $\theta$ 是未知的隨機變量，不是確定值，求解的是參數(shù) $\theta$ 在樣本 $X$ 上的后驗分布。

注：最大后驗概率估計和貝葉斯估計都采用Beta分布作為先驗分布。

Type	MLE	MAP	BE
$\hat{\theta}$	0.6	0.57	0.5625
$f$	$P(X \| \theta)$	$P(X\|\theta)P(\theta)$	$\frac {P(X\|\theta)P(\theta)} {P(X)}$

參考資料

書籍：程序員的數(shù)學(xué)2——概率統(tǒng)計
概率論與統(tǒng)計學(xué)的關(guān)系是什么？
貝葉斯學(xué)派與頻率學(xué)派有何不同？
概率論
推論統(tǒng)計學(xué)
描述統(tǒng)計學(xué)
統(tǒng)計學(xué)
詳解最大似然估計（MLE）、最大后驗概率估計（MAP），以及貝葉斯公式的理解
如何理解條件概率？
貝葉斯定理
貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用（一）：定理簡介
全概率公式
怎樣用非數(shù)學(xué)語言講解貝葉斯定理（Bayes's theorem）？
似然（likelihood）與概率（probability）的區(qū)別
如何通俗地理解概率論中的「極大似然估計法」?
如何通俗地理解“最大似然估計法”?
概率論與數(shù)理統(tǒng)計
All of Statistics: A Concise Course in Statistical Inference
MLE，MAP，EM 和 point estimation 之間的關(guān)系是怎樣的？
最大后驗概率
從最大似然估計開始，你需要打下的機器學(xué)習(xí)基石
如何理解似然函數(shù)?
共軛先驗
參數(shù)估計：最大似然估計（MLE），最大后驗估計(MAP)，貝葉斯估計，經(jīng)驗貝葉斯(Empirical Bayes)與全貝葉斯(Full Bayes)
什么是最大似然估計、最大后驗估計以及貝葉斯參數(shù)估計
先驗概率、后驗概率以及共軛先驗
認識Beta/Dirichlet分布
Β分布
Β函數(shù)
Beta distribution
Beta function
Beta Distribution PDF Grapher
文本語言模型的參數(shù)估計-最大似然估計、MAP及貝葉斯估計
Γ函數(shù)
使用的繪圖工具
求解一元三次方程的工具
你對貝葉斯統(tǒng)計都有怎樣的理解？
Bayesian inference
概率密度函數(shù)
累積分布函數(shù)
似然函數(shù)
概率質(zhì)量函數(shù)
Introduction to Bayesian Inference

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

貝葉斯估計、最大似然估計、最大后驗概率估計

貝葉斯估計、最大似然估計、最大后驗概率估計

1. 引言

2. 背景知識

2.1 概率與統(tǒng)計

2.2 描述統(tǒng)計和推斷統(tǒng)計

2.3 聯(lián)合概率和邊緣概率

2.4 條件概率

2.5 全概率公式

2.6 貝葉斯公式

2.7 似然與概率

2.8 似然函數(shù)與概率函數(shù)

2.9 推斷統(tǒng)計中需要了解的一些概念

2.10 頻率學(xué)派與貝葉斯學(xué)派

2.11 共軛先驗

2.12 Beta分布

3. 問題定義

4. 最大似然估計(MLE)

5. 最大后驗概率估計(MAP)

6. 貝葉斯估計

7. 總結(jié)

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

貝葉斯估計、最大似然估計、最大后驗概率估計

1. 引言

2. 背景知識

2.1 概率與統(tǒng)計

2.2 描述統(tǒng)計和推斷統(tǒng)計

2.3 聯(lián)合概率和邊緣概率

2.4 條件概率

2.5 全概率公式

2.6 貝葉斯公式

2.7 似然與概率

2.8 似然函數(shù)與概率函數(shù)

2.9 推斷統(tǒng)計中需要了解的一些概念

2.10 頻率學(xué)派與貝葉斯學(xué)派

2.11 共軛先驗

2.12 Beta分布

3. 問題定義

4. 最大似然估計(MLE)

5. 最大后驗概率估計(MAP)

6. 貝葉斯估計

7. 總結(jié)

參考資料

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

貝葉斯估計、最大似然估計、最大后驗概率估計