模式識別課程(二)-參數(shù)估計:最大似然估計和貝葉斯估計

目錄

0. 前言
0. 基本概念
1. 最大似然估計(Maximum-Likelihood Estimation,ML)
2. 貝葉斯估計(Bayesian Estimation)
3. 無監(jiān)督參數(shù)估計
4. 最大期望算法(Expectation Maximization,EM)
5. 高斯混合模型EM參數(shù)估計實現(xiàn)

前言

  • 本筆記是筆者課程學(xué)習(xí)中所做筆記(絕對原創(chuàng)),轉(zhuǎn)載請附本文鏈接及作者信息。

  • 有問題歡迎在交流區(qū)探討學(xué)習(xí),QQ:761322725

  • 碼字不易,好心人隨手點個贊??

  • 個人認(rèn)為課程所用PPT是對模式識別原理講解最為透徹且容易理解的ppt

  • 本文基礎(chǔ)是貝葉斯決策http://m.itdecent.cn/p/6f5273c09359

  • 基礎(chǔ)數(shù)理統(tǒng)計知識:概率分布、概率密度函數(shù)、貝葉斯公式https://blog.csdn.net/anshuai_aw1/article/details/82626468

  • 貝葉斯決策知識 http://m.itdecent.cn/p/6f5273c09359

  • 背景
    實際分類中概率結(jié)構(gòu)的完整信息很難獲知,通常只知道總體分布的模糊信息和訓(xùn)練樣本

    • 需要利用訓(xùn)練樣本\color{red}{估計先驗概率和類條件概率密度}
    • 1.估計先驗概率 P(\hat{w_i})=\frac{N_i}{N},N_i是訓(xùn)練集中N個樣本中w_i類的樣本數(shù)量
    • 2.估計樣本中的類條件概率密度
      參數(shù)估計即針對類條件概率密度進(jìn)行估計,主要有兩大類方法:

0. 基本概念

相關(guān)概念定義如下:

1.最大似然估計(Maximum-Likelihood Estimation,ML)

1.1基本假設(shè)
  • 類條件概率密度??(??|??_??)函數(shù)形式已知 , 參數(shù)未知但確定 , 記作 ????, 因此可以將??(??|??_??)改寫為 ??(??|??_??,??_??)??(??|??_??), j=1,2,…,c c為類別數(shù)量。
    同時有以下重要性質(zhì):
  • 每類樣本集 ??_??中的樣本都是從密度為 ??(??|??_??)的總體中獨立抽出,即 ??_??中的\color{red}{樣本是獨立同分布的}。
  • 各類樣本只包含本類的分布信息,即不同類別的 參數(shù) ??_??是各自獨立的
  • 獨立性假設(shè)下,可將原問題看作 c 個獨立的問題。即,每一類
    獨立地按照概率密度 ??(??|??)抽取樣本集 ??,用 ??估計出參數(shù) ??
    (分而治之)

    將分類問題分解為各類的子問題后,我們來關(guān)注具體的參數(shù)\theta的估計過程
1.2基本原理

??={??1,…,????},設(shè)各樣本按條件概率密度 ??(??|??)從總體中獨立抽取,有
\color{red}{P(\mathit{D}|\theta)=p(\mathbf{X}_1,...,\mathbf{X}_n|\theta)=\prod_{k=1}^{n}p(\mathbf{X}_k|\theta)}
我們將P(\mathit{D}|\theta)稱為參數(shù)\theta對于樣本集D的似然函數(shù)


所以最終的目的就是對似然函數(shù)求最大值,最大似然估計的方法也因此而來

1.3微分求解

當(dāng)似然函數(shù)為可微函數(shù),可以通過求導(dǎo)計算出最大值,得出估計值

注意:并不是所有似然函數(shù)都可微分?。?!

1.4示例

2. 貝葉斯估計

2.1基本思想
  • 貝葉斯估計方法與最大似然估計方法有本質(zhì)不同,它把參數(shù)向量 θ 本身看成一個隨機(jī)變量 ,根據(jù)觀測數(shù)據(jù)對參數(shù)的分布進(jìn)行估計,即后驗概率密度 ??(??|??)。
  • 貝葉斯學(xué)習(xí),則是把貝葉斯估計的原理用于直接從數(shù)據(jù)對概率密度函數(shù)進(jìn)行迭代估計。
  • 原問題: 估計概率密度。假設(shè) ??(??|??)函數(shù)形式已知, 參數(shù)??未知且不固定;
  • 目標(biāo): 根據(jù)給定的樣本集 ??={??1,…,????},找到未知參數(shù) ??的一個估計量,使得由此帶來的風(fēng)險最小。
    因此貝葉斯估計將利用這一點對后驗分布進(jìn)行估計
2.2 貝葉斯估計
  • 基本前提??(??|??)函數(shù)形式已知, 參數(shù)??未知且不固定;??取值的參數(shù)空間 ??是一個連續(xù)空間
  • 用類似于最小風(fēng)險判決的方法來估計未知隨機(jī)參數(shù)
    ??(\hat{\theta}|\theta)標(biāo)記真實參數(shù)為 ??, 得到的估計量為\hat{\theta}時承擔(dān)的損失。
    ??的貝葉斯估計是使得貝葉斯風(fēng)險最小化的估計\hat{??}
  • 最常用的損失函數(shù)為平方誤差損失,
    根據(jù)該定理,就可以得到估計參數(shù)的方法:
    具體的貝葉斯估計過程如下圖所示:
2.3 貝葉斯學(xué)習(xí)

通過上一節(jié)對貝葉斯估計的過程的分析,可以知道貝葉斯估計為了得到最終的概率分布情況(估計概率密度),采用貝葉斯公式計算參數(shù)的后驗概率,進(jìn)行了問題的轉(zhuǎn)換。
貝葉斯學(xué)習(xí),則不經(jīng)過中間的參數(shù)估計步驟,\color{red}{直接由樣本集推斷總體的概率分布}

注意與的差別,前者表示數(shù)據(jù)分布情況的參數(shù),后者則是數(shù)據(jù)具體的分布情況,得到后可以得到具體的數(shù)據(jù)分布函數(shù),從而知道數(shù)據(jù)的分布情況即

具體求解過程

至此我們得到了可以用于貝葉斯學(xué)習(xí)的公式,參數(shù)學(xué)習(xí)的迭代過程如下:

隨著n 值的增加, ??的相應(yīng)后驗概率密度一般會變得越來越尖銳。
若上述概率密度函數(shù)序列在??→∞時 , 收斂于以真值參數(shù) ??為中心的狄拉克 ??函數(shù),則稱相應(yīng)的學(xué)習(xí)過程為貝葉斯學(xué)習(xí)過程
上述式子中為樣本集數(shù)據(jù),可以看出貝葉斯學(xué)習(xí)實現(xiàn)了從樣本到總體分布的推導(dǎo)學(xué)習(xí)

2.4 貝葉斯學(xué)習(xí)示例

注意上面的結(jié)果,先得到了參數(shù)的估計值,所以第一個圖反映的是參數(shù)的情況,第二圖才是概率密度的估計情況,貝葉斯學(xué)習(xí)的結(jié)果是在0到8間是均勻分布,而8到10存在其他分布,所以概率密度圖中函數(shù)直線部分的值小于0.125(1/8)。

2.5 貝葉斯估計總結(jié)

主要的問題就是上述的兩步:
1 計算參數(shù)后驗密度函數(shù)
2 計算類條件密度
兩類估計方法的差別
聯(lián)系: 最大似然估計可解釋為具有均勻先驗的最大后驗概率估計。當(dāng)訓(xùn)練樣本數(shù)趨于無窮大時,兩者效果一致。
貝葉斯估計方法有很強的理論和算法基礎(chǔ)。但在實際應(yīng)用中,最大似然估計更簡便,且設(shè)計出的分類器的性能幾乎與貝葉斯方法得到的結(jié)果相差無幾。

2.6 參數(shù)估計方法總結(jié)
  • 最大似然估計:將參數(shù)視為未知固定值,\color{red}{參數(shù)點的估計}
  • 貝葉斯估計: 將參數(shù)視為隨機(jī)變量,\color{red}{參數(shù)分布的估計}

3. 無監(jiān)督參數(shù)估計

3.1 問題
  • 樣本類別未知(無監(jiān)督)情況下的類條件概密參數(shù)估計問題,被稱為無監(jiān)督參數(shù)估計
  • 參數(shù)估計方法推廣到概率模型中含有隱變量如 樣本的未知類別 或允許樣本存在 缺失特征 的情況
  • 問題描述:給定混合樣本集 ??=??1,??2,?,????,其類別數(shù)已知(c),\color{red}{樣本的標(biāo)簽未知}。每個類別的類條件概率密度 ??(??|??_??,??_??) 函數(shù)形式已知 ,??(??_??)未知。
  • 目標(biāo):1) 估計各類的分布參數(shù) ??_??和 類先驗分布??(??_??) i =1,…,c 。令??=??_1,?,??_??,??=(??(??_1),?,??(??_??)) \Theta=(??,??)
    混合概率密度函數(shù)為\color{red}{p(X)=\sum^c_{i=1}p(X|w_i,\theta_i)P(w_i)}
3.2 求解方法
  • 混合概率密度函數(shù)的最大似然估計求法:
  • 其中情況一:混合參數(shù)已知,方法同第1節(jié)中最大似然估計所述,差別在于這個地方是所有類在一起計算,沒有分而治之
  • 情況二:需要用條件極值法進(jìn)行求解
    主要運用拉格朗日乘數(shù)方法進(jìn)行推導(dǎo)求解
    原則上,可通過
    (2)(3) 式聯(lián)立求解得到參數(shù)的最大似然估計。 但得到閉式解困難,通常通過迭代算法,如 EM 算法,進(jìn)行求解。下面將學(xué)習(xí)EM算法

4. 最大期望算法(Expectation Maximization)

4.1 基本概念
  • 解決在概率模型中含有無法觀測的隱含變量情況下的參數(shù)估計問題
  • 場景:數(shù)據(jù)不完整,有缺失特征; 存在隱變量,如樣本的類別未知。
  • 核心思想:根據(jù)已有的、不完整數(shù)據(jù),利用對數(shù)似然函數(shù)期望 迭
    代地估計
    分布函數(shù)的未知參數(shù)
  • 基本知識凸函數(shù)(Convex Functions)
  • 詹森/琴生不等式(Jensen's inequality)
  • 完全數(shù)據(jù)與不完全數(shù)據(jù)
    利用不完全數(shù)據(jù)Y去獲取完全數(shù)據(jù)的分布
4.2 EM原理
  • 目標(biāo)是極大化觀測數(shù)據(jù) Y 關(guān)于參數(shù) ??的對數(shù)似然函數(shù)
    image.png
    通過迭代逐步近似極大化L(\theta),第i次迭代后\theta的估計值為\theta^{(i)}

    EM算法是通過不斷地使下界極大化 ,去逼近求解“對數(shù)似然函數(shù)極大化”
    EM具體流程

    注意點:
  • 參數(shù)初值:EM算法對初值敏感
  • 迭代終止條件:當(dāng)Q函數(shù)值變化小于一定值或者參數(shù)估計值變化小于一定值
4.3 EM在無監(jiān)督參數(shù)估計中的應(yīng)用

第3節(jié)中提及的無監(jiān)督參數(shù)估計(即混合模型的參數(shù)估計),在P(w_i)未知的情況,如何求解,可以用EM算法完成:


完整的算法流程如下所示:

4.5 EM對高斯混合模型的估計
  • 高斯混合模型的概念

5. 高斯混合模型EM參數(shù)估計實現(xiàn)

實現(xiàn)過程請見 http://m.itdecent.cn/p/2da84659ba83

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容