目錄
0. 前言
0. 基本概念
1. 最大似然估計(Maximum-Likelihood Estimation,ML)
2. 貝葉斯估計(Bayesian Estimation)
3. 無監(jiān)督參數(shù)估計
4. 最大期望算法(Expectation Maximization,EM)
5. 高斯混合模型EM參數(shù)估計實現(xiàn)
前言
本筆記是筆者課程學(xué)習(xí)中所做筆記(絕對原創(chuàng)),轉(zhuǎn)載請附本文鏈接及作者信息。
有問題歡迎在交流區(qū)探討學(xué)習(xí),QQ:761322725
碼字不易,好心人隨手點個贊??
個人認(rèn)為課程所用PPT是對模式識別原理講解最為透徹且容易理解的ppt
本文基礎(chǔ)是貝葉斯決策http://m.itdecent.cn/p/6f5273c09359
基礎(chǔ)數(shù)理統(tǒng)計知識:概率分布、概率密度函數(shù)、貝葉斯公式https://blog.csdn.net/anshuai_aw1/article/details/82626468
-
背景:
實際分類中概率結(jié)構(gòu)的完整信息很難獲知,通常只知道總體分布的模糊信息和訓(xùn)練樣本- 需要利用訓(xùn)練樣本
- 1.估計先驗概率
,
是訓(xùn)練集中N個樣本中
類的樣本數(shù)量
- 2.估計樣本中的類條件概率密度參數(shù)估計即針對類條件概率密度進(jìn)行估計,主要有兩大類方法:
- 需要利用訓(xùn)練樣本
0. 基本概念
相關(guān)概念定義如下:
1.最大似然估計(Maximum-Likelihood Estimation,ML)
1.1基本假設(shè)
- 類條件概率密度
函數(shù)形式已知 , 參數(shù)未知但確定 , 記作 ????, 因此可以將
改寫為
或
c為類別數(shù)量。
同時有以下重要性質(zhì): - 每類樣本集
中的樣本都是從密度為
的總體中獨立抽出,即
中的
。
- 各類樣本只包含本類的分布信息,即不同類別的 參數(shù)
是各自獨立的
- 在獨立性假設(shè)下,可將原問題看作 c 個獨立的問題。即,每一類
獨立地按照概率密度抽取樣本集 ??,用 ??估計出參數(shù) ?? (分而治之)
將分類問題分解為各類的子問題后,我們來關(guān)注具體的參數(shù)的估計過程
1.2基本原理
??={??1,…,????},設(shè)各樣本按條件概率密度 從總體中獨立抽取,有
我們將稱為參數(shù)
對于樣本集D的似然函數(shù)

所以最終的目的就是對似然函數(shù)求最大值,最大似然估計的方法也因此而來
1.3微分求解
當(dāng)似然函數(shù)為可微函數(shù),可以通過求導(dǎo)計算出最大值,得出估計值

1.4示例

2. 貝葉斯估計
2.1基本思想
- 貝葉斯估計方法與最大似然估計方法有本質(zhì)不同,它把參數(shù)向量 θ 本身看成一個隨機(jī)變量 ,根據(jù)觀測數(shù)據(jù)對參數(shù)的分布進(jìn)行估計,即后驗概率密度 ??(??|??)。
- 貝葉斯學(xué)習(xí),則是把貝葉斯估計的原理用于直接從數(shù)據(jù)對概率密度函數(shù)進(jìn)行迭代估計。
-
原問題: 估計概率密度。假設(shè)
函數(shù)形式已知, 參數(shù)??未知且不固定;
-
目標(biāo): 根據(jù)給定的樣本集 ??={??1,…,????},找到未知參數(shù) ??的一個估計量,使得由此帶來的風(fēng)險最小。
因此貝葉斯估計將利用這一點對后驗分布進(jìn)行估計
2.2 貝葉斯估計
-
基本前提:
函數(shù)形式已知, 參數(shù)??未知且不固定;??取值的參數(shù)空間 ??是一個連續(xù)空間
- 用類似于最小風(fēng)險判決的方法來估計未知隨機(jī)參數(shù)
標(biāo)記真實參數(shù)為 ??, 得到的估計量為
時承擔(dān)的損失。
??的貝葉斯估計是使得貝葉斯風(fēng)險最小化的估計。
- 最常用的損失函數(shù)為平方誤差損失,根據(jù)該定理,就可以得到估計參數(shù)的方法:
具體的貝葉斯估計過程如下圖所示:
2.3 貝葉斯學(xué)習(xí)
通過上一節(jié)對貝葉斯估計的過程的分析,可以知道貝葉斯估計為了得到最終的概率分布情況(估計概率密度),采用貝葉斯公式計算參數(shù)的后驗概率,進(jìn)行了問題的轉(zhuǎn)換。
而貝葉斯學(xué)習(xí),則不經(jīng)過中間的參數(shù)估計步驟,

具體求解過程



隨著n 值的增加, ??的相應(yīng)后驗概率密度一般會變得越來越尖銳。
若上述概率密度函數(shù)序列在??→∞時 , 收斂于以真值參數(shù) ??為中心的狄拉克 ??函數(shù),則稱相應(yīng)的學(xué)習(xí)過程為貝葉斯學(xué)習(xí)過程

2.4 貝葉斯學(xué)習(xí)示例



2.5 貝葉斯估計總結(jié)

1 計算參數(shù)后驗密度函數(shù)
2 計算類條件密度
兩類估計方法的差別

貝葉斯估計方法有很強的理論和算法基礎(chǔ)。但在實際應(yīng)用中,最大似然估計更簡便,且設(shè)計出的分類器的性能幾乎與貝葉斯方法得到的結(jié)果相差無幾。
2.6 參數(shù)估計方法總結(jié)
- 最大似然估計:將參數(shù)視為未知固定值,
- 貝葉斯估計: 將參數(shù)視為隨機(jī)變量,
3. 無監(jiān)督參數(shù)估計
3.1 問題
- 樣本類別未知(無監(jiān)督)情況下的類條件概密參數(shù)估計問題,被稱為無監(jiān)督參數(shù)估計
- 把參數(shù)估計方法推廣到概率模型中含有隱變量如 樣本的未知類別 或允許樣本存在 缺失特征 的情況
-
問題描述:給定混合樣本集 ??=??1,??2,?,????,其類別數(shù)已知(c),
。每個類別的類條件概率密度
函數(shù)形式已知 ,
未知。
-
目標(biāo):1) 估計各類的分布參數(shù)
和 類先驗分布
。令
,
混合概率密度函數(shù)為
3.2 求解方法
-
混合概率密度函數(shù)的最大似然估計求法:
- 其中情況一:混合參數(shù)已知,方法同第1節(jié)中最大似然估計所述,差別在于這個地方是所有類在一起計算,沒有分而治之
- 情況二:需要用條件極值法進(jìn)行求解主要運用拉格朗日乘數(shù)方法進(jìn)行推導(dǎo)求解原則上,可通過
(2)(3) 式聯(lián)立求解得到參數(shù)的最大似然估計。 但得到閉式解困難,通常通過迭代算法,如 EM 算法,進(jìn)行求解。下面將學(xué)習(xí)EM算法
4. 最大期望算法(Expectation Maximization)
4.1 基本概念
- 解決在概率模型中含有無法觀測的隱含變量情況下的參數(shù)估計問題。
- 場景:數(shù)據(jù)不完整,有缺失特征; 存在隱變量,如樣本的類別未知。
-
核心思想:根據(jù)已有的、不完整數(shù)據(jù),利用對數(shù)似然函數(shù)期望 迭
代地估計 分布函數(shù)的未知參數(shù) - 基本知識凸函數(shù)(Convex Functions)
-
詹森/琴生不等式(Jensen's inequality)
-
完全數(shù)據(jù)與不完全數(shù)據(jù)利用不完全數(shù)據(jù)Y去獲取完全數(shù)據(jù)的分布
4.2 EM原理
-
目標(biāo)是極大化觀測數(shù)據(jù) Y 關(guān)于參數(shù) ??的對數(shù)似然函數(shù)
通過迭代逐步近似極大化image.png,第i次迭代后
的估計值為
EM算法是通過不斷地使下界極大化 ,去逼近求解“對數(shù)似然函數(shù)極大化”
EM具體流程
注意點: - 參數(shù)初值:EM算法對初值敏感
- 迭代終止條件:當(dāng)Q函數(shù)值變化小于一定值或者參數(shù)估計值變化小于一定值
4.3 EM在無監(jiān)督參數(shù)估計中的應(yīng)用
第3節(jié)中提及的無監(jiān)督參數(shù)估計(即混合模型的參數(shù)估計),在未知的情況,如何求解,可以用EM算法完成:



完整的算法流程如下所示:

4.5 EM對高斯混合模型的估計
-
高斯混合模型的概念
5. 高斯混合模型EM參數(shù)估計實現(xiàn)
實現(xiàn)過程請見 http://m.itdecent.cn/p/2da84659ba83























