文章參考來源:
CS229和PRML中關(guān)于EM的推導(dǎo)的過程。
當(dāng)年寫下面的筆記的時(shí)候有一些疏漏性的筆誤,很影響后續(xù)的理解,再次進(jìn)行修改,直接從考慮數(shù)據(jù)點(diǎn)獨(dú)立性的EM算法入手。當(dāng)前是做的算是很清晰了。
首先要回答問題。
為什么要用EM
一般是考慮去優(yōu)化混合模型,例如GMM,由于似然函數(shù)中,在函數(shù)內(nèi)有求和項(xiàng),難以求導(dǎo)。我們認(rèn)為這是由于數(shù)據(jù)點(diǎn)觀測(cè)缺失造成的。完整的數(shù)據(jù)點(diǎn)還有另一個(gè)變量
,。以GMM為例,
或者是
的公式中沒有求和項(xiàng),且
和
的結(jié)構(gòu)都是清楚的(z表示為1-of-k的多項(xiàng)式分布),此即經(jīng)典的用EM算法求解的問題。
EM的推導(dǎo)的過程
推導(dǎo)的時(shí)候有時(shí)候往往會(huì)產(chǎn)生一些符號(hào)混淆的問題,導(dǎo)致產(chǎn)生疑問,為什么每個(gè)觀測(cè)數(shù)據(jù)點(diǎn)都有一個(gè)不同分布的隱變量?實(shí)際上公式推導(dǎo)過程中,依然是不同樣本點(diǎn)的不同隱變量的分布是相同的。
下面都是帶入GMM的思路來列的公式。是我們觀測(cè)到的一個(gè)樣本點(diǎn)
注意這里,是枚舉了變量的所有取值,也就是說,這里默認(rèn)了
是離散變量,連續(xù)變量的情況下是同理的。
這里,代表累加式中的每個(gè)子項(xiàng),可以有不同的系數(shù)和分母。
上式是用了琴生不等式,其恒成立有一個(gè)必須條件,也就是 ,這個(gè)很容易滿足,那么我們就用此辦法讓
中的求和項(xiàng)目給拿出來了,現(xiàn)在要做的事情就是,讓Jensen不等式取等,然后優(yōu)化
中的概率參數(shù)。
這里就直接給出,取等的話就要取值為。
到這里其實(shí)就已經(jīng)完成了對(duì)EM算法的論述?;仡櫼幌拢覀冎皇侵攸c(diǎn)找到一個(gè)的合理的取值,來找到一個(gè)更好的優(yōu)化目標(biāo),
跟
的值沒有一點(diǎn)關(guān)系的!跟隱變量的分布也沒啥關(guān)系。如果說是有關(guān)系的話,就是由于不同樣本點(diǎn)
的值大小不同,所以其隱變量的后驗(yàn)概率的分布也不同。
而后驗(yàn)概率的計(jì)算公式為,所以其先驗(yàn)就是由當(dāng)前模型的參數(shù)
決定的。
文章內(nèi)容:
1. 不考慮數(shù)據(jù)點(diǎn)獨(dú)立性的EM算法
- E步和M步驟內(nèi)容
- 收斂性證明(利用了jesson不等式以及KL散度)
- Q函數(shù)的自然導(dǎo)出
2. 考慮數(shù)據(jù)點(diǎn)獨(dú)立性的EM算法
- E步和M步驟內(nèi)容
- 收斂性證明(利用了jesson不等式以及KL散度)
- Q函數(shù)的自然導(dǎo)出
3. 將考慮數(shù)據(jù)點(diǎn)獨(dú)立性的EM應(yīng)用到GMM的參數(shù)估計(jì)上
- Q函數(shù)導(dǎo)出
- 迭代更新公式
- 多元高斯分布常用求導(dǎo)公式


優(yōu)化過程:
對(duì)于核心式,優(yōu)化目標(biāo)為
, 即
固定,
是
的函數(shù),找到使其最大的
. 等號(hào)右邊是
和
的函數(shù)。