07 主題模型 - 知識(shí)補(bǔ)充 - 概率知識(shí)、二項(xiàng)\多項(xiàng)\Beta\Dirichlet分布

06 主題模型 - pLSA又稱pLSI - 基于概率的潛在語(yǔ)義分析模型

為了講后續(xù)的LDA算法,需要補(bǔ)充一點(diǎn)數(shù)學(xué)知識(shí)。大綱如下:

概率知識(shí)
二項(xiàng)分布
多項(xiàng)分布
Beta分布
Beta分布和二項(xiàng)分布
Dirichlet分布


一、概率知識(shí)

先驗(yàn)概率: 在事情尚未發(fā)生前,對(duì)該事件發(fā)生概率的估計(jì)。利用過(guò)去歷史資料計(jì)算出來(lái)得到的先驗(yàn)概率叫做客觀先驗(yàn)概率;憑主觀經(jīng)驗(yàn)來(lái)判斷而得到的先驗(yàn)概率叫做主觀先驗(yàn)概率。

后驗(yàn)概率: 通過(guò)調(diào)查或其它方式獲取新的附加信息,利用貝葉斯公式對(duì)先驗(yàn)概率進(jìn)行修正后,而得到的概率。

似然函數(shù): 給定模型參數(shù)θ的條件下,樣本數(shù)據(jù)服從這一概率模型的相似程度。

先驗(yàn)分布:反映在進(jìn)行統(tǒng)計(jì)試驗(yàn)之前根據(jù)其他有關(guān)參數(shù)知識(shí)得到的分布;也就是說(shuō)在觀測(cè)獲取樣本之前,人們對(duì)θ已經(jīng)有一些知識(shí),此時(shí)這個(gè)θ的分布函數(shù)為H(θ),θ的密度函數(shù)為h(θ),分別稱為先驗(yàn)分布函數(shù)和先驗(yàn)密度函數(shù),統(tǒng)稱先驗(yàn)分布。

后驗(yàn)分布:根據(jù)樣本X的分布以及θ的先驗(yàn)分布π(θ),使用概率論中求解條件概率的方式可以計(jì)算出來(lái)已知X的條件下,θ的條件分布π(θ|x)。因?yàn)樵摲植际窃讷@取樣本x之后計(jì)算出來(lái)的,所以稱為后驗(yàn)分布。
后驗(yàn)分布 = 歷史數(shù)據(jù)(先驗(yàn)概率) + 樣本(似然函數(shù))

共軛分布:如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式,那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布。
如:先驗(yàn)分布是一個(gè)正太分布,加上似然函數(shù)后形成的后驗(yàn)分布也是一個(gè)正太分布,那么先驗(yàn)分布似然函數(shù)稱為共軛分布。

分析: 也許讀者會(huì)困惑先驗(yàn)分布后驗(yàn)分布到底是個(gè)什么意思?這里我舉個(gè)栗子。
假如現(xiàn)在有一個(gè)硬幣,我剛拿到硬幣的時(shí)候心里有個(gè)數(shù):拋硬幣正面反面的概率都是50%,這是我根據(jù)以往經(jīng)驗(yàn)得到的一個(gè)先驗(yàn)分布。
現(xiàn)在我開始拋硬幣,我拋硬幣的過(guò)程就是在獲取樣本X的過(guò)程,X= {正面,反面,反面,反面,正面....} ; 如果我扔了10次硬幣,正面7次反面3次。這是似然函數(shù)得到的結(jié)果。
現(xiàn)在預(yù)測(cè)是正面的概率:先驗(yàn)分布=0.5,似然函數(shù)預(yù)測(cè)的概率=0.7。
兩個(gè)分布相加后的結(jié)果:12/20 就是后驗(yàn)分布預(yù)測(cè)下次是正面的概率。


二、二項(xiàng)分布

二項(xiàng)分布是從伯努利分布推導(dǎo)過(guò)來(lái)的。伯努利分布,又稱兩點(diǎn)分布或0-1分布,是一個(gè)離散型的隨機(jī)分布,其中的隨機(jī)變量只有兩類取值,非正即負(fù){+,-}。

而二項(xiàng)分布即重復(fù)n次的伯努利試驗(yàn),記為 X ~ b(n,p);

簡(jiǎn)言之,只做一次實(shí)驗(yàn),是伯努利分布,重復(fù)做了n次,是二項(xiàng)分布。

期望E(x) = np 方差 D(x) = np(1-p)

拿拋硬幣舉例子,正面概率p,反面概率1-0。我拋了n次。
pk(1-p)n-k 表示其中p的概率取到了k次,1-p的概率取到了n-k次。即意味著k次正面,n-k次反面。

下面的公式即Cnk,比如一共抽了10次,其中k次出現(xiàn)正面的情況。


例子: 做了若干次的拋100回硬幣的實(shí)驗(yàn),若正的情況記為1,負(fù)的情況記為0,結(jié)果如圖所示,發(fā)現(xiàn)正面的概率是0.9。
其中12%的實(shí)驗(yàn)結(jié)果證明拋100次后是正面的次數(shù)正好是90。而在坐標(biāo)軸的左右兩側(cè),有趨向于0的概率發(fā)現(xiàn)拋100次硬幣是正面的結(jié)果分別為75和100%。

如果拋無(wú)數(shù)輪,每輪拋100次硬幣,最后是正面朝上的均值是多少呢?
np = 100×0.9 = 90;
圖中最高的那個(gè)點(diǎn)對(duì)應(yīng)的是眾數(shù),眾數(shù)對(duì)應(yīng)的橫坐標(biāo)就是我們的期望,可以看到期望幾乎就等于90。


三、多項(xiàng)分布

多項(xiàng)分布(Multinomial Distribution)是二項(xiàng)分布的推廣。

多項(xiàng)分布是指單次試驗(yàn)中的隨機(jī)變量的取值不再是0/1的,而是有多種離散值可能(1,2,3...,k)。比如投擲6個(gè)面的骰子實(shí)驗(yàn),N次實(shí)驗(yàn)結(jié)果服從K=6的多項(xiàng)分布。其中K個(gè)離散值的概率為:


四、Beta分布

Beta分布是二項(xiàng)分布的共軛分布,是指一組定義在(0,1)區(qū)間的連續(xù)概率分布,具有兩個(gè)參數(shù):α,β>0;

\color{red}{PS:下面比較繞,好好理解。}
共軛分布: 如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式,那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布。
這里我們認(rèn)為當(dāng)Beta分布作為先驗(yàn)分布,二項(xiàng)分布作為條件分布(似然函數(shù)),最終得到的后驗(yàn)分布的分布和Beta分布的分布形式相同。
\color{red}{即,Beta分布作為其后驗(yàn)分布的分布形式。}

Beta分布

Beta分布是指一組定義在(0,1)區(qū)間的連續(xù)概率分布,什么意思?
當(dāng)你不知道一件事情發(fā)生的具體概率是多少時(shí),Beta分布可以給出所有概率出現(xiàn)的可能性大小。


舉例:
姚明罰球,投籃命中率高。
體育老師,投籃命中率中。
柔弱女生,投籃命中率低。
那么讓柔弱女生去投籃,她投不進(jìn)的概率會(huì)更高。

Beta分布描述的是投籃命中率的分布情況。
Beta分布中存在α,β,我們認(rèn)為α是正例發(fā)生的頻數(shù),β是負(fù)例發(fā)生的頻數(shù)。
讓任何一個(gè)人投籃這件事情發(fā)生之前,有一個(gè)他們是否會(huì)投進(jìn)的先驗(yàn)概率,即我們?nèi)藶榈慕?jīng)驗(yàn)。

回到剛才舉的例子,現(xiàn)在姚明開始投籃了,他投進(jìn)了5次,1次沒(méi)有投進(jìn)。
我們?nèi)藶橐γ髅新蕿?0%的概率非常高。

姚明投籃 - 藍(lán)線

柔弱女生開始投籃了,她投進(jìn)了1次,3次沒(méi)進(jìn)。
我們?nèi)藶榕痘@命中率打到70%的可能性非常低。

女生投籃 - 綠線

Beta分布計(jì)算的是什么?
是我們投籃命中率為0%~100%區(qū)間內(nèi),各個(gè)情況(..1%,2%...,99%...)分別發(fā)生的概率。是關(guān)于連續(xù)概率的概率。

\color{red}{Beta分布,決定了我們LDA模型建立時(shí)需要考慮的因素。}


五、Beta分布和二項(xiàng)分布

除去系數(shù)不看,Beta分布二項(xiàng)分布具有相同的形式。將Beta分布當(dāng)做先驗(yàn)分布,將二項(xiàng)分布當(dāng)做似然函數(shù)。


六、Dirichlet分布

Dirichlet分布是由Beta分布推廣而來(lái)的,是多項(xiàng)式分布的共軛分布。

08 主題模型 - LDA

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容