亚洲性爱激情综合网,亚洲女人天堂久久AV,欧美中文字幕5区

06 主題模型 - pLSA又稱pLSI - 基于概率的潛在語(yǔ)義分析模型

為了講后續(xù)的LDA算法，需要補(bǔ)充一點(diǎn)數(shù)學(xué)知識(shí)。大綱如下：

概率知識(shí)
二項(xiàng)分布
多項(xiàng)分布
Beta分布
Beta分布和二項(xiàng)分布
Dirichlet分布

一、概率知識(shí)

先驗(yàn)概率： 在事情尚未發(fā)生前，對(duì)該事件發(fā)生概率的估計(jì)。利用過(guò)去歷史資料計(jì)算出來(lái)得到的先驗(yàn)概率叫做客觀先驗(yàn)概率；憑主觀經(jīng)驗(yàn)來(lái)判斷而得到的先驗(yàn)概率叫做主觀先驗(yàn)概率。

后驗(yàn)概率： 通過(guò)調(diào)查或其它方式獲取新的附加信息，利用貝葉斯公式對(duì)先驗(yàn)概率進(jìn)行修正后，而得到的概率。

似然函數(shù)： 給定模型參數(shù)θ的條件下，樣本數(shù)據(jù)服從這一概率模型的相似程度。

先驗(yàn)分布：反映在進(jìn)行統(tǒng)計(jì)試驗(yàn)之前根據(jù)其他有關(guān)參數(shù)知識(shí)得到的分布；也就是說(shuō)在觀測(cè)獲取樣本之前，人們對(duì)θ已經(jīng)有一些知識(shí)，此時(shí)這個(gè)θ的分布函數(shù)為H(θ)，θ的密度函數(shù)為h(θ)，分別稱為先驗(yàn)分布函數(shù)和先驗(yàn)密度函數(shù)，統(tǒng)稱先驗(yàn)分布。

后驗(yàn)分布：根據(jù)樣本X的分布以及θ的先驗(yàn)分布π(θ)，使用概率論中求解條件概率的方式可以計(jì)算出來(lái)已知X的條件下，θ的條件分布π(θ|x)。因?yàn)樵摲植际窃讷@取樣本x之后計(jì)算出來(lái)的，所以稱為后驗(yàn)分布。
后驗(yàn)分布 = 歷史數(shù)據(jù)(先驗(yàn)概率) + 樣本(似然函數(shù))

共軛分布：如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式，那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布。
如：先驗(yàn)分布是一個(gè)正太分布，加上似然函數(shù)后形成的后驗(yàn)分布也是一個(gè)正太分布，那么先驗(yàn)分布和似然函數(shù)稱為共軛分布。

分析: 也許讀者會(huì)困惑先驗(yàn)分布和后驗(yàn)分布到底是個(gè)什么意思？這里我舉個(gè)栗子。
假如現(xiàn)在有一個(gè)硬幣，我剛拿到硬幣的時(shí)候心里有個(gè)數(shù)：拋硬幣正面反面的概率都是50%，這是我根據(jù)以往經(jīng)驗(yàn)得到的一個(gè)先驗(yàn)分布。
現(xiàn)在我開始拋硬幣，我拋硬幣的過(guò)程就是在獲取樣本X的過(guò)程，X= {正面，反面，反面，反面，正面....} ；如果我扔了10次硬幣，正面7次反面3次。這是似然函數(shù)得到的結(jié)果。
現(xiàn)在預(yù)測(cè)是正面的概率：先驗(yàn)分布=0.5，似然函數(shù)預(yù)測(cè)的概率=0.7。
兩個(gè)分布相加后的結(jié)果：12/20 就是后驗(yàn)分布預(yù)測(cè)下次是正面的概率。

二、二項(xiàng)分布

二項(xiàng)分布是從伯努利分布推導(dǎo)過(guò)來(lái)的。伯努利分布，又稱兩點(diǎn)分布或0-1分布，是一個(gè)離散型的隨機(jī)分布，其中的隨機(jī)變量只有兩類取值，非正即負(fù){+，-}。

而二項(xiàng)分布即重復(fù)n次的伯努利試驗(yàn)，記為 X ~ b(n,p)；

簡(jiǎn)言之，只做一次實(shí)驗(yàn)，是伯努利分布，重復(fù)做了n次，是二項(xiàng)分布。

期望E(x) = np 方差 D(x) = np(1-p)

拿拋硬幣舉例子，正面概率p，反面概率1-0。我拋了n次。
p^k(1-p)^n-k 表示其中p的概率取到了k次，1-p的概率取到了n-k次。即意味著k次正面，n-k次反面。

下面的公式即Cn^k，比如一共抽了10次，其中k次出現(xiàn)正面的情況。

例子: 做了若干次的拋100回硬幣的實(shí)驗(yàn)，若正的情況記為1，負(fù)的情況記為0，結(jié)果如圖所示，發(fā)現(xiàn)正面的概率是0.9。
其中12%的實(shí)驗(yàn)結(jié)果證明拋100次后是正面的次數(shù)正好是90。而在坐標(biāo)軸的左右兩側(cè)，有趨向于0的概率發(fā)現(xiàn)拋100次硬幣是正面的結(jié)果分別為75和100%。

如果拋無(wú)數(shù)輪，每輪拋100次硬幣，最后是正面朝上的均值是多少呢？
np = 100×0.9 = 90；
圖中最高的那個(gè)點(diǎn)對(duì)應(yīng)的是眾數(shù)，眾數(shù)對(duì)應(yīng)的橫坐標(biāo)就是我們的期望，可以看到期望幾乎就等于90。

三、多項(xiàng)分布

多項(xiàng)分布(Multinomial Distribution)是二項(xiàng)分布的推廣。

多項(xiàng)分布是指單次試驗(yàn)中的隨機(jī)變量的取值不再是0/1的，而是有多種離散值可能（1,2,3...,k）。比如投擲6個(gè)面的骰子實(shí)驗(yàn)，N次實(shí)驗(yàn)結(jié)果服從K=6的多項(xiàng)分布。其中K個(gè)離散值的概率為：

四、Beta分布

Beta分布是二項(xiàng)分布的共軛分布，是指一組定義在(0,1)區(qū)間的連續(xù)概率分布，具有兩個(gè)參數(shù)：α,β>0;

$\color{red}{PS：下面比較繞，好好理解。}$
共軛分布： 如果先驗(yàn)分布和后驗(yàn)分布具有相同的形式，那么先驗(yàn)分布和似然函數(shù)被稱為共軛分布。
這里我們認(rèn)為當(dāng)Beta分布作為先驗(yàn)分布，二項(xiàng)分布作為條件分布(似然函數(shù))，最終得到的后驗(yàn)分布的分布和Beta分布的分布形式相同。
$\color{red}{即，Beta分布作為其后驗(yàn)分布的分布形式。}$

Beta分布

Beta分布是指一組定義在(0,1)區(qū)間的連續(xù)概率分布，什么意思？
當(dāng)你不知道一件事情發(fā)生的具體概率是多少時(shí)，Beta分布可以給出所有概率出現(xiàn)的可能性大小。

舉例：
姚明罰球，投籃命中率高。
體育老師，投籃命中率中。
柔弱女生，投籃命中率低。
那么讓柔弱女生去投籃，她投不進(jìn)的概率會(huì)更高。

Beta分布描述的是投籃命中率的分布情況。
Beta分布中存在α,β，我們認(rèn)為α是正例發(fā)生的頻數(shù)，β是負(fù)例發(fā)生的頻數(shù)。
讓任何一個(gè)人投籃這件事情發(fā)生之前，有一個(gè)他們是否會(huì)投進(jìn)的先驗(yàn)概率，即我們?nèi)藶榈慕?jīng)驗(yàn)。

回到剛才舉的例子，現(xiàn)在姚明開始投籃了，他投進(jìn)了5次，1次沒(méi)有投進(jìn)。
我們?nèi)藶橐γ髅新蕿?0%的概率非常高。