06 主題模型 - pLSA又稱pLSI - 基于概率的潛在語義分析模型

02 主題模型 - SVD矩陣分解、LSA模型
03 主題模型 - LSA案例
04 主題模型 - NMF
05 主題模型 - 坐標(biāo)軸下降法

pLSA 的另一個(gè)名稱是Probabilistic Latent Semantic Indexing(pLSI),基于概率的潛在語義分析模型。
pLSALSA用到的東西一模一樣。參考:《 LSA,pLSA原理及其代碼實(shí)現(xiàn)

假定在一篇文檔d中,主題c來表示,詞語w來表示,則有下列公式:

和LSA一樣用到這個(gè)式子

p(w,d) 是文擋詞語聯(lián)合發(fā)生的概率。
根據(jù)貝葉斯網(wǎng)絡(luò)推導(dǎo)出:d→c→w <=> d→w; 所以 p(w|d,c) <=> p(w|c) ;
以上算是鞏固一下PLS算法的思想。


在PLA中,根據(jù)一篇文檔去抽出一篇主題的時(shí)候,從概率角度來說,我們沒有考慮先驗(yàn)條件。在PLA中,我們認(rèn)為所有主題出現(xiàn)的概率都是一個(gè)確定的數(shù)字。即我們現(xiàn)在文章中,蘋果公司主題文章出現(xiàn)概率是0.3,NBA主題是0.5,其他分類出現(xiàn)的概率是0.2。所有分類出現(xiàn)的概率總和是1。也就是說:我們?nèi)藶榻o定了文檔后出現(xiàn)的概率分布。

但是我們沒有考慮到先驗(yàn)條件的情況,比如:蘋果公司發(fā)布新的手機(jī)了。NBA休賽期到了。
在這種先驗(yàn)條件下,之前提到的蘋果公司主題、NBA主題這些文章出現(xiàn)的概率應(yīng)該會(huì)相應(yīng)得發(fā)生變化
蘋果公司主題出現(xiàn)概率 ↑;NBA主題出現(xiàn)概率 ↓


仔細(xì)分析p(w,d)的完整生成過程:
p(w,d) 是文擋詞語聯(lián)合發(fā)生的概率。
我們先從文檔集合中選擇第m個(gè)文檔,即 p(dm)
再?gòu)闹黝}集合中選擇第k個(gè)主題,即p(ck)
再?gòu)脑~語集合中選擇第n個(gè)詞語,即p(wn)
p(w,d) = p(dm) × p(ck | dm) × p(wn | ck)
這是一個(gè)完整的生成過程,而事實(shí)上,我們只能看到 p(w,d),觀測(cè)不到ck的值。

所以我們想建立一個(gè)似然函數(shù)。

對(duì)數(shù)似然

p(dm)抽到第m篇文檔中的情況,p(dm,Wn)且抽到第n個(gè)詞的概率,考慮從第1個(gè)文檔到第m個(gè)文檔,以及每個(gè)文檔中第1個(gè)到第n個(gè)詞的聯(lián)合出現(xiàn)的情況。
再分別乘以這些詞出現(xiàn)的次數(shù)。最后計(jì)算出的值就是我們建立的似然函數(shù)的值。

因?yàn)閜LSA本質(zhì)上是基于詞袋法或TF-IDF,我們是基于詞與詞之間是否獨(dú)立的,但是沒有考慮詞與詞之間出現(xiàn)的先后順序。 這是詞袋法和TF-IDF的核心假設(shè)。由于詞與詞之間是互相獨(dú)立的,我們才能求每篇文章中每個(gè)詞出現(xiàn)的聯(lián)合概率,最終生成這樣的似然函數(shù)。

因?yàn)橥ㄟ^似然函數(shù)暴露了隱含變量ck,所以之后的求解思路是然后通過EM算法進(jìn)行求解。最終得到了我們想得的隱含變量的值,幫助我們求得主題分類。

pLSA的不足:

1、概率模型不夠完備,在文檔層面上沒有提供一個(gè)完善的概率模型。使得pLSA無法成為一個(gè)好的模型。我們只能在確定了文檔的概率分布后才能對(duì)模型進(jìn)行隨機(jī)抽樣。

2、隨著文檔和詞語個(gè)數(shù)的增加,模型的復(fù)雜度也會(huì)增加得很快。

07 主題模型 - 知識(shí)補(bǔ)充 - 概率知識(shí)、二項(xiàng)\多項(xiàng)\Beta\Dirichlet分布

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容