01 主題模型 - 大綱

一、大綱

主題模型是機(jī)器語(yǔ)言在自然語(yǔ)言處理中的一個(gè)應(yīng)用,主要做的是無(wú)監(jiān)督的任務(wù)。

一般情況下,如果我們拿到一篇文章,這篇文章是無(wú)標(biāo)記的文章。我希望通過(guò)機(jī)器學(xué)習(xí)的相關(guān)算法,幫助我們得到文章的分類結(jié)果。這是我們的初衷。

之前提到過(guò),在傳統(tǒng)的聚類算法中,當(dāng)我們的數(shù)據(jù)量足夠大、特征非常多的時(shí)候, 我們的距離度量公式就相對(duì)得失去了某種意義。即高維的數(shù)據(jù)會(huì)面臨維度爆炸的問(wèn)題,高維空間里邊邊角角里的數(shù)據(jù)之間的距離就沒(méi)有什么意思了。如果距離的度量失效,那么聚類算法的結(jié)果就會(huì)非常差。

因此,傳統(tǒng)的無(wú)監(jiān)督的算法在處理文本分類的時(shí)候就起不到很好的作用了。因?yàn)槲谋痉诸愒谔卣魈幚淼臅r(shí)候我們會(huì)使用詞袋法和TF-IDF,這些方法基于我們的語(yǔ)料庫(kù)生成一個(gè)當(dāng)前文章的詞向量,即根據(jù)單詞在文章中出現(xiàn)的頻率/頻數(shù),來(lái)決定詞向量中每一個(gè)元素的大小。

相對(duì)而來(lái),生成的詞向量是比較稀疏的,因?yàn)橐黄恼轮胁惶赡馨Z(yǔ)料庫(kù)中的所有詞組。這種情況下怎么辦呢?我們引入了主題模型來(lái)解決這種距離度量失效的情況。相對(duì)來(lái)說(shuō),這個(gè)結(jié)果可能會(huì)稍微的好一些。

但目前業(yè)界中,對(duì)主題模型的爭(zhēng)議也比較大。很多人也認(rèn)為主題模型的效果不太好。或者可以這么理解:模型再好,不如語(yǔ)料好。即,優(yōu)質(zhì)的語(yǔ)料可以幫助提高文章分類的效果,不管你用的是什么模型。


主題模型的內(nèi)容

1、LSA模型

根據(jù)LSA模型,引申出了一個(gè)基于概率的模型PLSA,PLSA模型本質(zhì)上是一個(gè)生成式模型。

2、LDA模型

之前在聊統(tǒng)計(jì)學(xué)的時(shí)候,我們認(rèn)為統(tǒng)計(jì)學(xué)是分兩個(gè)學(xué)派的:
1、傳統(tǒng)統(tǒng)計(jì)學(xué)的頻率派;
2、貝葉斯學(xué)派。
實(shí)際上頻率派在傳統(tǒng)統(tǒng)計(jì)學(xué)中,我們認(rèn)為其少了一個(gè)先驗(yàn)條件。
貝葉斯認(rèn)為世界上任何一件事情的發(fā)生都是由之前的某些事情來(lái)決定的。
所以貝葉斯要考慮很多先驗(yàn)條件。即 P(A|B) = P(A)×P(B|A)/P(B); 貝葉斯考慮A事件發(fā)生概率前,先要考慮其后驗(yàn)條件B;

LDA模型 是基于PLSA這個(gè)模型,在加入了一些先驗(yàn)的條件后得到的一個(gè)主題模型。


二、主題模型

傳統(tǒng)判斷兩個(gè)文檔相似性的方法是通過(guò)查看兩個(gè)文檔共同出現(xiàn)的單詞的多少,如TF-IDF等,這種方法沒(méi)有考慮到文字背后的語(yǔ)義關(guān)聯(lián),可能在兩個(gè)文檔共同出現(xiàn)的單詞很少甚至沒(méi)有,但兩個(gè)文檔是相似的。

舉個(gè)例子,有兩個(gè)句子分別如下:
“喬布斯離我們而去了?!?br> “蘋果價(jià)格會(huì)不會(huì)降?

實(shí)際上有生活常識(shí)的人都知道,一個(gè)公司的創(chuàng)始人去世后,意味著股價(jià)肯定會(huì)跌。所以上面兩句話本質(zhì)上在說(shuō)蘋果公司的事情,但這兩句話中沒(méi)有任何一個(gè)詞是一樣的。如果我們用傳統(tǒng)的詞袋法去分析,我們會(huì)發(fā)現(xiàn)兩篇文章的相似度是0。這種情況下我們得考慮主題模型。

\color{red}{在文章中可以被直接觀測(cè)的,只有詞向量。}
\color{red}{主題無(wú)法被直接觀測(cè),所以是一個(gè)隱含變量。}
\color{red}{人類可以根據(jù)自己的主觀認(rèn)知理解文章中的隱含意義,而機(jī)器本身不行。}
\color{red}{讓機(jī)器擁有這種理解隱含變量的能力,就是我們想達(dá)到的目的。}

主題模型(Topic Model)是用來(lái)在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計(jì)模型。直觀來(lái)講,如果一篇文章有一個(gè)中心思想,那么一定存在一些特定詞語(yǔ)會(huì)出現(xiàn)的比較頻繁。比方說(shuō),如果現(xiàn)在一篇文章是在講蘋果公司的,那么“喬布斯”和“IPhone”等詞語(yǔ)出現(xiàn)的頻率會(huì)更高一些;如果現(xiàn)在一篇文章是在描述微軟公司的,那么“Windows”和“Microsoft”等詞語(yǔ)出現(xiàn)的頻率會(huì)更高一些;但真實(shí)情況下,一篇文章中通常包含多種主題,而且每個(gè)主題所占的比例各不相同,比如一篇文章中10%和蘋果公司有關(guān),90%和微軟公司有關(guān),那么和微軟有關(guān)的關(guān)鍵字出現(xiàn)的次數(shù)應(yīng)該是蘋果關(guān)鍵字出現(xiàn)次數(shù)的9倍。

主題模型就是一種自動(dòng)分析每個(gè)文檔,統(tǒng)計(jì)文檔內(nèi)詞語(yǔ),根據(jù)統(tǒng)計(jì)的信息判斷當(dāng)前文檔包含哪些主題以及各個(gè)主題所占比例各為多少。

主題模型是對(duì)文本中隱含主題的一種建模方法,每個(gè)主題其實(shí)是詞表上單詞的概率分布;

主題模型是一種生成模型,一篇文章中每個(gè)詞都是通過(guò)“以一定概率選擇某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語(yǔ)”這樣一個(gè)過(guò)程得到的;


模擬一個(gè)自由撰稿人的寫(xiě)作思路:

1、作者為寫(xiě)一篇文章構(gòu)思了很多主題→以72%的概率選中了“蘋果公司”為主題寫(xiě)文章→以0.23%的概率以“籃球”這個(gè)詞開(kāi)頭寫(xiě)這篇文章。→以87%的概率以“Iphone”這個(gè)詞為第二段的開(kāi)頭。

2、作者為寫(xiě)一篇文章構(gòu)思了很多主題→以5%的概率選中了“籃球”為主題寫(xiě)文章→以90%的概率以“某個(gè)球星”這個(gè)詞開(kāi)頭寫(xiě)這篇文章?!?.035%的概率以“Iphone”這個(gè)詞為第二段的開(kāi)頭。

分析 以我們對(duì)社會(huì)的認(rèn)知,我們知道當(dāng)以蘋果公司為主題時(shí)寫(xiě)的文章,Iphone這個(gè)詞出現(xiàn)的概率,會(huì)比以籃球?yàn)橹黝}寫(xiě)文章時(shí)出現(xiàn)的概率高很多。反之在以籃球?yàn)橹黝}寫(xiě)文章時(shí),Iphone這個(gè)詞可能就壓根不會(huì)出現(xiàn)。

我們想對(duì)當(dāng)前文章生成一個(gè)主題的時(shí)候,我們會(huì)從文章庫(kù)中進(jìn)行尋找。比如現(xiàn)在是NBA的休賽期,我們認(rèn)為在新聞發(fā)布的文章庫(kù)中,NBA的新聞出現(xiàn)的比較少。而當(dāng)蘋果開(kāi)新的發(fā)布會(huì)時(shí),我們認(rèn)為新聞文章庫(kù)中,蘋果公司主題的文章會(huì)變多。

本質(zhì)上我們剛剛構(gòu)建的兩個(gè) 自由撰稿人的寫(xiě)作思路 是一個(gè)貝葉斯網(wǎng)絡(luò)。


結(jié)合上述這些基本概念我們來(lái)看下面的公式:

分析公式:
首先思考:P(詞組,主題,文章) = P(w,t,d) 的聯(lián)合概率如何求?

文章→主題→詞組:給定主題后,文檔和詞組是條件獨(dú)立的。p(w|t.d) = p(w|t);

主題模型 克服了傳統(tǒng)信息檢索中文檔相似度計(jì)算方法的缺點(diǎn),并且能夠在海量的數(shù)據(jù)中找出文字間的語(yǔ)義主題。主題模型在自然語(yǔ)言和給予文本的搜索上起到了重要的作用。

怎樣才能生成主題?對(duì)文章的主題應(yīng)該怎么分析?這是主題模型要解決的問(wèn)題。

02 主題模型 - SVD矩陣分解、LSA模型

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容