數(shù)十年以來,統(tǒng)計學家提倡使用標記數(shù)據(jù)和未標記數(shù)據(jù)的組合,通過迭代期望最大化(EM)技術(shù)估計生成模型的參數(shù)來訓練分類器。本章探討了這種方法在應(yīng)用于文本分類領(lǐng)域時的有效性。本文用一組詞模型來表示文本文檔,這導(dǎo)致了一個基于多項式混合的生成分類模型。這個模型非常簡單地表示了書面文本的復(fù)雜性。本章闡述并說明了生成模型下文本分類半監(jiān)督學習的三個要點。首先,盡管文本域的表示形式過于簡單,但在生成模型概率和分類精度之間,有些文本域具有很高的正相關(guān)。在這些領(lǐng)域中,簡單地將em應(yīng)用于NaiveBayes文本模型效果很好。其次,一些文本域沒有這種相關(guān)性。在這里,我們可以采用一個更具表現(xiàn)力和適當?shù)纳赡P?,它確實具有正相關(guān)性。在這些領(lǐng)域中,半監(jiān)督學習再次提高了分類的準確性。最后,EM還存在局部極大值問題,特別是在文本分類等高維領(lǐng)域。我們證明了確定性退火是EM的一個變種,它可以克服局部極大值問題,在生成模型適當?shù)那闆r下進一步提高分類精度。
3.1?簡介
從標記數(shù)據(jù)和未標記數(shù)據(jù)的組合中學習分類器是統(tǒng)計學界的一個老觀點。至少早在1968年,就有人建議通過測試所有可能的類分配,將有標記和無標記的數(shù)據(jù)結(jié)合起來,以建立具有最大似然性的分類器(Hartley和Rao,1968年)。Day(1969)的開創(chuàng)性論文提出了一種迭代的EM-like方法,僅從未標記的數(shù)據(jù)中獲得已知協(xié)方差的兩個正態(tài)的混合參數(shù)。類似的迭代算法,用于從有標記和無標記的數(shù)據(jù)中構(gòu)建最大似然分類器,隨后使用顯式生成模型,主要用于正態(tài)分布的混合分布(McLachlan,1975;Titterington,1976)。
Dempster等人(1977)提出了 EM 框架的理論,將先前提出的用于缺失數(shù)據(jù)的似然最大化的迭代技術(shù)的許多共性集合起來并形式化。它適用于根據(jù)標記和未標記數(shù)據(jù)(Murray和Titterington,1978年)估計混合模型的最大似然(或最大后驗)參數(shù),然后將其用于分類(Little,1977年),立即得到了承認。此后,繼續(xù)使用和研究這種方法(McLachlan和Ganesaligam,1982年;Ganesaligam,1989年;Shahshahani和Landgrebe,1994年)。最近,利用混合模型的似然最大化將標記和未標記的數(shù)據(jù)組合起來進行分類,已經(jīng)向機器學習社區(qū)發(fā)展了起來(Miller和Uyar,1996年;Nigam等人,1998年;Baluja,1999年)。
期望最大化的理論基礎(chǔ)表明,當模型類生成足夠多的未標記數(shù)據(jù)時,可以找到比僅使用標記數(shù)據(jù)更可能的模型。如果分類任務(wù)是預(yù)測生成模型的潛在變量,那么有足夠的數(shù)據(jù),一個更可能的模型也將導(dǎo)致更準確的分類器。
這種方法基于生成模型是正確的假設(shè)。當分類任務(wù)是對人類編寫的文本進行分類時(我們在這里考慮),真正的生成模型是不可能參數(shù)化的,而實踐者傾向于使用非常簡單的表示。例如,常用的樸素貝葉斯分類器將每個編寫的文檔表示為一個單詞包,丟棄所有單詞排序信息。這個分類器的生成模型斷言文檔是通過從類條件多項式中抽取來創(chuàng)建的。由于這是對創(chuàng)作過程的一種極端簡化,因此有必要問一下,這種生成式的半監(jiān)督學習建模方法在文本分類領(lǐng)域是否合適或有益。
這一章論證了當選擇的生成模型概率與分類精度有很好的相關(guān)性,并且可以避免次優(yōu)局部極大值時,生成方法適用于半監(jiān)督文本分類。在某些情況下,盡管樸素的貝葉斯生成模型很簡單,但它還是足夠的。我們發(fā)現(xiàn)模型概率與分類精度密切相關(guān),期望最大化技術(shù)產(chǎn)生的分類器具有未標記的數(shù)據(jù),比單獨使用標記數(shù)據(jù)構(gòu)建的分類器更精確。在其他情況下,樸素貝葉斯生成模型與分類準確度沒有很好的相關(guān)性。通過采用更具表現(xiàn)力的生成模型,恢復(fù)了模型的準確性和概率相關(guān)性,再次得到了良好的結(jié)果。
EM的一個缺陷是它只保證在模型概率空間中發(fā)現(xiàn)局部極大值而不是全局極大值。在像文本分類這樣的領(lǐng)域中,由于參數(shù)數(shù)量非常多,這種效果可能非常顯著。研究表明,當模型概率和分類之間存在良好的相關(guān)性時,采用確定性退火(一種交替的模型估計過程)可以發(fā)現(xiàn)更可能的,從而更準確的分類器。
非生成方法也被用于半監(jiān)督文本分類。Joachims(1999)使用轉(zhuǎn)導(dǎo)支持向量機為多個文本分類任務(wù)構(gòu)建識別分類器。Blum和Mitchell(1998)使用聯(lián)合培訓設(shè)置為網(wǎng)頁構(gòu)建Naive Bayes分類器,使用錨文本和頁面本身作為有關(guān)實例的兩個不同信息源。Zelikovitz和Hirsh(2000)使用未標記的數(shù)據(jù)作為背景知識來增強最近鄰分類器。他們不直接將測試示例與其最近的標記示例進行匹配,而是通過測量與一組未標記示例的相似性,將測試示例與標記示例進行匹配。
本章內(nèi)容如下。第3.2節(jié)介紹了用于文本分類的生成模型,并說明了如何使用em執(zhí)行半監(jiān)督學習。第3.3節(jié)給出了一個示例,說明了這種方法在何處工作良好。第3.4節(jié)提出了一個更具表現(xiàn)力的生成模型,該模型在樸素的貝葉斯假設(shè)不充分時有效,并從需要它的領(lǐng)域獲得了實驗結(jié)果。第3.5節(jié)給出了確定性退火,并表明這發(fā)現(xiàn)了比EM發(fā)現(xiàn)的模型參數(shù)化更為可能的模型參數(shù)化,尤其是當標記數(shù)據(jù)稀疏時。
3.2?文本生成式模型
本節(jié)介紹了一個描述文本文檔的框架,并說明了如何使用該框架從標記和未標記的數(shù)據(jù)訓練分類器。該框架定義了概率生成模型,并對生成過程進行了三個假設(shè):(1)數(shù)據(jù)是由混合模型生成的;(2)混合成分與類之間存在一一對應(yīng)關(guān)系;(3)混合成分是單個詞的多項式分布。這些是樸素貝葉斯分類器使用的假設(shè),這是標準監(jiān)督文本分類的常用工具(Lewis,1998;McCallum和Nigam,1998)。
我們假設(shè)文檔是由多項式模型的混合生成的,其中每個混合分布組件對應(yīng)一個類。設(shè)有?M?個類別和一個大小為??的詞匯表;每個文檔?
含有?
個單詞。如何使用此模型創(chuàng)建文檔?第一,我們滾動有偏的M面骰子來確定文檔的類。然后,選取與所選類對應(yīng)的偏
邊骰子。我們將這個骰子滾動
次,計算每個單詞出現(xiàn)的次數(shù)。這些字數(shù)構(gòu)成生成的文檔。
形式上,每個文檔都是根據(jù)由混合模型參數(shù)定義的概率分布生成的,稱為θ。概率分布由一個由組件?混合分布組成。文檔,
,首先根據(jù)混合權(quán)重選擇一個混合組件——
,然后使用這個被選中的組件根據(jù)自身的參數(shù)依分布
生成一個文檔。因此,看到文檔
的似然是所有混合分布成分的總概率之和:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3.1)
每個文檔有一個類標簽。我們假設(shè)混合模型組件和類之間是一對一的對應(yīng)關(guān)系,因此使用來表示
混合物組件以及
類。一個文檔?
對應(yīng)的類標簽寫為?
。如果文檔?
是由混合組件
生成的我們就說?
。
一個文檔,,是一個詞匯數(shù)量的向量。我們將
寫為文檔
中出現(xiàn)的單詞
的次數(shù)。當一個文件由一個特定的混合成分生成時,文件長度,
,首先是獨立于組件選擇的。然后,利用所選混合組分的多項式分布,生成指定長度的文檔。
由此我們可以展開(3.1)中的第二項,并根據(jù)文檔的組成特征(文檔長度和文檔中的單詞)表示給定混合成分的文檔的概率。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3.2)
這個公式嵌入了標準樸素貝葉斯假設(shè):文檔中的詞匯在給定類標簽時是條件獨立于同一文檔中的其他詞匯的。
因此,單個混合成分的參數(shù)定義了詞的多項式分布,即?詞概率的集合,每一個寫為?,因此?
,這兒?
且
。因為我們假設(shè)對于所有類,文檔長度都是相同分布的,所以不需要為分類參數(shù)化文檔長度。模型的其他參數(shù)只有混合權(quán)重(類概率),
,其指示了選擇不同混合成分的概率。?因此,模型參數(shù)θ的完整集合定義了一組多項式和類概率:
。
總結(jié)下,通過結(jié)合方程 3.1 、3.2?給出的的全生成模型,賦值概率生成文檔
如下:
? ? ? ? ? ?(3.3)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 這兒次數(shù)集
是生成模型中參數(shù)向量
的充分統(tǒng)計。
3.2.1?基于生成模型的監(jiān)督文本分類
從一組標記文檔中學習樸素貝葉斯文本分類器包括估計生成模型的參數(shù)。對參數(shù)的估計記為?
。樸素貝葉斯使用最大后驗(MAP)估計,即找到?
。這是考慮到訓練數(shù)據(jù)的證據(jù)和一個先驗值的最可能的
?值。
我們的先驗分布是由Dirichlet分布的乘積形成的,每類多項式一個,總類概率一個。Dirichlet是多項式分布中常用的共軛先驗分布。Dirichlet?分布如下:? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3.4)
這兒?限制大于 0。我們設(shè)置所有?
?,這對應(yīng)一個偏好均勻分布的先驗。這與拉普拉斯和 M-估計 平滑相同。Stolcke和Omohundro對Dirichlet分布作了很好的介紹。由數(shù)據(jù)和先驗值最大化得到的參數(shù)估計公式是我們熟悉的經(jīng)驗計數(shù)平滑比。詞概率估計值?
為:
? ? ? ? ? ? ? (3.5)
這兒?由類標簽給出:1?當?
,0?其他。類概率,即
,以同樣的方式估計,并且還涉及一個平滑計數(shù)比:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.6)
這些計數(shù)比公式的推導(dǎo)直接來自于最大后驗參數(shù)估計。求最大化的θ是通過首先用貝葉斯規(guī)則將這個表達式分成兩個項來完成的:
。第一個術(shù)語是根據(jù)所有文檔類型的乘積計算的(從等式 3.1)。第二項,參數(shù)上的先驗分布,為?Dirichlets?分布的乘積。通過求解
的偏導(dǎo)數(shù)系統(tǒng),使用拉格朗日乘數(shù)來滿足一個類中的詞概率必須和為1的約束,從而使整個表達式最大化。這個最大化產(chǎn)生上面看到的計數(shù)比率。
根據(jù)標注的訓練文檔計算出的這些參數(shù)的估計值,可以將生成模型反轉(zhuǎn),并計算特定混合成分生成給定文檔以執(zhí)行分類的概率。這源于貝葉斯規(guī)則的應(yīng)用:
(3.7)
如果任務(wù)是將一個測試文檔分為單個類,然后是后驗概率最高的類,,被選中。
3.2.2?基于?EM?的半監(jiān)督文本分類
在帶有標記和未標記數(shù)據(jù)的半監(jiān)督設(shè)置中,我們?nèi)匀幌M业阶畲蠛篁瀰?shù)估計,如上面的監(jiān)督設(shè)置中所示。因為沒有標簽的數(shù)據(jù)沒有標簽,所以前一節(jié)中的閉式公式不適用。然而,利用EM 技術(shù),我們可以找到生成模型的局部最大后驗參數(shù)估計。
將EM技術(shù)應(yīng)用于帶有樸素貝葉斯的標記和未標記數(shù)據(jù)的情況,可以得到一個簡單而吸引人的算法。首先,一個樸素的貝葉斯分類器是以標準的監(jiān)督方式從有限的標記訓練數(shù)據(jù)中構(gòu)建的。然后,我們用樸素貝葉斯模型對未標記的數(shù)據(jù)進行分類,注意到不是最可能的類,而是與每個類相關(guān)的概率。這意味著,根據(jù)這些估計的類概率,未標記的文檔被視為幾個部分文檔。我們迭代這個過程,對未標記的數(shù)據(jù)進行分類,并重建樸素的貝葉斯模型,直到它收斂到一個穩(wěn)定的分類器和數(shù)據(jù)的標簽集。這在算法3.1中進行了總結(jié):
算法 3.1?文本分類器半監(jiān)督學習的基本EM算法
?輸入:標記文檔集?
和未標記文檔集?
?僅從標記文檔集,
,構(gòu)造一個初始化樸素貝葉斯分類器,
。使用最大后驗參數(shù)估計去找到
?(見等式 3.5?和 3.6)
?通過
的變化測量(標記和未標記數(shù)據(jù)的對數(shù)概率,以及先驗),在分類器參數(shù)改善時循環(huán)(見等式 3.8):
? ???????(E?步)使用當前分類器,
,估計每個未標記文檔的組件成員身份,即,每個混合組? ?分(和類)生成每個文檔的概率,
(見等式 3.7)
? ???????(M?步)根據(jù)每個文檔的估計組件成員關(guān)系,重新估計分類器,
。使用最大后驗(MAP)參數(shù)估計找到?
(見等式 3.5?及 3.6)
?輸出:分類器 ,
,其輸入未標記的文檔并預(yù)測類標簽。
更正式地說,學習分類器的方法是計算的最大后驗估計,即
,這相當于最大化相同函數(shù)的對數(shù)??紤]最大化的第二項,所有可觀測數(shù)據(jù)的概率。單個未標記文檔的概率是所有類的總概率之和,如?等式 3.1?中所示。對于標記的數(shù)據(jù),生成組件已經(jīng)由標簽
給出,我們不需要引用與類對應(yīng)的所有混合組件——只需要引用與類對應(yīng)的。使用
表示未標記的示例,
表示給出標簽的示例,完整數(shù)據(jù)的預(yù)期對數(shù)概率為
? (3.8)
(為了方便我們刪除了常數(shù)項)注意,這個方程包含了未標記數(shù)據(jù)的和的對數(shù),這使得偏導(dǎo)數(shù)的最大化難以計算。EM 的形式化(Dempster 等人,1977)提供了一種迭代爬山方法,用于在參數(shù)空間中找到模型概率的局部最大值。算法的E步估計了給定模型參數(shù)最新迭代的缺失值(即未標記類信息)的期望值。M步驟使用先前計算的缺失值的期望值最大化模型參數(shù)的可能性,就好像它們是真實值一樣。
實際上,E 步驟對應(yīng)于使用等式3.7對每個未標記文檔進行分類。M步對應(yīng)于使用公式 3.5 、3.6與的當前估計值 計算參數(shù),
,的新的最大后驗(
)估計。
本質(zhì)上,所有參數(shù)的初始化都會導(dǎo)致一些局部極大值與?EM。許多?EM 的實例化都是從隨機選擇一個起始模型參數(shù)化開始的。在我們的例子中,由于我們不僅有未標記的數(shù)據(jù),而且還有一些標記的數(shù)據(jù),所以我們可以對起點進行更為選擇性的選擇。我們的迭代過程是用一個啟動的 M 步驟初始化的,在這個步驟中,只使用標記的文檔來估計分類器參數(shù),如等式3.5、3.6中所示。然后,循環(huán)從一個E步驟開始,該步驟使用這個分類器首次概率地標記未標記的文檔。
該算法迭代,直到收斂到一個點,其中不會隨迭代改變。從算法上講,我們通過觀察參數(shù)的對數(shù)概率(公式3.8)低于閾值的變化來確定收斂性,該變化是 EM 爬坡的表面高度。
3.2.3?討論
這種方法的理由取決于第3.2節(jié)中所述的假設(shè),即數(shù)據(jù)由混合模型生成,并且混合物成分和類別之間存在一一對應(yīng)關(guān)系。如果生成建模假設(shè)是正確的,那么最大化模型概率將是訓練分類器的一個很好的標準。在這種情況下,當訓練實例數(shù)接近無窮大時,貝葉斯最優(yōu)分類器對應(yīng)于模型的最大后驗參數(shù)估計。當這些假設(shè)不能像真實文本數(shù)據(jù)中那樣確定時,未標記數(shù)據(jù)的收益就不那么清楚了。僅使用標記數(shù)據(jù),樸素貝葉斯分類器就可以很好地對文本文檔進行分類(Lewis和Ringuette,1994;Craven等人,2000;Yang和Pedersen,1997;Joachims,1997;McCallum等人,1998)。這一觀察部分解釋為分類估計僅僅是函數(shù)估計的符號(二進制分類)的函數(shù)(Domingos和Pazzani,1997;Friedman,1997)。錯誤的單詞獨立性假設(shè)加劇了樸素貝葉斯產(chǎn)生極端(幾乎為0或1)類概率估計的傾向。然而,即使這些估計是不適當?shù)臉O端,分類精度也可能相當高。
半監(jiān)督學習比監(jiān)督學習更依賴于模型假設(shè)的正確性。下一節(jié)將從經(jīng)驗上說明,這種方法確實可以顯著提高文檔分類器的準確性,特別是在只有幾個標記的文檔的情況下。

3.3?基于基礎(chǔ)?EM?算法的實驗結(jié)果
在本節(jié)中,我們證明了具有標記和未標記數(shù)據(jù)的半監(jiān)督學習提供的文本分類器比僅使用標記數(shù)據(jù)的監(jiān)督學習提供的文本分類器更準確。這是一個有趣的結(jié)果,因為多項式生成模型的混合是真實創(chuàng)作過程的巨大簡化。然而,我們證明,對于某些領(lǐng)域,模型概率的優(yōu)化準則與分類精度密切相關(guān)。
本節(jié)中的實驗使用了著名的20個新聞組文本分類數(shù)據(jù)集(Mitchell,1997),它由大約20000篇均勻分布在20個新聞組中的 文章組成。任務(wù)是將文章分類到發(fā)布它的新聞組中。對于預(yù)處理,將刪除停止詞,并對每個文檔的字數(shù)進行縮放,以使每個文檔具有恒定的長度,并可能具有分數(shù)字數(shù)。由于數(shù)據(jù)具有時間戳,因此從每個新聞組的最后20%的文章中形成一個測試集。通過從剩余的樣本中隨機選擇10000件樣本,形成一個未標記的集合。標記的訓練集是通過將剩余的文檔劃分為不重疊的集而形成的。我們根據(jù)集合的大小創(chuàng)建最多10個訓練集,因為數(shù)據(jù)是可用的。當后驗?zāi)P透怕时粓蟾娌@示在圖上時,一些加性和乘性常數(shù)被丟棄,但相對值保持不變。
圖3.1顯示了將 EM 與未標記數(shù)據(jù)一起使用對該數(shù)據(jù)集的影響??v軸表示測試集上分類器的平均準確率,橫軸表示對數(shù)刻度上標記的訓練數(shù)據(jù)量。我們改變標記的訓練數(shù)據(jù)的數(shù)量,并將傳統(tǒng)的樸素貝葉斯(無未標記文檔)的分類準確度與一個能夠訪問10000個未標記文檔的em學習者進行比較。

EM 的表現(xiàn)明顯優(yōu)于傳統(tǒng)的樸素貝葉斯。例如,有300個標記的文檔(每類15個文檔),樸素貝葉斯的精確度達到52%,而 EM 的精確度達到66%。這意味著分類誤差減少了 30%。注意,即使只有很少的標記文檔,EM 也有很好的表現(xiàn);只有20個文檔(每個類只有一個標記文檔),樸素貝葉斯獲得20%,EM? 35%。正如所料,當有大量的標記數(shù)據(jù),而樸素的貝葉斯學習曲線接近平穩(wěn)時,擁有未標記的數(shù)據(jù)幾乎沒有幫助,因為已經(jīng)有足夠的標記數(shù)據(jù)來準確估計分類器參數(shù)。使用5500份標記文檔(每類275份),分類精度從76%提高到78%。這些結(jié)果均具有統(tǒng)計學意義(P<0.05)。
EM 如何找到更準確的分類器?它是通過優(yōu)化后驗?zāi)P透怕蕘韺崿F(xiàn)的,而不是直接對分類精度進行優(yōu)化。如果我們的生成模型是完美的,那么我們期望模型的概率和準確性是相關(guān)的,并且 EM 是有用的。但我們知道,我們的簡單生成模型并不能捕獲文本中包含的許多屬性。我們的20個新聞組的結(jié)果表明,我們不需要一個完美的模型來幫助 EM 進行文本分類。如果模型的概率和準確性是相關(guān)的,生成模型就足以代表文本分類的目的,從而使 EM 能夠間接地優(yōu)化準確性。
為了更明確地說明這一點,讓我們再次看看20個新聞組的實驗,并根據(jù)經(jīng)驗測量這種相關(guān)性。圖3.2顯示了散點圖中每個點的相關(guān)性,它們是圖3.1中標記的和未標記的分割之一。此處標記的數(shù)據(jù)僅用于設(shè)置初始化,在迭代期間不使用。我們將分類性能作為測試數(shù)據(jù)的準確度,并給出后驗?zāi)P透怕省?/p>
對于該數(shù)據(jù)集,分類精度和模型概率具有較好的對應(yīng)性。準確度與模型概率的相關(guān)系數(shù)為0.9798,確實是一個很強的相關(guān)性,我們可以將其作為事后驗證,證明該數(shù)據(jù)集可以通過生成模型方法使用未標記的數(shù)據(jù)。模型概率的優(yōu)化準則是適用于此的,因為它與精度是一致的。
3.4?使用更具表現(xiàn)力的生成模型
第3.2節(jié)中生成模型的第二個假設(shè)指出,混合模型中的類和組件之間存在一對一的對應(yīng)關(guān)系。在某些文本領(lǐng)域,很明顯這樣的假設(shè)是危險的??紤]文本過濾的任務(wù),我們希望從很大的文檔池或文檔流中識別一個定義良好的小類文檔。一個例子可能是一個系統(tǒng),它監(jiān)視網(wǎng)絡(luò)管理員收到的電子郵件,以識別罕見的緊急情況,這種情況需要在休假時給她打電話。將非緊急郵件建模為僅具有一個多項式分布的負類將導(dǎo)致無表達力模型。否定類包含各種副標題的電子郵件:個人電子郵件、非緊急請求、垃圾郵件等。
更具表達力的模型是什么?與其用一個單一的混合成分來模擬大量的負面例子,不如用多個成分來建模。這樣,在最大化之后,每一個負成分都可以捕獲大量的例子。本節(jié)對文本數(shù)據(jù)采用了本例所建議的方法,并放寬了混合組件和類之間一對一對應(yīng)的假設(shè)。我們將其替換為限制性較小的假設(shè):混合組件和類之間的多對一對應(yīng)。這使我們能夠模擬類的副標題結(jié)構(gòu)。
3.4.1?每類多個混合成分
新的生成模型必須考慮混合成分和類之間的多對一對應(yīng)關(guān)系。和舊模型一樣,我們首先選擇一個帶有偏壓模具輥的類。每個類都有幾個副標題;接下來我們將選擇其中一個副標題,同樣使用有偏差的骰子。既然確定了副標題,就生成了文檔中的單詞。我們首先選擇一個長度(獨立于副標題和類),然后從副標題的多項式分布中提取單詞。
與以前不同的是,現(xiàn)在每個未標記的文檔都缺少兩個值——類和副標題。即使對于標記的數(shù)據(jù),也缺少值;盡管類是已知的,但其副標題不是。由于我們無法訪問這些丟失的類和副標題標簽,因此必須使用諸如之類的技術(shù)來估計局部最大后驗(MAP)生成參數(shù)。如第3.2.2節(jié)所述,EM 被例示為迭代算法,該算法在估計缺失類和副標題標簽的值和使用估計標簽計算最大后驗(MAP)參數(shù)之間交替進行。當 EM 收斂到高概率參數(shù)估計后,生成模型可以通過使用貝葉斯規(guī)則來進行文本分類。
新的生成模型指定了混合組件和類之間的分離。現(xiàn)在,只表示第j個混合物成分(副標題),而不是用
來表示這兩個成分。我們?yōu)閷⒌?
類寫成
,當組件
屬于
類時,
,否則為0。這表示混合組件和類之間預(yù)定的、確定性的、多對一的映射。我們分別用
和
表示文檔的類標簽和副標題標簽。因此,如果文獻
是由混合成分
生成的,我們說
,如果文檔屬于
類,那么我們稱
。
如果我們的數(shù)據(jù)集知道所有的類和副標題標簽,那么為生成參數(shù)找到最大后驗(MAP)估計將是類似于第3.2.1節(jié)中的樸素貝葉斯的閉式方程的一個簡單應(yīng)用。單詞概率參數(shù)的公式與樸素貝葉斯的公式3.5相同。
? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.9)
類概率類似于等式3.6,但使用類的新符號而不是組件:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.10)
副標題的概率是相似的,除非它們是根據(jù)組件類中的其他文檔進行估計的:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.11)
在分類時,我們必須估計未標記文檔的類成員概率。這是通過首先計算副標題的成員資格,然后求和副標題以獲得總體類概率來完成的。副標題成員的計算類似于幼稚貝葉斯的混合成分成員,只需對兩個先驗(類和副主題)而不是一個先驗進行小調(diào)整即可。
? (3.12)
整個類的成員關(guān)系是用類所有副標題的概率和計算的:
? ? ? ? ? ? ? ? ? ? ? ? ?(3.13)
只有當所有培訓文件都有課堂和副標題標簽時,這些監(jiān)督學習方程才適用。沒有這些,我們使用EM。M 步,和基本em一樣,為多項式和先驗建立最大的后驗參數(shù)估計。這是用等式3.9、3.10和3.11完成的。使用前一個E步驟中估計的概率類和次主題成員身份。在E步驟中,對于未標記的文檔,我們計算概率加權(quán)的副標題和類成員身份(等式 3.12和3.13)。對于帶標簽的文檔,我們必須估計副標題成員身份。但是我們從它給出的類標簽中知道,許多子主題成員必須是零——那些屬于其他類的子主題。因此,我們計算未標記數(shù)據(jù)的子主題成員身份,但將適當?shù)某蓡T身份設(shè)置為零,并僅在屬于其類的主題上規(guī)范化非零的成員身份。
如果我們得到一組類標記的數(shù)據(jù)和一組未標記的數(shù)據(jù),我們現(xiàn)在可以應(yīng)用 EM,如果每個類都有一些指定的副標題數(shù)。但是,這些信息通常不可用。因此,我們必須借助一些技術(shù)來選擇模型。常用的模型選擇方法有交叉驗證法、阿卡克信息準則(AIC)、貝葉斯信息準則(BIC)等。由于我們確實有有限數(shù)量的標記文檔可用,因此我們使用交叉驗證來選擇分類性能的副標題數(shù)量。
表 3.1?使用傳統(tǒng)樸素貝葉斯(NB1)的Reuters二元分類器的分類精度,使用標記和未標記數(shù)據(jù)的基本 EM(EM1),使用剛標記數(shù)據(jù)的多個混合成分(NB*),以及使用標記和未標記數(shù)據(jù)的多個混合成分EM (EM*)。對于NB*和EM*,每個試驗的組分數(shù)量是最佳選擇的,括號中顯示了負類試驗的組分中間數(shù)。請注意,對于路透社來說,多成分模型更自然,因為它的否定類包含許多主題。每個類同時使用未標記的數(shù)據(jù)和多個混合組件可以提高性能,而不是單獨使用或使用樸素的貝葉斯。

3.4.2?實驗結(jié)果
這里,我們提供了經(jīng)驗證據(jù),證明在生成建模方法中使用未標記的數(shù)據(jù),有時需要更具表現(xiàn)力的生成模型。與原始生成模型相比,分類精度與模型概率呈負相關(guān),在使用未標記數(shù)據(jù)時分類精度較低。使用更具表達力的生成模型,可以獲得中等的正相關(guān),從而提高分類精度。
路透社21578發(fā)行版1.0的數(shù)據(jù)集包括大約13000篇來自路透社通訊社的新聞文章,這些文章被標記為90個主題類別。此數(shù)據(jù)集中的文檔具有多個類標簽,并且傳統(tǒng)上使用二進制分類器評估每個類別。在其他幾項研究(Joachims,1998;Liere和Tadepalli,1997)之后,我們?yōu)槭畟€人口最多的類中的每一個構(gòu)建了二進制分類器,以確定主題。我們使用了一個非索引字表,但不停止。每項 Reuters 試驗的詞匯大小都是通過優(yōu)化準確度來選擇的,這是通過在標記的訓練集上留出一個交叉驗證來測量的。使用標準的Modapte列車/測試分割,這是時間敏感的??晒┡嘤柕?603份文件中有七千份未貼標簽。從其余部分中,我們隨機選擇最多10個不重疊的訓練集,其中只有10個正標記文檔和40個負標記文檔。
表3.1中結(jié)果的前兩列重復(fù)了第3.3節(jié)中關(guān)于路透社數(shù)據(jù)集的基本em的實驗。在這里我們看到,對于大多數(shù)類別,分類精度隨著引入未標記的數(shù)據(jù)而降低。考慮到標記和未標記數(shù)據(jù)的證據(jù),對于每個路透社類別,em都發(fā)現(xiàn)了一個更為可能的模型。但是,這個更可能的模型常常對應(yīng)一個低精度的分類器,而不是我們所希望的。

圖3.3中 的第一個圖提供了對未標記數(shù)據(jù)為什么會受到損傷的理解。每類有一個混合成分,分類精度和模型概率之間的相關(guān)性非常強(r=-0.9906),但方向不對!概率較高的模型分類精度明顯較低。通過對EM發(fā)現(xiàn)的解決方案的分析,我們發(fā)現(xiàn)最可能的數(shù)據(jù)聚類有一個部分包含了大多數(shù)負面文檔,第二個部分包含了大部分正面文檔,但負面文檔明顯更多。因此,類與高概率模型不分離。
此數(shù)據(jù)集中的文檔通常具有多個類標簽。在基本的生成模型中,負類覆蓋了多達89個不同的類別。因此,期望用單一的混合成分捕獲如此廣泛的文本基礎(chǔ)是不合理的。為此,我們放松了生成模型,用一個混合成分對正類進行建模,用一個到四十個混合成分對負類進行建模,無論是否有未標記的數(shù)據(jù)。
表3.1的后半部分顯示了使用每類多個混合物生成模型的結(jié)果。注意兩個不同的結(jié)果。首先,對于單獨標記的數(shù)據(jù)(nb*),分類精度比每個類的單個組件(nb1)高。第二,對于未標記的數(shù)據(jù),新的生成模型結(jié)果(em*)通常優(yōu)于其他結(jié)果。在路透社的所有試驗中,未標記數(shù)據(jù)的增加具有統(tǒng)計學意義(p<0.05)。
表3.2 當通過交叉驗證(EM*CV)選擇組分數(shù)量時,與最佳選擇(EM*)和簡單樸素貝葉斯(NB1)相比,使用多個混合物組分的性能。注意交叉驗證通常選擇的組件太少。

對于十個混合組分,精度和模型概率之間的相關(guān)性是非常不同的。右圖3.3顯示了使用十個混合組分對負類進行建模時,精度與模型概率之間的相關(guān)性。在這里,模型概率與正確方向的分類精度之間存在中等相關(guān)性(r=0.5474)。對于這些解決方案,一個組件幾乎涵蓋了所有的正面文檔和一些(但不是很多)負面文檔。其他十個部分通過剩余的負面文檔分發(fā)。由于分類精度和模型概率是相關(guān)的,因此該模型更能代表我們的分類任務(wù)的數(shù)據(jù)。這使得通過生成模型方法可以有效地使用未標記的數(shù)據(jù)。
一個顯而易見的問題是,如何在不訪問測試集標簽的情況下自動選擇最佳數(shù)量的混合組分。我們使用“留一法交叉驗證”。與樸素貝葉斯(NB1)和最佳EM (EM*)相比,該技術(shù)(EM*CV)的結(jié)果如表3.2所示。請注意,交叉驗證并不能完美地選擇測試集上性能最佳的組件數(shù)量。結(jié)果一致地表明,通過交叉驗證選擇的組件數(shù)量比最佳組件數(shù)量少。
3.4.3?討論
模型的復(fù)雜性與數(shù)據(jù)的稀疏性之間存在著模型選擇過程中的張力,只要有大量的副標題和文檔,就可以很好地對訓練數(shù)據(jù)進行建模,每個副標題包含一個訓練文檔。由于仍然存在大量的副標題,我們可以對現(xiàn)有數(shù)據(jù)進行精確的建模,但泛化性能較差。這是因為每一個多項式將有它的許多參數(shù)估計從少數(shù)文件,并將遭受稀疏的數(shù)據(jù)。副標題很少,就會出現(xiàn)相反的問題。我們將非常準確地估計多項式,但模型將受到過度限制,不能代表真實的文檔分布。交叉驗證應(yīng)該有助于在這些緊張關(guān)系之間選擇一個很好的折衷方案,特別是在分類性能方面。
注意,我們對每個類使用多個混合組件允許我們捕獲類級別上單詞之間的一些依賴關(guān)系。例如,考慮一個體育課,它包含關(guān)于曲棍球和棒球的文檔。在這些文檔中,單詞 ice 和 puck 可能同時出現(xiàn),單詞 bat 和 base 可能同時出現(xiàn)。然而,在體育課上,這些依賴性不能通過對單詞的一個多項式分布來捕獲。每個班級有多個混合成分,一個多項式可以覆蓋曲棍球副標題,另一個則覆蓋棒球副標題。在曲棍球的副標題中,“冰和冰球”這個詞的概率比全部類別的概率要高得多。這使得它們在曲棍球文件中的共存比在單一多項式假設(shè)下更為可能。
3.5?克服局部最大值的挑戰(zhàn)
在參數(shù)空間的似然性與分類精度密切相關(guān)的情況下,我們的優(yōu)化得到了很好的分類器。然而,當?shù)氐母裱悦黠@阻礙了我們的進步。例如,我們在第3.3節(jié)中僅用幾個帶標簽的示例發(fā)現(xiàn)的局部最大值比標記數(shù)據(jù)充足時提供的分類精度低40多個百分點。因此,考慮其他有助于彌合這一差距的方法是很重要的,尤其是在標記數(shù)據(jù)稀疏的情況下。
通常情況下,為了加快收斂速度,創(chuàng)建了EM的變體或替代品(McLachlan和Krishnan,1997)。然而,在文本分類領(lǐng)域,我們已經(jīng)看到收斂速度非??臁R虼?,我們可以很容易地考慮以較慢收斂為代價來改進局部極大值情況的EM替代方案。確定性退火正是這種權(quán)衡。
3.5.1?確定性退火
確定性退火背后的直覺是,它開始于一個非常光滑的凸曲面上的最大化,而這個曲面只與我們真正感興趣的概率曲面有著極遠的聯(lián)系。最初我們可以找到這個簡單曲面的全局最大值。慢慢地,我們改變表面,使之變得更粗糙,更接近真實的概率表面。如果我們在曲面變得更復(fù)雜時遵循原始最大值,那么當給定原始曲面時,我們?nèi)匀挥幸粋€很可能的最大值。通過這種方式,它避免了許多當?shù)氐母裱?,否則他們會被抓住。
我們在前幾節(jié)中應(yīng)用 EM 可以認為是一個優(yōu)化問題,其中損失函數(shù)是似然函數(shù)的否定(等式3.8)。EM 的迭代是參數(shù)空間中的爬山算法,局部地將損失最小化。
考慮一組密切相關(guān)的損失函數(shù):? ? ??? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3.14)
其中β在0和1之間變化。當β=1時,我們熟悉前面章節(jié)的概率曲面,與分類精度有很好的相關(guān)性,但具有許多有害的局部最大值。當β接近于零時,參數(shù)空間中損失函數(shù)的表面值變成凸的,只有一個全局最大值。但在這種極端情況下,所提供的數(shù)據(jù)對損失函數(shù)沒有影響,與分類精度的相關(guān)性較差。零和一之間的值表示參數(shù)空間平滑度與數(shù)據(jù)提供的良好相關(guān)概率曲面相似性之間權(quán)衡的不同點。
這種見解是驅(qū)動所謂確定性退火方法的原因之一。(Rose等人,1992年),首次用作在無監(jiān)督集群期間構(gòu)建層次結(jié)構(gòu)的方法。它還用于從未標記的數(shù)據(jù)(Ueda和Nakano,1995)估計高斯混合體的參數(shù),并從未標記的數(shù)據(jù)構(gòu)建文本層次(Hofmann和Puzicha,1998)。
對于β的固定值,我們可以通過迭代以下步驟找到給定損失函數(shù)的局部最大值:
?E?步:計算類分派的預(yù)期值,
? ? ? ? ?(3.15)
?M?步:使用預(yù)期的類分派找到最可能的模型,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3.16)
M?步與3.2.2?節(jié)的是一樣的,而E步驟包括通過的損失約束。
在形式上,β是一個拉格朗日乘子,當根據(jù)最大熵(或先驗分布的最小相對熵)的優(yōu)化準則求解似然空間中的固定損失時。一個 ?接近于零對應(yīng)于為一個允許損失非常大的模型找到最大熵參數(shù)化。
考慮不同目標損失對模型可能性(等式3.14)的影響。當目標損失非常大時,將非常接近于零;每個模型的概率將非常接近于其先驗概率,因為數(shù)據(jù)的影響可以忽略不計。在
變?yōu)榱愕臉O限條件下,概率曲面將是凸的,具有一個全局最大值。對于較小的損失目標,
將很小,但不能忽略。在這里,數(shù)據(jù)的概率會有更大的影響,不再有單一的全局最大值,而是幾個。當β=1時,我們有前面章節(jié)中我們熟悉的概率曲面,有許多局部極大值。
這些觀察結(jié)果表明了尋找低損耗模型的退火過程。如果我們將初始化為非常小的,我們可以很容易地找到具有 EM 的全局最大后驗解,因為曲面是凸的。當我們提高β值時,概率曲面會變得更加粗糙和復(fù)雜,因為數(shù)據(jù)的可能性會對模型的概率產(chǎn)生更大的影響。雖然更復(fù)雜,但如果我們稍微降低溫度(
),新的最大值將非常接近舊的最大值。因此,當用em搜索最大值時,我們可以用舊的最大值對其進行初始化,并為新的概率曲面收斂到一個好的最大值。這樣,我們可以逐步提高
,同時跟蹤一個很可能的解。最終,當
變?yōu)?時,我們將有一個很好的生成模型假設(shè)的局部最大值。因此,我們將從標記和未標記的數(shù)據(jù)中找到一個高概率的局部最大值,然后我們可以使用它進行分類。
請注意,確定性退火的計算成本明顯高于 EM。雖然每次迭代都采用相同的計算,但由于溫度降低非常緩慢,確定性退火的迭代次數(shù)更多。例如,在我們的實驗中,我們對確定性退火進行了390次迭代,對只進行了7次迭代。當能夠提供額外的計算時,這樣做的好處可能是分類器更加精確。
3.5.2?實驗結(jié)果
在這一節(jié)中,我們從經(jīng)驗上看到,當標記的訓練數(shù)據(jù)稀疏時,確定性退火比EM找到更可能的參數(shù)和更準確的分類器。
對于實驗結(jié)果,我們使用 News5 數(shù)據(jù)集,它是20個新聞組的一個子集,其中包含五個容易混淆的comp.*類。我們?yōu)樗械膶嶒灤_定了一個單一的詞匯表,作為在整個標記數(shù)據(jù)集上通過相互信息測量的前4000個單詞。為了運行這個確定性退火算法,我們初始化?為 0.02,我通過乘以一個因子 1.01?增加?
?的值直到?
。我們幾乎沒有努力調(diào)整這些參數(shù)。因為每次我們增加?
?的概率表面變化很小,我們在每個溫度設(shè)置下只運行一次?EM 迭代。每類600份隨機文件(共3000份)視為未貼標簽。每個類固定數(shù)量的標記示例也隨機選擇。其余文檔用作測試集。

圖3.4比較了確定性退火與常規(guī)EM的分類精度。最初的結(jié)果表明,當標記數(shù)據(jù)豐富時,這兩種方法的性能基本相同,但當標記數(shù)據(jù)為稀疏。例如,每個類有兩個標記的例子(總共十個),EM 給出58%的準確度,而確定性退火只給出51%。對混淆矩陣的深入研究表明,當標記數(shù)據(jù)稀疏時,與確定性退火的類對組件不正確對應(yīng)存在顯著的不利影響。這是因為,當溫度非常高時,全局最大值將使每個多項式混合分量非常接近其先驗值,并且標記數(shù)據(jù)的影響最小。由于先驗是相同的,所以每個混合成分基本上是相同的。隨著溫度的降低,混合成分變得更加明顯,當沒有足夠的標記數(shù)據(jù)將簇拉向正確的類時,一個組件可以輕松地跟蹤與錯誤類關(guān)聯(lián)的聚類。
為了解決這個問題,我們在完成確定性退火之后,根據(jù)每個標記示例的分類,將類更改為集群對應(yīng)關(guān)系。圖3.4顯示了通過經(jīng)驗選擇的對應(yīng)關(guān)系獲得的精度,以及通過完全對應(yīng)關(guān)系獲得的最佳精度。我們發(fā)現(xiàn),通過經(jīng)驗設(shè)置對應(yīng)關(guān)系,確定性退火只會略微提高精度,在得到51%之前,通過改變對應(yīng)關(guān)系,我們將其提高到55%,在58%時仍不優(yōu)于 EM。然而,如果我們能夠執(zhí)行完美的類對應(yīng),確定性退火的精度將是67%,遠遠高于 EM。

為了驗證確定性退火的更高精度來自于尋找更可能的模型,圖3.5顯示了確定性退火(具有最優(yōu)類分配)和 EM 的模型概率與精度的散點圖。兩個值得注意的結(jié)果非常突出。第一個問題是,確實確定性退火發(fā)現(xiàn)了更可能的模型,即使有少量的標記數(shù)據(jù)。這說明了確定性退火的額外準確性。第二個值得注意的是,通過確定性退火發(fā)現(xiàn)的模型仍然沿著相同的概率精度相關(guān)線。這進一步證明了模型的概率和準確性與此數(shù)據(jù)集有很強的相關(guān)性,并且相關(guān)性不僅僅是電磁干擾的產(chǎn)物。
3.5.3?討論
實驗結(jié)果表明,如果解決了類與組件之間的對應(yīng)關(guān)系,確定性退火確實可以幫助分類。確定性退火成功地避免了陷入局部極大值的不足,而是找到了更可能的模型。由于這些高概率模型與高精度分類器相關(guān),因此確定性退火可以很好地利用未標記的數(shù)據(jù)進行文本分類。
當只有有限的標記數(shù)據(jù)時,類對應(yīng)問題最為嚴重。這是因為在標簽較少的例子中,小的干擾更可能導(dǎo)致通信誤入歧途。然而,只要有一點人類的知識,班級通信問題通常可以解決瑣碎。在除最大和最令人困惑的分類任務(wù)外的所有分類任務(wù)中,根據(jù)最具指示性的單詞(如加權(quán)對數(shù)似然比)等度量標準來衡量),可以很容易地識別一個類。例如,表3.3 中顯示了按此度量設(shè)置的每類數(shù)據(jù)的前十個詞。僅從這十個詞來看,任何一個擁有一點點領(lǐng)域知識的人都可以很好地為組件分配類。因此,在確定性退火完成之后,需要少量的人力來糾正類對應(yīng)關(guān)系并不是不合理的。這項工作可以定位在主動學習框架內(nèi)。因此,當標記的訓練數(shù)據(jù)最稀疏,并且培訓師可以適當投資將類標簽映射到集群組件時,確定性退火將成功地找到比傳統(tǒng) EM 更可能和更準確的模型。
即使這個有限的領(lǐng)域知識或人力資源不可用,也應(yīng)該可以自動估計類的對應(yīng)關(guān)系??梢詫?shù)據(jù)執(zhí)行?EM 和確定性退火。