p293 - p319
啊好困 = =
昨天倒是很早滾上床了
就是失眠了:)
大概也是三點(diǎn)多才睡著吧
所以今天也要努力早睡!
不廢話了,進(jìn)入第13章,但愿這章有意思點(diǎn)。
第13章 半監(jiān)督學(xué)習(xí)
13.1 未標(biāo)記樣本
主動(dòng)學(xué)習(xí)
拿少量數(shù)據(jù)訓(xùn)練一個(gè)模型,拿這個(gè)模型去挑瓜。然后詢問(wèn)瓜農(nóng)這個(gè)瓜好不好。
這樣挑少量的瓜,用很少量的專業(yè)知識(shí)就能獲得不錯(cuò)的模型。
顯然這樣引入了額外信息
半監(jiān)督學(xué)習(xí)
不依賴外界交互,自動(dòng)利用未標(biāo)記樣本。
事實(shí)上,未標(biāo)記樣本雖然沒(méi)有標(biāo)記,但如果他們是和有標(biāo)記樣本是從同樣的數(shù)據(jù)源獨(dú)立同分布采樣而來(lái),那對(duì)訓(xùn)練是大有裨益的,因?yàn)榭梢垣@得和分布有關(guān)的信息。
常見(jiàn)的假設(shè):聚類假設(shè),流形假設(shè)(聚類假設(shè)的推廣)。
純半監(jiān)督學(xué)習(xí)
利用有標(biāo)記數(shù)據(jù)A與未標(biāo)記數(shù)據(jù)B來(lái)預(yù)測(cè)其他的數(shù)據(jù)C
直推學(xué)習(xí)
利用有標(biāo)記數(shù)據(jù)A與未標(biāo)記數(shù)據(jù)B來(lái)預(yù)測(cè)未標(biāo)記數(shù)據(jù)B
13.2 生成式方法
直接基于生成式模型的方法。
此類方法假設(shè)所有數(shù)據(jù)(無(wú)論有無(wú)標(biāo)記)都是由同一個(gè)潛在的模型生成的。
未標(biāo)記數(shù)據(jù)可以當(dāng)做“缺失參數(shù)”
可基于EM算法進(jìn)行求解。詳細(xì)過(guò)程見(jiàn)p295 - 298
13.3 半監(jiān)督SVM
半監(jiān)督SVM,簡(jiǎn)稱S3VM
若不考慮未標(biāo)記樣本,S3VM試圖找到最大間隔劃分超平面。
考慮未標(biāo)記樣本,S3VM試圖找到能將兩類有標(biāo)記樣本分開(kāi)
且穿過(guò)數(shù)據(jù)低密度區(qū)域的劃分超平面。
顯然這里基于了“低密度分隔”假設(shè)
S3VM中最著名的是TSVM
TSVM試圖考慮對(duì)未標(biāo)記樣本進(jìn)行各種可能的標(biāo)記指派,即嘗試將樣本都標(biāo)起來(lái),然后在所有結(jié)果中尋求一個(gè)在所有樣本上間隔最大化的劃分超平面。
超平面確定了,對(duì)應(yīng)的指派的標(biāo)記就是結(jié)果。
顯然這樣效率低,只適合數(shù)據(jù)量較少時(shí)。
TSVM采用局部搜索來(lái)迭代求解。
見(jiàn)p300 圖13.4算法偽碼
所以說(shuō)半監(jiān)督SVM研究的一個(gè)重點(diǎn)是如何設(shè)計(jì)出高效的優(yōu)化求解策略,如基于圖核函數(shù)梯度下降的LDS、基于標(biāo)記均值估計(jì)的meanS3VM。
13.4 圖半監(jiān)督學(xué)習(xí)
一個(gè)數(shù)據(jù)集,可以映射成一個(gè)圖。若兩個(gè)樣本之間相似度很高,那么節(jié)點(diǎn)間存在一條邊,邊的‘強(qiáng)度’正比于樣本之間的相似度。
我們可將有標(biāo)記樣本所對(duì)應(yīng)的節(jié)點(diǎn)視為染過(guò)色,未標(biāo)記視為沒(méi)染過(guò)色。
變成了一個(gè)顏色傳播或擴(kuò)散的過(guò)程。
定義高斯函數(shù)來(lái)決定邊。
定義能量函數(shù),能量函數(shù)最小化時(shí)得到最優(yōu)結(jié)果。
算法詳細(xì)過(guò)程見(jiàn)p301-304
算法偽碼見(jiàn)p303 圖13.5
考慮到有標(biāo)記很少,未標(biāo)記很多,容易過(guò)擬合。
可加入L2范數(shù)項(xiàng)。
13.5 基于分歧的方法
使用多學(xué)習(xí)器。
學(xué)習(xí)器之間的“分歧”是重點(diǎn)。
“協(xié)同訓(xùn)練”是重要代表。最初是針對(duì)“多視圖”數(shù)據(jù)設(shè)計(jì)的。
一個(gè)數(shù)據(jù)對(duì)象往往同時(shí)擁有多個(gè)“屬性集”,每個(gè)屬性集就是一個(gè)“視圖”。
如圖像畫(huà)面屬性集、聲音信息屬性集。
假設(shè)不同視圖具有相容性,即他們所預(yù)測(cè)的結(jié)果集是相同的。
這時(shí)如果同時(shí)考慮兩個(gè)屬性集,有時(shí)效果就很好。
比如畫(huà)面+聲音
假設(shè)數(shù)據(jù)獨(dú)立且充分。
首先在每個(gè)視圖上訓(xùn)練一個(gè)學(xué)習(xí)器。
然后讓每個(gè)分類器挑出自己最有把握的未標(biāo)記樣本賦予“偽標(biāo)記”
把偽標(biāo)記樣本拿去給其他學(xué)習(xí)器訓(xùn)練更新。
這樣互相學(xué)習(xí)互相進(jìn)步直至收斂。
過(guò)程看似簡(jiǎn)單,但若兩個(gè)視圖充分且獨(dú)立,則精度可以任意高。
協(xié)同訓(xùn)練本身是為多視圖數(shù)據(jù)設(shè)計(jì)的,但后來(lái)也出現(xiàn)了能在單視圖數(shù)據(jù)上使用的變體算法。
協(xié)同訓(xùn)練算法偽碼 p306 圖13.6
13.6 半監(jiān)督聚類
聚類本身是無(wú)監(jiān)督學(xué)習(xí)的代表,但現(xiàn)實(shí)中我們有時(shí)是有監(jiān)督信息的。
監(jiān)督信息大致兩種類型:
1)“必連”與“勿連”約束。即有些必屬于一個(gè)族、或必不屬于一個(gè)族
2)少量有標(biāo)記樣本(指簇標(biāo)記)。
針對(duì)第一種監(jiān)督信息,約束k均值算法。即訓(xùn)練過(guò)程中保證約束。
偽碼p307 圖13.7
針對(duì)第二種監(jiān)督信息,約束種子k均值算法。
半監(jiān)督是非常常用的思想。