1.1 監(jiān)督、非監(jiān)督、半監(jiān)督機器學(xué)習
為了理解半監(jiān)督學(xué)習的本質(zhì),了解下監(jiān)督和非監(jiān)督學(xué)習是很有幫助的。
1.1.1 監(jiān)督與非監(jiān)督學(xué)習
傳統(tǒng)上,機器學(xué)習有兩個完全不同類別的任務(wù)。
第一就是非監(jiān)督學(xué)習。設(shè)?為 n 個樣本的數(shù)據(jù)集,這兒?
?對所有?
。典型地它假設(shè)所有數(shù)據(jù)點服從一個?
?上的獨立同分布。通常非常方便,定義 (n x d)矩陣?
其中行表示數(shù)據(jù)點。非監(jiān)督學(xué)習的目標是找到數(shù)據(jù)集?
有意義的結(jié)構(gòu)。有人認為,非監(jiān)督學(xué)習的問題基本上是估計一個可能產(chǎn)生
的密度。然而,無監(jiān)督學(xué)習也有較弱的形式,如分位數(shù)估計、聚類、離群值檢測和維數(shù)約簡。
第二個任務(wù)就是監(jiān)督學(xué)習。其目標是,給定一個由對構(gòu)成的訓(xùn)練集,學(xué)習一個從 x 到 y 的映射。這兒,
?被叫做樣本?
?的標簽或目標。如果這些標簽是數(shù)字,
表示標簽的列向量。同樣,標準要求是
從分布在
上的一些分布中采樣的。任務(wù)定義得很好,因為映射可以通過它對測試示例的預(yù)測性能來評估。當
?或
(或更通常地,當標簽是連續(xù)地的時候),這些任務(wù)被稱作回歸。本書將主要關(guān)注分類,即,y 的取值有限(離散標簽)的情況。監(jiān)督學(xué)習有兩族算法,生成算法試圖通過一些無監(jiān)督的學(xué)習過程對類條件密度
進行建模。利用貝葉斯定理可以推導(dǎo)出預(yù)測密度:
? ? ? ? (1.1)
實際上,?是生成數(shù)據(jù)對?
的數(shù)據(jù)的聯(lián)合密度。判別式算法不嘗試估計
是如何生成的,而是集中于估計
。有些判別式模型甚至限制自己僅擬合
是否大于或小于0.5,其中的一個例子就是支持向量機(SVM)。有人認為,判別式模型更直接地符合監(jiān)督學(xué)習的目標,因此在實踐中往往更有效率。這兩種架構(gòu)將在 2.2.1 和2.2.2 章節(jié)深入探討。
1.1.2 半監(jiān)督學(xué)習
半監(jiān)督學(xué)習(SSL)介于監(jiān)督學(xué)習和半監(jiān)督學(xué)習之間。對于沒有標記的數(shù)據(jù)來說,該算法提供了一些監(jiān)督信息,但不一定適用于所有示例。通常,這些信息會是與一些樣本相關(guān)聯(lián)的指標,這種情況下,數(shù)據(jù)集?可分為兩部分:點集?
,對應(yīng)標簽?
會被提供;和點集?
對應(yīng)標簽不知道。這是本書中研究的“標準”半監(jiān)督學(xué)習;大多數(shù)章節(jié)都會提到這種設(shè)置。
其它形式的部分監(jiān)督也是可能的。例如,可能有些限制如“這些樣本點有(或沒有)一樣的指標”(Abu-Mostafa, 1995)。這類更一般的設(shè)置將在第 5 章探討。不同的設(shè)置對應(yīng)著對半監(jiān)督學(xué)習的不同觀點:在第 5 章,SSL 被看著是由限制引導(dǎo)的非監(jiān)督學(xué)習。相比之下,大多數(shù)其他方法將 SSL 視為有監(jiān)督的學(xué)習,并提供有關(guān)示例x分布的附加信息。后者的解釋似乎更符合大多數(shù)應(yīng)用,其目標和監(jiān)督學(xué)習的一樣:預(yù)測一個給定的的目標值。然而,如果事先不知道類的數(shù)量和性質(zhì),但必須從數(shù)據(jù)中推斷,則不容易應(yīng)用此看法。對比之下,作為帶有約束的無監(jiān)督學(xué)習的 SSL 可能仍然適用于這種情況。
幾十年前,Vapnik 已經(jīng)提出了一個與 SSL 相關(guān)的問題:所謂的轉(zhuǎn)導(dǎo)學(xué)習。在這種設(shè)定中,會提供一個(標記過的)訓(xùn)練集和一個(未標記的)測試集。轉(zhuǎn)導(dǎo)的理念是只對測試點進行預(yù)測。這與歸納學(xué)習不同,歸納學(xué)習的目標是輸出一個在整個空間上定義的預(yù)測函數(shù)。本書中描述的許多方法都是轉(zhuǎn)導(dǎo)的;特別是,這對于基于數(shù)據(jù)圖形表示的推理更加自然,這一問題將在第1.2.4節(jié)中再次討論。
1.1.3 半監(jiān)督學(xué)習簡史
或許最早提出在分類中使用非標記數(shù)據(jù)的是自我學(xué)習,這也被稱為自我訓(xùn)練、自我標記或決策導(dǎo)向?qū)W習。這是一種包裝算法,它重復(fù)使用有監(jiān)督的學(xué)習方法。開始只使用有標簽數(shù)據(jù)進行訓(xùn)練,每一步都有一部分未標記數(shù)據(jù)點根據(jù)當前的決策函數(shù)進行標記;然后監(jiān)督學(xué)習器使用自己的預(yù)測作為標記數(shù)據(jù)點重新訓(xùn)練。這種思想在資料里已經(jīng)出現(xiàn)了一段時間了(如:Scudder(1965); Fralick (1967); Agrawala (1970))。
自我學(xué)習的一個不令人滿意的方面是包裝的效果取決于包裝內(nèi)部使用的監(jiān)督方法。如果將自學(xué)習與經(jīng)驗風險最小化和1-0-損失相結(jié)合,則未標記的數(shù)據(jù)對解完全沒有影響。如果使用的是邊際最大化方法,那么決策邊界將被推離未標記的點(參見第6章)。在其他情況下,似乎不清楚自我學(xué)習到底在做什么,以及它對應(yīng)的假設(shè)是什么。
與半監(jiān)督學(xué)習密切相關(guān)的是由 Vapnik(vapnik chervonenkis,1974年;推理 Vapnik和Sterin,1977年)開創(chuàng)的推理或轉(zhuǎn)導(dǎo)概念。與歸納推理相比,不推斷一般的決策規(guī)則,只預(yù)測未標記(或測試)點的標簽。Hartley 和 Rao(1968)已經(jīng)提出了一個早期的轉(zhuǎn)導(dǎo)實例(盡管沒有明確地將其視為一個概念)。他們建議在測試點的標簽上進行組合優(yōu)化,以最大化其模型的可能性。
在20世紀70年代,當考慮到用未標記數(shù)據(jù)估計費希爾線性判別規(guī)則時,半監(jiān)督學(xué)習似乎真的開始了(Hosmer, 1973; McLachlan, 1977; O’Neill, 1978; McLachlan and Ganesalingam, 1982)。更準確地說,設(shè)置是在每一類條件密度是高斯分布的情況下,協(xié)方差矩陣相等。然后,在期望最大化(EM)算法等迭代算法的幫助下,使用標記和未標記的數(shù)據(jù)最大化模型的可能性(Dempster et al., 1977)。在(Cooper和Freeman,1970年)中,人們研究了使用標記和未標記數(shù)據(jù)估計的多項式分布的混合分布,而不是估計高斯分布的混合分布。
后來,這種每類一個組件的設(shè)置已擴展到每類幾個組件(Shahshahani和Landgrebe,1994年),并由Miller和Uyar(1997年)進一步推廣。
Ratsaby和Venkatesh(1995年)為兩個高斯混合分布的半監(jiān)督學(xué)習推導(dǎo)了一個可能近似正確(PAC)框架中的學(xué)習率。在可識別混合分布的情況下,Castelli和Cover(1995)表明,對于無限多的未標記點,錯誤概率對Bayes風險具有指數(shù)收斂性(即標記示例的數(shù)量)??勺R別意味著給定,在
中分解是唯一的。這似乎是一個相對強的假設(shè),但它是滿足的,例如,高斯混合分布。相關(guān)的是(Castelli和Cover,1996)中的分析,其中類別條件密度已知,而類別先驗密度則不知道。
最后,在20世紀90年代,人們對半監(jiān)督學(xué)習的興趣增加了,這主要是由于在自然語言問題和文本分類中的應(yīng)用(Yarowsky,1995; Nigam et al., 1998; Blum and Mitchell, 1998; Collins and Singer, 1999;Joachims, 1999)。
注意,據(jù)我們所知,Merz等人(1992)是第一個使用“半監(jiān)督”一詞對有標簽和無標簽數(shù)據(jù)進行分類的。事實上,它以前曾被使用過,但與本書中開發(fā)的內(nèi)容不同;例如,參見(Board和Pitt,1989)。
1.2 什么時候適用半監(jiān)督學(xué)習?
一個自然的問題是:半監(jiān)督學(xué)習有用嗎?更準確地說,與僅使用有標記數(shù)據(jù)的監(jiān)督算法相比,人類能指望加入非標簽數(shù)據(jù)后獲得更精確的預(yù)測嗎?你可能從本書的尺寸猜到了,肯定的答案是 “是”。然而,有一個重要的先決條件:這些非標記樣本的分布有助于闡釋與之相關(guān)的分類問題。
在一個更為數(shù)學(xué)的公式中,我們可以說,通過未標記的數(shù)據(jù)獲得的關(guān)于的知識必須攜帶在
推斷中有用的信息。如何不是這樣的,半監(jiān)督學(xué)習相對監(jiān)督學(xué)習將不會獲得提升。甚至有可能使用未標記的數(shù)據(jù)會誤導(dǎo)推斷,從而降低預(yù)測精度,第4章詳細研究了這種效應(yīng)。
因此,人們不應(yīng)該太驚訝,對于半監(jiān)督學(xué)習工作,不得不做出一些假設(shè)。在這種情況下,請注意,簡單的監(jiān)督平滑性學(xué)習也必須依賴于假設(shè)。事實上,第22章討論了一種假設(shè)的方法,在一個PAC風格的框架內(nèi)將下面給出的假設(shè)形式化,其中一個最流行的假設(shè)可以表述如下。監(jiān)督學(xué)習的平穩(wěn)假設(shè):如果兩個點相近,對應(yīng)的輸出?
也應(yīng)該相近。
顯然,如果沒有這樣的假設(shè),將永遠不可能從一個有限的訓(xùn)練集歸納為一組可能無限多的未看到的測試用例。
1.2.1 半監(jiān)督學(xué)習的平穩(wěn)架設(shè)
我們現(xiàn)在提出一個光滑假設(shè)的推廣,這對半監(jiān)督學(xué)習是有用的;我們稱它為 “半監(jiān)督平滑假設(shè)”。在監(jiān)督學(xué)習的情況下,根據(jù)我們先前的信念,輸出隨距離平穩(wěn)變化,我們現(xiàn)在也考慮到輸入的密度。這個假設(shè)就是標記函數(shù)在高密度區(qū)域比在低密度區(qū)域更平滑。
半監(jiān)督學(xué)習平滑假設(shè):如果兩個輸入點在高密度區(qū)域是相近的,則對應(yīng)的輸出?
?也應(yīng)該是相近的。
注意,通過傳遞性,這一假設(shè)意味著,如果兩個點通過高密度路徑連接(例如,如果它們屬于同一個簇),那么它們的輸出可能很接近。另一方面,如果它們被一個低密度區(qū)域隔開,那么它們的輸出就不需要很接近。
注意,半監(jiān)督平穩(wěn)性假設(shè)適用于回歸和分類。在下一節(jié)中,我們將展示在分類的情況下,它簡化為SSL中常用的假設(shè)。目前,對于回歸問題,這個假設(shè)的用處還不太清楚。作為替代方案,第23章提出了一種使用未標記數(shù)據(jù)進行模型選擇的方法,該方法適用于回歸和分類。
1.2.2 聚類假設(shè)
假設(shè)我們知道一個類的點傾向于形成一個簇。然后這些非標記數(shù)據(jù)應(yīng)該有助于更精確地找到每個類的邊界:我們可以運行一個聚類算法然后使用標記數(shù)據(jù)為每個簇分配一個類別。這實際上最早的一種半監(jiān)督學(xué)習形式。基本的,現(xiàn)在是經(jīng)典的,假設(shè)可以表述如下:聚類假設(shè),如果點在同一個簇,這些點很大可能屬于同一個類別。
基于純粹的類別存在,這種假設(shè)是合理的:如果有一個數(shù)量密集的物體連續(xù)體,它們似乎不太可能被區(qū)分為不同的類別。
注意,聚類假設(shè)并不意味著每個類形成一個單一的、緊湊的簇:它只意味著,通常,我們不觀察同一簇中兩個不同類的對象。
聚類假設(shè)可以用等價的方式表述:低密度分割:決策邊界應(yīng)該位于低密度區(qū)域。
等價性很容易看出:高密度區(qū)域中的決策邊界將一個簇劃分為兩個不同的類;同一個簇中的許多不同類的對象將需要決策邊界來分割該群聚,即通過一個高密度區(qū)域。
盡管這兩個公式在概念上是等效的,但它們可以激發(fā)不同的算法,正如我們將在1.3節(jié)中討論的那樣。低密度版本還提供了額外的直覺,為什么這個假設(shè)在許多現(xiàn)實問題中是合理的。例如,考慮數(shù)字識別,假設(shè)您想學(xué)習如何區(qū)分手寫數(shù)字“0”和數(shù)字“1”。從決策邊界精確地獲取的樣本點將介于0和1之間,很可能是一個看起來像非常長的零的數(shù)字。但有人寫下這個“奇怪”數(shù)字的概率很小。
1.2.3 流形學(xué)習假設(shè)
構(gòu)成幾種半監(jiān)督流形學(xué)習方法基礎(chǔ)的一個不同但相關(guān)的假設(shè)是流形假設(shè):
流形學(xué)習假設(shè):(高緯的)數(shù)據(jù)在低維流形上的映射。
這如何有用呢?許多統(tǒng)計方法和學(xué)習算法的一個眾所周知的問題是所謂的維度性詛咒。這與容量隨維數(shù)呈指數(shù)增長這一事實有關(guān),而對于諸如密度的可靠估計等統(tǒng)計任務(wù),則需要以指數(shù)增長的方式來采樣。這是一個直接影響基于輸入空間密度估計的生成方法的問題。一個高維度的相關(guān)問題,對判別式方法來說可能更為嚴重,這就是成對的距離趨向于變得更相似,因而表現(xiàn)力也更低。
然而,如果數(shù)據(jù)恰好位于低維流形上,那么學(xué)習算法基本上可以在相應(yīng)維的空間中運行,從而避免了維數(shù)的詛咒。
如上所示,我們認為,處理流形的算法可以看作是近似地實現(xiàn)半監(jiān)督平滑假設(shè):這種算法使用流形的度量來計算測地距離。如果我們將流形視為高密度區(qū)域的近似值,那么很明顯,在這種情況下,半監(jiān)督平滑假設(shè)減少到應(yīng)用于流形的監(jiān)督學(xué)習的標準平滑假設(shè)。
請注意,如果流形以彎曲的方式嵌入高維輸入空間(即,它不僅僅是子空間),測地距離與輸入空間中的距離不同。通過確保更精確的密度估計和更合適的距離,流形假設(shè)可能對分類和回歸有用。
1.2.4 轉(zhuǎn)導(dǎo)
如前所述,一些算法自然地在一個轉(zhuǎn)換的環(huán)境中運行。根據(jù)Vapnik提出的原理,高維估計問題應(yīng)該嘗試遵循以下原則:
Vapnik 原理:當試圖解決某個問題時,不應(yīng)把解決更困難的問題作為中間步驟。
以監(jiān)督學(xué)習為例,其中需要根據(jù)對象預(yù)測對應(yīng)的標簽
。生成式模型將
的密度作為中間步驟進行估計,而判別式方法則直接對標簽進行估計。
相似地,如果標簽預(yù)測只需要一個給定的測試集,可以認為轉(zhuǎn)導(dǎo)比歸納更直接:而歸納法在整個空間上推斷函數(shù)
,然后返回在測試點上,
的評估包括直接估計測試標簽的有限集合,即僅在測試集上定義的函數(shù)
。請注意,轉(zhuǎn)導(dǎo)(如本書中定義的)與 SSL 不同:有些半監(jiān)督算法是轉(zhuǎn)導(dǎo)的,而另一些則是歸納的。
現(xiàn)在假設(shè)我們得到了一個轉(zhuǎn)導(dǎo)算法,它產(chǎn)生了一個優(yōu)于對相同標記數(shù)據(jù)(但丟棄未標記數(shù)據(jù))進行訓(xùn)練的歸納算法的解。那么,性能差異可能是由于以下兩點之一(或兩者的組合)造成的:
1.?轉(zhuǎn)導(dǎo)比歸納更接近 Vapnik 原理,或者
2.?該轉(zhuǎn)導(dǎo)算法以類似于半監(jiān)督學(xué)習算法的方式利用未標記數(shù)據(jù)。
有充分的證據(jù)表明,由于上述第二點,正在進行改進。我們目前不知道有選擇地支持第一點的經(jīng)驗結(jié)果。尤其是,與本書(第21章)相關(guān)的基準的評估似乎并不表明轉(zhuǎn)導(dǎo)方法的系統(tǒng)優(yōu)勢。然而,轉(zhuǎn)導(dǎo)的性質(zhì)仍然是爭論的話題,第25章試圖提出不同的觀點。
1.3 算法族和本書的結(jié)構(gòu)
盡管許多方法并不是從上述假設(shè)中直接推導(dǎo)出來的,但大多數(shù)算法可以被視為對應(yīng)或?qū)崿F(xiàn)其中的一個或多個。我們試圖將本書中介紹的半監(jiān)督學(xué)習方法組織成四個大致符合基本假設(shè)的類。雖然分類并不總是唯一的,但是我們希望這個組織通過提供一個指導(dǎo)方案,使讀者能夠更容易地了解這本書及其內(nèi)容。
出于同樣的原因,這本書被組織成“部分”,每類SSL算法都有一個部分,另外一個部分關(guān)注生成方法。接下來的兩個部分將介紹SSL的應(yīng)用程序和前景。在下面,我們簡要介紹每本書的每一部分所涵蓋的思想。
1.3.1 生成式模型
第一部分用生成式模型介紹了SSL的歷史和發(fā)展現(xiàn)狀。第2章從對該領(lǐng)域的全面回顧開始。
使用生成式模型的推理涉及條件密度的估計。在這個設(shè)置中,關(guān)于
的任何附加信息都是有用的。作為一個簡單的例子,假設(shè)
是高斯分布的。然后利用EM算法求出各類對應(yīng)的高斯參數(shù)。與用于聚類的標準EM算法的唯一區(qū)別是,與任何帶標簽的示例關(guān)聯(lián)的“隱藏變量”實際上不是隱藏的,它是已知的,并且等于它的類標簽。它聚類集群假設(shè)(參見第2.2.1節(jié)),因為給定簇只屬于一個類。
這個小例子已經(jīng)強調(diào)了使用生成式模型的半監(jiān)督學(xué)習的不同解釋:
它可以被看作是一種分類,并提供有關(guān)邊緣密度的附加信息。
它可以看作是帶有附加信息的聚類。在標準設(shè)置中,這些信息將是點的子集的標簽,但也可以是更通用的約束形式。這是第5章的主題。
生成式方法的一個優(yōu)點是,通過對問題的結(jié)構(gòu)或數(shù)據(jù)進行建模,可以自然地將其結(jié)合起來。在第三章中,對EM算法在文本數(shù)據(jù)中的應(yīng)用進行了說明。結(jié)果表明,當建模假設(shè)不正確時,未標記的數(shù)據(jù)會降低預(yù)測精度。第四章對這種效應(yīng)進行了深入的研究。
在統(tǒng)計學(xué)習中,在進行推理之前,選擇一類函數(shù)或先驗函數(shù)。我們必須根據(jù)預(yù)先知道的問題來選擇它。在半監(jiān)督學(xué)習環(huán)境下,如果對數(shù)據(jù)結(jié)構(gòu)對目標函數(shù)的描述有一定的了解,那么在看到未標記的數(shù)據(jù)后,可以更精確地選擇該先驗函數(shù):通常可以對滿足集群假設(shè)的函數(shù)設(shè)置更高的先驗概率。從理論上講,這是一種自然的方法來獲得半監(jiān)督學(xué)習的界限,如第22章所述。
1.3.2 低密度分割
本書的第二部分旨在描述通過將決策邊界推離未標記點來直接實現(xiàn)低密度分離假設(shè)的算法。
實現(xiàn)這一目標的最常見的算法是使用一個最大邊緣算法如支持向量機。最大化未標記點和標記點的邊緣的方法稱為轉(zhuǎn)導(dǎo)SVM(TSVM)。然而,相應(yīng)的問題是非凸的,因此難以優(yōu)化。
第6章給出了一種TSVM的優(yōu)化算法。從只對標記數(shù)據(jù)進行訓(xùn)練的支持向量機解決方案開始,通過支持向量機預(yù)測對未標記的點進行標記,并對所有點進行支持向量機再訓(xùn)練。當未標記點的權(quán)重緩慢增加時,將重復(fù)此過程。另一種可能是第7章中建議的半定規(guī)劃SDP松弛。
然后,提出了兩種不同于TSVM的方案,分別在概率論和信息論框架中進行闡述。在第8章中,二元高斯過程分類通過引入一個占據(jù)兩個正則類之間空間的空類來進行擴充。與TSVM相比,這是一個優(yōu)勢,允許概率輸出。
這一優(yōu)勢由第9章提出的熵最小化所共享。它鼓勵類條件概率在標記和未標記的點上接近1或0。作為平滑假設(shè)的結(jié)果,在任何高密度區(qū)域,概率都趨向于接近0或1,而類邊界對應(yīng)于中間概率。
使用熵或信息的另一種方法是第10章中開發(fā)的與數(shù)據(jù)相關(guān)的正則化。與TSVM相比,這似乎更直接地實現(xiàn)了低密度分離:標準平方范數(shù)正則化器乘以一個反映接近決策邊界的密度的項。
1.3.3 基于圖的方法
在過去的幾年中,半監(jiān)督學(xué)習最活躍的研究領(lǐng)域是基于圖的方法,這是本書第三部分的主題。這些方法的共同點是,數(shù)據(jù)由圖的節(jié)點表示,圖的邊緣用事件節(jié)點的成對距離標記(缺失的邊緣對應(yīng)無限距離)。如果兩個點的距離是通過最小化連接兩個點的所有路徑上的總路徑距離來計算的,則可以將其視為兩個點相對于數(shù)據(jù)點流形的測地線距離的近似值。因此,圖方法可以論證為建立在流形假設(shè)的基礎(chǔ)上。
大多數(shù)的圖形方法都是利用拉普拉斯圖來表示圖形。設(shè)??是一個由
給出實際邊權(quán)的圖:
。這兒,邊
的權(quán)重?
指示事件節(jié)點的相似性(丟失的邊緣與零相似性相關(guān))?,F(xiàn)在圖
的加權(quán)鄰接矩陣(簡稱權(quán)重矩陣)
定義為?
? ? ? ? ? ? ? ?(1.2)
由?定義的對角矩陣
被稱為
的度矩陣?,F(xiàn)在定義拉普拉斯圖的方法有很多種,其中最突出的兩種是歸一化拉普拉斯圖
和非歸一化拉普拉斯圖,
:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1.3)
許多懲罰加權(quán)圖邊緣非光滑性的圖方法,回顧起來可以看作是一個相當普通的算法家族的不同實例,如第11章所述。第13章從更為理論的角度出發(fā),將光滑性的概念從連續(xù)情況轉(zhuǎn)移到圖上,作為離散情況。在此基礎(chǔ)上,提出了基于數(shù)據(jù)圖形表示的不同正則化器。
通常,預(yù)測由未標記節(jié)點的標簽組成。因此,這種算法本質(zhì)上是轉(zhuǎn)導(dǎo)的,即只返回未標記點上的決策函數(shù)值,而不返回決策函數(shù)本身。然而,正如第12章所討論的,為了擴展基于圖的方法來產(chǎn)生歸納解,最近已經(jīng)有了一些工作。
圖上的信息傳播還可以改進給定的(可能是嚴格監(jiān)督的)分類,同時考慮到未標記的數(shù)據(jù)。第14章介紹了一種以這種方式使用有向圖的概率方法。
圖通常是通過計算其他表示形式中對象的相似性來構(gòu)建的,例如,在歐幾里得數(shù)據(jù)點上使用核函數(shù)。但有時原始數(shù)據(jù)已經(jīng)有了圖形的形式。例子包括網(wǎng)頁的鏈接模式和蛋白質(zhì)的相互作用(見第20章)。在這種情況下,邊緣的方向性可能很重要。
1.3.4 表示的變化
第四部分的主題是算法,這些算法不是本質(zhì)上半監(jiān)督的,而是執(zhí)行兩步學(xué)習:
1.?對所有已標記和未標記的數(shù)據(jù)執(zhí)行無監(jiān)督步驟,但忽略可用的標簽。例如,這可以是表示形式的更改,或者是新度量標準或新內(nèi)核的構(gòu)造。
2.?忽略未標記的數(shù)據(jù),并使用新的距離、表示或內(nèi)核執(zhí)行純監(jiān)督學(xué)習。
這可以看作是半監(jiān)督平滑假設(shè)的直接實現(xiàn),因為表示方式的改變使得高密度區(qū)域中的小距離保持不變。
請注意,基于圖的方法(第三部分)與本部分中提出的方法密切相關(guān):從數(shù)據(jù)中構(gòu)建圖可以被視為表示的無監(jiān)督變化。因此,第四部分的第一章,第15章,討論了這些圖的光譜變換,以便構(gòu)建內(nèi)核。譜方法也可用于非線性降維,如第16章所述。此外,在第17章中,研究了從圖中得出的度量,例如從最短路徑中得出的度量。
1.3.5 半監(jiān)督學(xué)習的實踐
當沒有標記的數(shù)據(jù)遠多于標記的數(shù)據(jù)時,半監(jiān)督學(xué)習將是最有用的。如果獲取數(shù)據(jù)很便宜,這很可能發(fā)生,但是獲取標簽需要花費大量的時間、精力或金錢。在機器學(xué)習的許多應(yīng)用領(lǐng)域都是如此,例如:
在語音識別中,記錄大量的語音幾乎不需要花費任何費用,但是標記它需要一些人去聽它并輸入一份轉(zhuǎn)錄本。
數(shù)以十億計的網(wǎng)頁可直接用于自動化處理,但為了可靠地分類,人類必須閱讀它們。
蛋白質(zhì)序列現(xiàn)在是以工業(yè)速度獲得的(通過基因組測序、計算基因發(fā)現(xiàn)和自動翻譯),但要解決三維(3D)結(jié)構(gòu)或確定單個蛋白質(zhì)的功能可能需要多年的科學(xué)研究。
第三章從生成式模型的角度介紹了網(wǎng)頁分類。
由于未標記的數(shù)據(jù)比標記的數(shù)據(jù)攜帶的信息少,因此需要大量數(shù)據(jù)才能顯著提高預(yù)測精度。這意味著需要快速有效的SSL算法。第18章和第19章介紹了處理大量要點的兩種方法。在第18章中,提出了加快第11章中介紹的標簽傳播方法。在第19章中,聚類內(nèi)核被證明是一種有效的SSL方法。
第19章還介紹了半監(jiān)督學(xué)習中兩種重要的生物信息學(xué)應(yīng)用方法:蛋白質(zhì)序列分類。雖然這里的預(yù)測是基于蛋白質(zhì)序列本身,但第20章將繼續(xù)討論一個更復(fù)雜的環(huán)境:這里的信息假定以描述蛋白質(zhì)相互作用的圖形的形式出現(xiàn)。存在一些這樣的圖,必須以適當?shù)姆绞浇M合。
本書的最后一部分是一個非常實用的章節(jié):介紹和評估與本書相關(guān)的基準(第21章)。它旨在向?qū)嵺`者提示如何根據(jù)問題的性質(zhì)選擇合適的方法。
1.3.6 總結(jié)
這本書的最后一部分,第六部分,專門介紹了正在進行的SSL研究中最有趣的一些方向。
到目前為止,這本書基本上還沒有分類。第23章介紹了另一種適用于分類和回歸的SSL方法,并從中派生算法。有趣的是,它似乎不需要第1章中提出的假設(shè)。
此外,本書主要介紹了SSL的算法。雖然上面討論的假設(shè)提供了有關(guān)何時和為何使用SSL的一些直覺,第4章研究了何時和為何會失敗,但對SSL的總體理論理解顯然更令人滿意。第22章提供了一個PAC風格的框架,為SSL問題提供了錯誤界限。
在第24章中,我們從Vapnik-Chervonenkis(VC)界和其他理論和哲學(xué)概念的角度對歸納半監(jiān)督學(xué)習和轉(zhuǎn)導(dǎo)進行了比較。
本書結(jié)尾是三位機器學(xué)習研究者關(guān)于半監(jiān)督學(xué)習和轉(zhuǎn)導(dǎo)的關(guān)系(以及兩者之間的差異)的假設(shè)性討論(第25章)。