《西瓜書》指的是周志華老師的《機器學(xué)習(xí)》著作
什么是機器學(xué)習(xí)?
機器學(xué)習(xí)致力于通過計算的手段,利用經(jīng)驗來改善系統(tǒng)自身性能的學(xué)科
經(jīng)驗通常是以“數(shù)據(jù)”的形式體現(xiàn),或者上一次訓(xùn)練的錯誤
機器學(xué)習(xí)的本質(zhì)任務(wù)是預(yù)測。
學(xué)習(xí)任務(wù)的分類:
若我們預(yù)測的是離散值,如西瓜是好瓜還是壞瓜,此類學(xué)習(xí)任務(wù)是分類
若我們預(yù)測的是連續(xù)值,如西瓜的成熟度,此類學(xué)習(xí)任務(wù)是回歸
若西瓜本身沒有任何標(biāo)簽(好的,壞的,淺色的,深色的等),我們根據(jù)潛在的概念劃分,此類學(xué)習(xí)任務(wù)是聚類
根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)簽,可以將學(xué)習(xí)任務(wù)大致分為監(jiān)督學(xué)習(xí)(分類,回歸)和無監(jiān)督學(xué)習(xí)(聚類)
機器學(xué)習(xí)實際上是“歸納學(xué)習(xí)”
歸納和演繹是科學(xué)推理的兩大基本手段
歸納:特殊到一般——泛化過程
演繹:一般到特殊——特化過程
機器學(xué)習(xí)這種“從樣例中學(xué)習(xí)”的過程是屬于歸納學(xué)習(xí)
- 問題:歸納學(xué)習(xí)的結(jié)果唯一嗎?
答案是不唯一的。可能存在很多種假設(shè)都會與訓(xùn)練集的樣本完全符合
那選擇哪一個呢?這就看歸納偏好了
歸納偏好
任何一個有效的機器學(xué)習(xí)算法都會有其歸納偏好,如果接受訓(xùn)練集上兩個等效的假設(shè),那么在測試集上就無法產(chǎn)生確定的結(jié)果。
歸納偏好的本質(zhì):確定那個模型更好
-
問題:如何選擇那個模型更好呢?
哪個更好其實是一個“價值觀”的問題,“奧卡姆剃刀”是一種常用的基本原則:若多個假設(shè)與觀察一致,選擇最簡單的那個
如我們認(rèn)為“更平滑”為“更簡單”,如下圖,那我們應(yīng)該選擇A(實線)的模型,而不是B(虛線)
兩個算法的比較
-
問題:剛剛根據(jù)“奧卡姆剃刀”原則選擇A模型,但A模型一定就比B模型好嘛?萬一出現(xiàn)下圖的情況呢?
加入測試數(shù)據(jù)——白色點為測試數(shù)據(jù)
此時NFL定理(No Free Lunch Theorem :天下沒有免費的午餐)給了我們啟發(fā):如果所有“問題”出現(xiàn)的機會相等、或所有問題同等重要(前提),學(xué)習(xí)算法的期望性能相等(結(jié)果)。
也就是說如果未來所有事情可能出現(xiàn)的所有情況都是等可能的,那預(yù)測就沒有任何意義了 -
NFL定理給我們的啟發(fā):
- 脫離具體問題,空泛談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無意義
- 算法的優(yōu)劣是相對的
- 學(xué)習(xí)算法的歸納偏好與實際問題匹配是解決問題的核心
NFL定理的推導(dǎo)
假設(shè):
則在訓(xùn)練集之外的所有樣本上的誤差為

對于二分類問題,設(shè)f為真正的分類函數(shù),可能f有多個。假設(shè)其均勻分布,那么對于某個算法a,它在訓(xùn)練集以外的所有樣本的誤差就可以表示成:

由乘法分配率可以化為:

由于f均勻分布,則有一半的f對x的預(yù)測與h(x)不一致·,上式中最后一項可以被化簡:

又由全概率公式,或者說概率的可列可加性,下面這一項(上式中間那一項)其實等于1

如此一來,a就在公式中消失了,于是最后的結(jié)果就是:

所以說無論是什么算法,它在訓(xùn)練集以外所有樣本上的誤差都是上式表示的結(jié)果。
這就是NFL定理的推導(dǎo)。
機器學(xué)習(xí)的發(fā)展
二十世紀(jì)五十年代中后期,基于神經(jīng)網(wǎng)絡(luò)的“連接主義”出現(xiàn)
六七十年代,基于邏輯表示的“符號主義”出現(xiàn)
二十世紀(jì)八十年代,“從樣例中學(xué)習(xí)”的一大主流是符號學(xué)習(xí)主義,其中包括決策樹和基于邏輯的學(xué)習(xí)
二十世紀(jì)九十年代“從樣例中學(xué)習(xí)”的另一主流技術(shù)——基于神經(jīng)網(wǎng)絡(luò)的連接主義通過解決NP難題(“流動推銷員”)又一次引起人們的關(guān)注
二十世紀(jì)九十年代中期,“統(tǒng)計學(xué)習(xí)”閃亮登場并迅速占據(jù)主流舞臺,代表技術(shù)有支持向量機(SVM)
二十一世紀(jì)初,連接主義學(xué)習(xí)又卷土重來,掀起“深度學(xué)習(xí)”浪潮
···
知道大家可能對歷史不太感興趣,上面也是只列舉了一下比較重大的突破節(jié)點,從中可以看出不同流派的螺旋式發(fā)展構(gòu)成了我們現(xiàn)在的機器學(xué)習(xí)的學(xué)科領(lǐng)域。

