《西瓜書筆記》(1)機器學(xué)習(xí)概述

《西瓜書》指的是周志華老師的《機器學(xué)習(xí)》著作

什么是機器學(xué)習(xí)?

機器學(xué)習(xí)致力于通過計算的手段,利用經(jīng)驗來改善系統(tǒng)自身性能的學(xué)科

經(jīng)驗通常是以“數(shù)據(jù)”的形式體現(xiàn),或者上一次訓(xùn)練的錯誤

機器學(xué)習(xí)的本質(zhì)任務(wù)是預(yù)測。

學(xué)習(xí)任務(wù)的分類:

若我們預(yù)測的是離散值,如西瓜是好瓜還是壞瓜,此類學(xué)習(xí)任務(wù)是分類
若我們預(yù)測的是連續(xù)值,如西瓜的成熟度,此類學(xué)習(xí)任務(wù)是回歸
若西瓜本身沒有任何標(biāo)簽(好的,壞的,淺色的,深色的等),我們根據(jù)潛在的概念劃分,此類學(xué)習(xí)任務(wù)是聚類

根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)簽,可以將學(xué)習(xí)任務(wù)大致分為監(jiān)督學(xué)習(xí)(分類,回歸)無監(jiān)督學(xué)習(xí)(聚類)

機器學(xué)習(xí)實際上是“歸納學(xué)習(xí)”

歸納和演繹是科學(xué)推理的兩大基本手段
歸納:特殊到一般——泛化過程
演繹:一般到特殊——特化過程

機器學(xué)習(xí)這種“從樣例中學(xué)習(xí)”的過程是屬于歸納學(xué)習(xí)

  • 問題:歸納學(xué)習(xí)的結(jié)果唯一嗎?
    答案是不唯一的。可能存在很多種假設(shè)都會與訓(xùn)練集的樣本完全符合
    那選擇哪一個呢?這就看歸納偏好

歸納偏好

任何一個有效的機器學(xué)習(xí)算法都會有其歸納偏好,如果接受訓(xùn)練集上兩個等效的假設(shè),那么在測試集上就無法產(chǎn)生確定的結(jié)果。

歸納偏好的本質(zhì):確定那個模型更好

  • 問題:如何選擇那個模型更好呢?
    哪個更好其實是一個“價值觀”的問題,“奧卡姆剃刀”是一種常用的基本原則:若多個假設(shè)與觀察一致,選擇最簡單的那個
    如我們認(rèn)為“更平滑”為“更簡單”,如下圖,那我們應(yīng)該選擇A(實線)的模型,而不是B(虛線)


    兩個算法的比較
  • 問題:剛剛根據(jù)“奧卡姆剃刀”原則選擇A模型,但A模型一定就比B模型好嘛?萬一出現(xiàn)下圖的情況呢?

    加入測試數(shù)據(jù)——白色點為測試數(shù)據(jù)

    此時NFL定理(No Free Lunch Theorem :天下沒有免費的午餐)給了我們啟發(fā):如果所有“問題”出現(xiàn)的機會相等、或所有問題同等重要(前提),學(xué)習(xí)算法的期望性能相等(結(jié)果)。
    也就是說如果未來所有事情可能出現(xiàn)的所有情況都是等可能的,那預(yù)測就沒有任何意義了

  • NFL定理給我們的啟發(fā):

    • 脫離具體問題,空泛談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無意義
    • 算法的優(yōu)劣是相對的
    • 學(xué)習(xí)算法的歸納偏好與實際問題匹配是解決問題的核心

NFL定理的推導(dǎo)

假設(shè):


樣本空間
樣本空間
基于訓(xùn)練數(shù)據(jù)X產(chǎn)生假設(shè)h的概率
基于訓(xùn)練數(shù)據(jù)X產(chǎn)生假設(shè)h的概率

則在訓(xùn)練集之外的所有樣本上的誤差為


訓(xùn)練集之外的所有樣本上的誤差

對于二分類問題,設(shè)f為真正的分類函數(shù),可能f有多個。假設(shè)其均勻分布,那么對于某個算法a,它在訓(xùn)練集以外的所有樣本的誤差就可以表示成:


訓(xùn)練集以外的所有樣本的誤差

由乘法分配率可以化為:
乘法分配率化簡后

由于f均勻分布,則有一半的f對x的預(yù)測與h(x)不一致·,上式中最后一項可以被化簡:


一半的f對x的預(yù)測與h(x)不一致

又由全概率公式,或者說概率的可列可加性,下面這一項(上式中間那一項)其實等于1


概率的可列可加性

如此一來,a就在公式中消失了,于是最后的結(jié)果就是:


最后的結(jié)果

所以說無論是什么算法,它在訓(xùn)練集以外所有樣本上的誤差都是上式表示的結(jié)果。
這就是NFL定理的推導(dǎo)。

機器學(xué)習(xí)的發(fā)展

二十世紀(jì)五十年代中后期,基于神經(jīng)網(wǎng)絡(luò)的“連接主義”出現(xiàn)

六七十年代,基于邏輯表示的“符號主義”出現(xiàn)

二十世紀(jì)八十年代,“從樣例中學(xué)習(xí)”的一大主流是符號學(xué)習(xí)主義,其中包括決策樹和基于邏輯的學(xué)習(xí)

二十世紀(jì)九十年代“從樣例中學(xué)習(xí)”的另一主流技術(shù)——基于神經(jīng)網(wǎng)絡(luò)的連接主義通過解決NP難題(“流動推銷員”)又一次引起人們的關(guān)注

二十世紀(jì)九十年代中期,“統(tǒng)計學(xué)習(xí)”閃亮登場并迅速占據(jù)主流舞臺,代表技術(shù)有支持向量機(SVM)

二十一世紀(jì)初,連接主義學(xué)習(xí)又卷土重來,掀起“深度學(xué)習(xí)”浪潮

···

知道大家可能對歷史不太感興趣,上面也是只列舉了一下比較重大的突破節(jié)點,從中可以看出不同流派的螺旋式發(fā)展構(gòu)成了我們現(xiàn)在的機器學(xué)習(xí)的學(xué)科領(lǐng)域。

參考
http://m.itdecent.cn/p/cbe8e0fe7b2c

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容