《機(jī)器學(xué)習(xí)》第1章 緒論

本章節(jié)整理的目的,出于對(duì)周志華西瓜書學(xué)習(xí)總結(jié),從中對(duì)周志華部分理解的舉例,此外添加了部分相關(guān)內(nèi)容和衍生內(nèi)容,供自己和他人閱讀和學(xué)習(xí)。

第一章緒論

1.1引言

機(jī)器學(xué)習(xí)的定義:致力于研究如何通過計(jì)算機(jī)的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能

經(jīng)驗(yàn)與模型的關(guān)系:經(jīng)驗(yàn)(在計(jì)算機(jī)系統(tǒng)中,叫數(shù)據(jù))產(chǎn)生模型(學(xué)習(xí)算法),學(xué)習(xí)算法利用經(jīng)驗(yàn)(數(shù)據(jù))提供相應(yīng)的判斷

1.2基本術(shù)語

關(guān)于屬性、特征等專有名稱定義:http://m.itdecent.cn/p/2b65f137bd92

http://blog.csdn.net/algorithmguy/article/details/68066279

監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí):根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)可以分為兩類,監(jiān)督學(xué)習(xí)(分類、回歸)和無監(jiān)督學(xué)習(xí)(聚類)

分類:預(yù)測(cè)的是離散值,如“好瓜”“壞瓜”

回歸:預(yù)測(cè)的是連續(xù)值,如西瓜成熟度0.65,0.78

聚類:將訓(xùn)練集分成若干組(簇),這些簇可能對(duì)應(yīng)一些潛在的概念劃分,如“淺色瓜”“深色瓜”

在聚類學(xué)習(xí)中,“淺色瓜”“深色瓜”這樣的概念我們事先是不知道的,且學(xué)習(xí)過程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息

特征向量:即示例,反映事件或?qū)ο笤谀撤矫娴男再|(zhì)。例如:西瓜的色澤,敲聲

二分類:正類,反類。樣本空間——>輸出空間;輸出空間={+1,-1}或{0,1}

多分類:|輸出空間|>2

回歸與分類的不同:

回歸問題通常是用來預(yù)測(cè)一個(gè)值,如預(yù)測(cè)房價(jià)、未來的天氣情況等等,例如一個(gè)產(chǎn)品的實(shí)際價(jià)格為500元,通過回歸分析預(yù)測(cè)值為499元,我們認(rèn)為這是一個(gè)比較好的回歸分析。一個(gè)比較常見的回歸算法是線性回歸算法(LR)。另外,回歸分析用在神經(jīng)網(wǎng)絡(luò)上,其最上層是不需要加上softmax函數(shù)的,而是直接對(duì)前一層累加即可?;貧w是對(duì)真實(shí)值的一種逼近預(yù)測(cè)。

分類問題是用于將事物打上一個(gè)標(biāo)簽,通常結(jié)果為離散值。例如判斷一幅圖片上的動(dòng)物是一只貓還是一只狗,分類通常是建立在回歸之上,分類的最后一層通常要使用softmax函數(shù)進(jìn)行判斷其所屬類別。分類并沒有逼近的概念,最終正確結(jié)果只有一個(gè),錯(cuò)誤的就是錯(cuò)誤的,不會(huì)有相近的概念。最常見的分類方法是邏輯回歸,或者叫邏輯分類。


1.3假設(shè)空間

歸納學(xué)習(xí):廣義——>從樣例中學(xué)習(xí);狹義——>從訓(xùn)練數(shù)據(jù)學(xué)學(xué)得概念,亦稱“概念學(xué)習(xí)”或“概念形成”

什么是概念?概念可被看作一個(gè)對(duì)象或事件集合,它是從更大的集合中選取的子集,或在這個(gè)較大集合中定義的布爾函數(shù)

概念學(xué)習(xí)中最基本的布爾概念學(xué)習(xí),即對(duì)“是”“不是”這樣的可表示為0/1布爾值的目標(biāo)概念的學(xué)習(xí)

概念學(xué)習(xí)定義:指從有關(guān)某個(gè)布爾函數(shù)的輸入輸出訓(xùn)練樣例中推斷出該布爾函數(shù)

假設(shè)空間:所有假設(shè)組成的空間,這里我們的假設(shè)空間由色澤,根蒂,敲聲組成,分別取值:3,2,2假設(shè)空間大小規(guī)模:4*3*3+1=37圖中*號(hào)表示任意值


1.4歸納偏好

1.為什么需要?dú)w納偏好?

如果沒有偏好,所有的假設(shè)都是等效的,那么輸出的判斷將會(huì)沒有意義,如書上的對(duì)瓜的預(yù)測(cè)時(shí)而是好瓜時(shí)而是壞瓜,這樣的結(jié)果沒有意義。

2.偏好的作用:產(chǎn)生“正確”的模型

3.怎樣引導(dǎo)算法確立“正確的”偏好:奧卡姆剃刀(若有多個(gè)假設(shè)與觀察一致,則選最簡(jiǎn)單的那個(gè))

奧卡姆剃刀定律:即簡(jiǎn)單有效原則,說的是,切勿浪費(fèi)較多東西去做,用較少的東西,同樣可以做好的事情。所以,相比復(fù)雜的假設(shè),我們更傾向于選擇簡(jiǎn)單的、參數(shù)少的假設(shè);同時(shí),我們還希望選擇更加簡(jiǎn)單的模型,使得有效的假設(shè)的數(shù)量不是很多。

奧卡姆剃刀適用

若更平滑意味著更簡(jiǎn)單,則選擇曲線A,因?yàn)榍€A更容易描述


奧卡姆剃刀不適用


在問題出現(xiàn)的機(jī)會(huì)相同,所有問題同等重要,對(duì)于任意兩個(gè)學(xué)習(xí)算法,其總誤差相等,期望值相同。

NFL定理:指在機(jī)器學(xué)習(xí)中,沒有給定具體問題的情況下,或者說面對(duì)的是所有問題的情況下,沒有一種算法能說得上比另一種算法好。換成我們的俗話講,就是“不存在放之四海而皆準(zhǔn)的方法”。只有在給定某一問題,比如說給“用特定數(shù)據(jù)集給西瓜進(jìn)行分類”,才能分析并指出某一算法比另一算法好。這就要求我們具體問題具體分析,而不能指望找到某個(gè)算法后,就一直指望著這個(gè)“萬能”的算法。

NFL定理(天下沒有免費(fèi)的午餐)告訴我們:脫離具體問題談算法的好壞無意義。

1.5發(fā)展歷程

推理期

知識(shí)期

學(xué)習(xí)期

統(tǒng)計(jì)學(xué)習(xí)

深度學(xué)習(xí)

機(jī)器學(xué)習(xí)發(fā)展的詳細(xì)歷程:http://blog.csdn.net/zmdsjtu/article/details/52690839

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. 引言 模型和模式 模型泛指從數(shù)據(jù)中學(xué)得的結(jié)果 【模型】:指全局性結(jié)果(如一棵判斷什么是好瓜的決策樹) 【模式...
    geekspeng閱讀 1,182評(píng)論 0 3
  • 以西瓜書為主線,以其他書籍作為參考進(jìn)行補(bǔ)充,例如《統(tǒng)計(jì)學(xué)習(xí)方法》,《PRML》等 第一章 緒論 1.2 基本術(shù)語 ...
    danielAck閱讀 4,940評(píng)論 0 5
  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊(cè) 首頁 最新文章 IT 職場(chǎng) 前端 后端 移動(dòng)端 數(shù)據(jù)庫 運(yùn)維 其他...
    Helen_Cat閱讀 4,160評(píng)論 1 10
  • 第一章 緒論 機(jī)器學(xué)習(xí)的定義 關(guān)于“學(xué)習(xí)算法”的學(xué)問。 機(jī)器學(xué)習(xí)的一些基本術(shù)語 假設(shè)我們收集了一批西瓜的數(shù)據(jù),例如...
    kudari閱讀 3,073評(píng)論 0 5
  • 對(duì),這是就我今天的戰(zhàn)績,又添四個(gè)MVP. 上班蹲在凳子上玩被男設(shè)計(jì)師看到說我怎么跟個(gè)男的似的,然后在他們的注視下秒...
    是魔王大人閱讀 218評(píng)論 3 0

友情鏈接更多精彩內(nèi)容