
寫在前面
這個(gè)系列為我在自學(xué)【機(jī)器學(xué)習(xí)】時(shí)的個(gè)人筆記。因?yàn)楸救藶獒t(yī)學(xué)相關(guān)專業(yè),故學(xué)習(xí)過程中可能會(huì)有較多的紕漏,希望各位讀者不吝賜教。本系列以吳恩達(dá)老師的【“機(jī)器學(xué)習(xí)”課程】為綱,輔以黃海廣老師的【斯坦福大學(xué) 2014 機(jī)器學(xué)習(xí)教程個(gè)人筆記(V5.51)】,中間會(huì)穿插相關(guān)數(shù)理知識(shí)。該系列筆記為實(shí)時(shí)同步更新,故與本人的學(xué)習(xí)進(jìn)度息息相關(guān),希望同在學(xué)習(xí)相關(guān)知識(shí)的朋友能多多督促,共同進(jìn)步。
02.單變量線性回歸
2.1
模型表示(Machine Learning)
例1.
有一個(gè)數(shù)據(jù)集包含俄勒岡州波特蘭市的住房?jī)r(jià)格。根據(jù)不同房屋尺寸所售出的價(jià)格,畫出數(shù)據(jù)集。如果你朋友的房子是1250平方尺大小,你要告訴他這房子能賣多少錢。那么,你可以做的一件事就是構(gòu)建一個(gè)模型,也許是條直線,從這個(gè)數(shù)據(jù)模型上來看,也許你可以告訴你的朋友,他能以大約220000(美元)左右的價(jià)格賣掉這個(gè)房子。這就是監(jiān)督學(xué)習(xí)算法的一個(gè)例子
它被稱作監(jiān)督學(xué)習(xí)是因?yàn)閷?duì)于每個(gè)數(shù)據(jù)來說,我們給出了“正確的答案”,即告訴我們:根據(jù)我們的數(shù)據(jù)來說,房子實(shí)際的價(jià)格是多少,而且,更具體來說,這是一個(gè)回歸問題?;貧w一詞指的是,我們根據(jù)之前的數(shù)據(jù)預(yù)測(cè)出一個(gè)準(zhǔn)確的輸出值,對(duì)于這個(gè)例子就是價(jià)格,同時(shí),還有另一種最常見的監(jiān)督學(xué)習(xí)方式,叫做分類問題,當(dāng)我們想要預(yù)測(cè)離散的輸出值,例如,我們正在尋找癌癥腫瘤,并想要確定腫瘤是良性的還是惡性的,這就是0/1離散輸出的問題。更進(jìn)一步說,在監(jiān)督學(xué)習(xí)中我們有一個(gè)數(shù)據(jù)集,這個(gè)數(shù)據(jù)集被稱訓(xùn)練集。
以之前的房屋交易問題為例,假使我們回歸問題的訓(xùn)練集(Training Set)如表所示.
我們將要用來描述這個(gè)回歸問題的標(biāo)記如下:
m?代表訓(xùn)練集中實(shí)例的數(shù)量
x?代表特征/輸入變量
y?代表目標(biāo)變量/輸出變量
(x,y)?代表訓(xùn)練集中的實(shí)例
(x^i,y^i)?代表第 i個(gè)觀察實(shí)例
h?代表學(xué)習(xí)算法的解決方案或函數(shù)也稱為假設(shè)
這就是一個(gè)監(jiān)督學(xué)習(xí)算法的工作方式,我們可以看到這里有我們的訓(xùn)練集里房屋價(jià)格.我們把它喂給我們的學(xué)習(xí)算法,學(xué)習(xí)算法的工作了,然后輸出一個(gè)函數(shù),通常表示為小寫 h 表示.h代表hypothesis(假設(shè)),h表示一個(gè)函數(shù),輸入是房屋尺寸大小,就像你朋友想出售的房屋,因此 h 根據(jù)輸入的 x值來得出 y值,y值對(duì)應(yīng)房子的價(jià)格.因此,h是一個(gè)從x到y(tǒng)的函數(shù)映射.
那么,對(duì)于我們的房?jī)r(jià)預(yù)測(cè)問題,我們?cè)撊绾伪磉_(dá)h?
一種可能的表達(dá)方式為:
因?yàn)橹缓幸粋€(gè)特征/輸入變量,因此這樣的問題叫作單變量線性回歸問題。
2.2代價(jià)函數(shù)(Cost Function)
在線性回歸中我們有一個(gè)像這樣的訓(xùn)練集,m代表了訓(xùn)練樣本的數(shù)量,比如 m = 47。而我們的假設(shè)函數(shù),也就是用來進(jìn)行預(yù)測(cè)的函數(shù),是這樣的線性性函數(shù)形式:
接下來我們會(huì)引入一些術(shù)語我們現(xiàn)在要做的便是為我們的模型選擇合適的‘參數(shù)’(parameters)θ0和θ1在房?jī)r(jià)問題這個(gè)例子中便是直線的斜率和在y軸上的截距。
我們選擇的參數(shù)決定了我們得到的直線相對(duì)于我們的訓(xùn)練集的準(zhǔn)確程度,模型所預(yù)測(cè)的值與訓(xùn)練集中實(shí)際值之間的差距(下圖中藍(lán)線所指)就是建模誤差(modeling error)。
我們的目標(biāo)便是選擇出可以使得建模誤差的平方和能夠最小的模型參數(shù)。即使得代價(jià)函數(shù):
最小。誤差的平方和我們都知道了。1/2m系數(shù)怎么來的我這里說一下我個(gè)人的見解:
m是代表m個(gè)樣本,1/m 表示m個(gè)樣本方差的均值,消除樣本數(shù)量對(duì)結(jié)果的影響;1/2是為了方便后面在利用梯度下降法對(duì)J求導(dǎo)時(shí)多出的2抵消,便于計(jì)算。
我們繪制一個(gè)等高線圖,三個(gè)坐標(biāo)軸分別為θ0,θ1和J(θ0,θ1)。則可以看出在三維空間中存在一個(gè)使得J(θ0,θ1)最小的點(diǎn)。
代價(jià)函數(shù)也被稱作平方誤差函數(shù),有時(shí)也被稱為平方誤差代價(jià)函數(shù)。我們之所以要求出誤差的平方和,是因?yàn)檎`差平方代價(jià)函數(shù),對(duì)于大多數(shù)問題,特別是回歸問題,都是一個(gè)合理的選擇。還有其他的代價(jià)函數(shù)也能很好地發(fā)揮作用,但是平方誤差代價(jià)函數(shù)可能是解決回歸問題最常用的手段了。
在后續(xù)課程中,我們還會(huì)談?wù)撈渌拇鷥r(jià)函數(shù),但我們剛剛講的選擇是對(duì)于大多數(shù)線性回歸問題非常合理的。
1.3代價(jià)函數(shù)的直觀理解
上圖為代價(jià)函數(shù)的等高線圖,可以看出在三維空間中存在一個(gè)使得J(θ0,θ1)最小的點(diǎn)。(不懂等高線圖的同學(xué)可以先跳過,不影響后續(xù)學(xué)習(xí)。)
下一節(jié)我們將介紹一種算法,能夠自動(dòng)地找出能使代價(jià)函數(shù)J最小化的參數(shù)θ0和θ1的值。
— END —
往期 ·?推薦
零基礎(chǔ)"機(jī)器學(xué)習(xí)"自學(xué)筆記|Note1:機(jī)器學(xué)習(xí)緒論