一、過度擬合

對于圖中的例子,
可以看出第一幅圖中使用一個變量從而用一條直線來擬合數(shù)據(jù),可以看出效果不好,偏差很大,因此,定義其為:欠擬合(underfit),高偏差(high bias);
第三幅圖中,使用多個變量,高次數(shù)來擬合數(shù)據(jù),可以看出全部數(shù)據(jù)都能很好的擬合,但是這種情況導(dǎo)致擬合函數(shù)變量過多,復(fù)雜度高,對于新的樣本擬合度欠佳,因此無法泛化到其他樣本,稱其為:過度擬合(overfit),*高方差 (high variance)
因此,過度擬合的特點如下:

看看另一個例子

對于第一個圖,使用兩個變量,可以擬合出一條直線,可以看出效果不是很好,這也是一個欠擬合的例子。
對于第二個圖中,增加了假如了一些二次項,很好的擬合了數(shù)據(jù),可以說是訓(xùn)練集訓(xùn)練出的最好擬合結(jié)果。
對于第三個圖中,使用了很多的高階項,會使邏輯回歸自身扭曲,過度擬合了數(shù)據(jù),形成圖中的決策邊界。這是一個過度擬合的例子。
二、解決過度擬合

同樣在這個問題中,假設(shè)我們只有很少的樣本數(shù)量,并且樣本的特征值很多的時候,那么就會出現(xiàn)過度擬合的問題。
解決這個問題有兩個思路,

第一種方法就是【減少特征的數(shù)量】:通過【人工檢查】來決定或者使用【模型選擇算法】自動選擇,這兩個措施都可以解決過擬合,然而會去掉一些特征,但是我們有時候并不想舍棄一些看起來有用的特征。
第二種方法就是【正規(guī)化】:保留所有的特征,但是減少參數(shù)theta(j)的量級(magnitude)或者大小(value)。這種措施能夠很好的作用,使得當(dāng)有很多特征時,每一個特征將會對預(yù)測值y產(chǎn)生一點影響。
下面我們介紹正規(guī)化。
三、 正規(guī)化(regularization)

這個圖中,我們根據(jù)前面的知識知道圖二過擬合,一般性不好。在所有的特征中,我們根據(jù)關(guān)聯(lián)度來抉擇那個特征的權(quán)重,也就是特征的親疏關(guān)系,如果特征的重要性不高的話,那么我們就通過某種方法降低這個特征的影響力,這種方法就是正規(guī)化。

如圖中,我們假設(shè)theta(3),theta(4)的權(quán)重不高,也就是他們兩個參數(shù)的關(guān)聯(lián)度不夠重要,我們需要降低他們兩個的影響。
那么我們通過在代價函數(shù)中通過增加后面兩個式子,這樣在計算某個theta的最小值時,
例如計算theta(3)的時候,后面增加了1000*theta(3)^2,要使得代價函數(shù)最小,那么我們可以知道,theta(3)的值必須趨近于0的時候,整個代價函數(shù)才能夠得到最小值。
這樣的結(jié)果,最終我們可以獲得更小的theta(3),theta(4)的值,那么在擬合函數(shù)里面,

,theta(3),theta(4)的影響力下降,整個式子接近與二次函數(shù),從而擬合度更好!
正規(guī)化的好處于:

1.更簡單的擬合函數(shù)
2.不易發(fā)生過擬合問題

在這個問題中,可以看到有100個特征,101個參數(shù),類似的,在很多問題中,我們不知道這些特征的關(guān)聯(lián)度,因此無法很好的選擇該“懲罰”那個特征,因此我們就對所有的參數(shù)進行收縮懲罰,【下標(biāo)從1開始的】
因此,正規(guī)化的公式如下:

這里有一個問題,當(dāng)我們隨意選擇labmda的時候,假設(shè)我們使得lambda很大,

會發(fā)生什么情況呢?

有前面的思路,我們可以知道,labmda越大,那么參數(shù)theta(1),theta(2)..都會變得非常小, 那么擬合函數(shù)就如圖中成為了一個常數(shù)函數(shù)直線theta(0),造成的結(jié)果就是【欠擬合】
四、正規(guī)化在線性規(guī)劃的應(yīng)用

在這張圖片中,我們將正規(guī)化的代價函數(shù)應(yīng)用到梯度下降算法中,可以看到之后新的迭代公式,其中,

為啥會是小于1的呢?alpha一般很小,而且m是很大的存在,一般差值為0.99?有點不明白。
對于線性規(guī)劃的另一種方法---正規(guī)方程

【暫且不懂】
五、線性規(guī)劃對于邏輯回歸的應(yīng)用

正規(guī)化的代價函數(shù)如圖,
應(yīng)用于梯度下降,迭代公式如圖,
