91热视频在线播放,欧美第8页,精品区二区三殴美

一、過度擬合

對于圖中的例子，
可以看出第一幅圖中使用一個變量從而用一條直線來擬合數(shù)據(jù)，可以看出效果不好，偏差很大，因此，定義其為：欠擬合（underfit），高偏差(high bias)；
第三幅圖中，使用多個變量，高次數(shù)來擬合數(shù)據(jù)，可以看出全部數(shù)據(jù)都能很好的擬合，但是這種情況導(dǎo)致擬合函數(shù)變量過多，復(fù)雜度高，對于新的樣本擬合度欠佳，因此無法泛化到其他樣本，稱其為：過度擬合（overfit），*高方差（high variance）
因此，過度擬合的特點如下：

看看另一個例子

對于第一個圖，使用兩個變量，可以擬合出一條直線，可以看出效果不是很好，這也是一個欠擬合的例子。
對于第二個圖中，增加了假如了一些二次項，很好的擬合了數(shù)據(jù)，可以說是訓(xùn)練集訓(xùn)練出的最好擬合結(jié)果。
對于第三個圖中，使用了很多的高階項，會使邏輯回歸自身扭曲，過度擬合了數(shù)據(jù)，形成圖中的決策邊界。這是一個過度擬合的例子。

二、解決過度擬合

同樣在這個問題中，假設(shè)我們只有很少的樣本數(shù)量，并且樣本的特征值很多的時候，那么就會出現(xiàn)過度擬合的問題。
解決這個問題有兩個思路，

第一種方法就是【減少特征的數(shù)量】：通過【人工檢查】來決定或者使用【模型選擇算法】自動選擇，這兩個措施都可以解決過擬合，然而會去掉一些特征，但是我們有時候并不想舍棄一些看起來有用的特征。

第二種方法就是【正規(guī)化】：保留所有的特征，但是減少參數(shù)theta(j)的量級（magnitude）或者大小（value）。這種措施能夠很好的作用，使得當(dāng)有很多特征時，每一個特征將會對預(yù)測值y產(chǎn)生一點影響。

下面我們介紹正規(guī)化。

三、正規(guī)化（regularization）

Paste_Image.png

這個圖中，我們根據(jù)前面的知識知道圖二過擬合，一般性不好。在所有的特征中，我們根據(jù)關(guān)聯(lián)度來抉擇那個特征的權(quán)重，也就是特征的親疏關(guān)系，如果特征的重要性不高的話，那么我們就通過某種方法降低這個特征的影響力，這種方法就是正規(guī)化。

如圖中，我們假設(shè)theta(3),theta(4)的權(quán)重不高，也就是他們兩個參數(shù)的關(guān)聯(lián)度不夠重要，我們需要降低他們兩個的影響。
那么我們通過在代價函數(shù)中通過增加后面兩個式子，這樣在計算某個theta的最小值時，
例如計算theta(3)的時候，后面增加了1000*theta(3)^2,要使得代價函數(shù)最小，那么我們可以知道，theta(3)的值必須趨近于0的時候，整個代價函數(shù)才能夠得到最小值。
這樣的結(jié)果，最終我們可以獲得更小的theta(3),theta(4)的值，那么在擬合函數(shù)里面，