07 回歸算法 - 過擬合欠擬合案例

1、引入頭文件
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import pandas as pd
import warnings
import sklearn
from sklearn.linear_model import LinearRegression, LassoCV, RidgeCV, ElasticNetCV
from sklearn.preprocessing import PolynomialFeatures#數(shù)據(jù)預(yù)處理,標(biāo)準(zhǔn)化
from sklearn.pipeline import Pipeline
from sklearn.linear_model.coordinate_descent import ConvergenceWarning
2、設(shè)置字符集,防止中文亂碼,攔截異常
## 設(shè)置字符集,防止中文亂碼
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False
## 攔截異常
warnings.filterwarnings(action = 'ignore', category=ConvergenceWarning)
3、創(chuàng)建模擬數(shù)據(jù)
## 使得隨機(jī)數(shù)據(jù)可預(yù)測,即只要seed的值一樣,后續(xù)生成的隨機(jī)數(shù)都一樣。
np.random.seed(100)
#顯示方式設(shè)置,每行的字符數(shù)用于插入換行符,是否使用科學(xué)計數(shù)法
np.set_printoptions(linewidth=1000, suppress=True)
N = 10
## linspace:x從0~6之間等步長取N個數(shù) 
## 由于seed(10),固定了一種隨機(jī)方案,np.random.randn(N)每次結(jié)果都一致
x = np.linspace(0, 6, N) + np.random.randn(N)
y = 1.8*x**3 + x**2 - 14*x - 7 + np.random.randn(N)
x.shape
4、將其設(shè)置為矩陣
#無論多少數(shù)據(jù),生成一列,反之1,-1生成一行
x.shape = -1, 1 
y.shape = -1, 1 
x.shape

(10, 1)

5、配置多個管道

RidgeCV和Ridge的區(qū)別是:前者可以進(jìn)行交叉驗證
將多個管道嵌套,共4個管道Pipeline
看看每個管道做了什么操作

管道1:多形式擴(kuò)展+線性回歸
管道2:多形式擴(kuò)展+RidgeCV
管道3:多形式擴(kuò)展+LassoCV
管道4:多形式擴(kuò)展+ElasticNetCV

目標(biāo):比較不同階數(shù)的情況下,會不會出現(xiàn)過擬合的情況

models = [
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', LinearRegression(fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', RidgeCV(alphas=np.logspace(-3,2,50), fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', LassoCV(alphas=np.logspace(0,1,10), fit_intercept=False))
        ]),
    Pipeline([
            ('Poly', PolynomialFeatures(include_bias=False)),
            ('Linear', ElasticNetCV(alphas=np.logspace(0,1,10)
               , l1_ratio=[.1, .5, .7, .9, .95, 1], fit_intercept=False))
        ])
]
6、使用管道1:多形式擴(kuò)展+線性回歸
model = models[0]
model.set_params(Poly__degree=3)
model.fit(x, y.ravel())
lin = model.get_params()
lin

{'Linear': LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False),
'Linear__copy_X': True,
'Linear__fit_intercept': False,
'Linear__n_jobs': 1,
'Linear__normalize': False,
'Poly': PolynomialFeatures(degree=3, include_bias=False, interaction_only=False),
'Poly__degree': 3,
'Poly__include_bias': False,
'Poly__interaction_only': False,
'memory': None,
'steps': [('Poly',
PolynomialFeatures(degree=3, include_bias=False, interaction_only=False)),
('Linear',
LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False))]}

lin1 = model.set_params(Poly__include_bias = True)
lin1

Pipeline(memory=None,
steps=[('Poly', PolynomialFeatures(degree=3, include_bias=True, interaction_only=False)), ('Linear', LinearRegression(copy_X=True, fit_intercept=False, n_jobs=1, normalize=False))])

7、線性模型過擬合圖形識別
## 線性模型過擬合圖形識別
plt.figure(facecolor='w')
degree = np.arange(1,N,4) # 階
dm = degree.size
print('degree=',degree,'dm=',dm)

colors = [] # 顏色
for c in np.linspace(16711680, 255, dm):
    colors.append('#%06x' % int(c))

model = models[0]
for i,d in enumerate(degree):
    print("i=",i,'d=',d)
    ###subplot(m,n,p),m代表行,n代表列
    ## p代表的這個圖形畫在第幾行、第幾列
    ## ceil 向上取整
    plt.subplot(int(np.ceil(dm/2.0)),2,i+1)
    
    ## zorder 表示繪畫的順序,N約小越先畫
    plt.plot(x, y, 'ro', ms=10, zorder=N)

    # 設(shè)置階數(shù)
    model.set_params(Poly__degree=d)
    # 模型訓(xùn)練
    model.fit(x, y.ravel())
    
    lin = model.get_params('Linear')['Linear']
    output = u'%d階,系數(shù)為:' % (d)
    print (output, lin.coef_.ravel())
    
    ## 產(chǎn)生模擬數(shù)據(jù)
    x_hat = np.linspace(x.min(), x.max(), num=100) 
    x_hat.shape = -1,1
    y_hat = model.predict(x_hat)
    s = model.score(x, y)
    ## 模型評分
    print('score=',s,'\n')
    
    z = N - 1 if (d == 2) else 0
    label = u'%d階, 正確率=%.3f' % (d,s)
    plt.plot(x_hat, y_hat, color=colors[i], 
        lw=2, alpha=0.75, label=label, zorder=N)
    
    plt.legend(loc = 'upper left')
    plt.grid(True)
    plt.xlabel('X', fontsize=16)
    plt.ylabel('Y', fontsize=16)

plt.tight_layout(1, rect=(0,0,1,0.95))
plt.suptitle(u'線性回歸過擬合顯示', fontsize=22)
plt.show()

degree= [1 5 9] dm= 3
i= 0 d= 1
1階,系數(shù)為: [-44.14102611 40.05964256]
score= 0.532590275112

i= 1 d= 5
5階,系數(shù)為: [ -5.60899679 -14.80109301 0.75014858 2.11170671 -0.07724668 0.00566633]
score= 0.999984040519

i= 2 d= 9
9階,系數(shù)為: [-2465.58381316 6108.63817712 -5111.99333504 974.74974891 1078.89649478 -829.50277842 266.13230658 -45.71741587 4.1158274 -0.15281063]
score= 1.0

總結(jié):

1階多項式擴(kuò)展欠擬合,5階多項式擴(kuò)展相對比較優(yōu)秀,9階多項式擴(kuò)展過擬合。
觀察9階多項式擴(kuò)展的結(jié)果,系數(shù)都非常大。這是模型過多迎合了異常值造成的結(jié)果。
9階多項式擴(kuò)展形成的模型很難對測試集上的值進(jìn)行準(zhǔn)確預(yù)測。

模型每一個駐點的斜率為0,而當(dāng)圖像慢慢到駐點的過程中,斜率在逐漸變大,而斜率大意味著導(dǎo)數(shù)大。如果出現(xiàn)一個異常值斜率非常大,如果這個值的點本身不大(因為數(shù)據(jù)都做過標(biāo)準(zhǔn)化,普遍不會相差太多),那么要使得斜率大,則系數(shù)必然大。只有這樣才能保證導(dǎo)數(shù)值比較大。

所以,當(dāng)模型過擬合的時候,一般系數(shù)都比較大。

通過這種方式去判斷,即使不畫圖我們也能預(yù)測模型是否過擬合。

那么怎么解決這種過擬合的問題?

1、減少特征數(shù)。
2、增加正則項、懲罰項。

目標(biāo)函數(shù):


為了防止數(shù)據(jù)過擬合,也就是θ值在樣本空間中不能過大/過小,可以在目標(biāo)函數(shù)之上增加一個平方和損失:


9階多項式展開后得到的模型雖然擬合度很高,但是將對應(yīng)的θ值代入J(θ),會發(fā)現(xiàn)J(θ)是一個非常大的數(shù),說明損失函數(shù)非常大。
我們希望得到一組新的θ值,在評分好的同時,希望損失函數(shù)J(θ)相對較小。

在J(θ)中,λ的值越大,損失函數(shù)對模型的約束力越好。


損失函數(shù)的介紹:06 損失函數(shù)、過擬合欠擬合

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,724評論 19 139
  • 最近讀了一本書《銷售的革命》,文中對于客戶的分類有不一樣的角度,將客戶分為內(nèi)在價值購買者,外在價值購買者和戰(zhàn)略價值...
    饒鑫峰閱讀 864評論 0 0
  • 作為一名成長中的培訓(xùn)師,需要快速的學(xué)習(xí)和吸收。相信大多數(shù)的人,都買了各種各樣的書,聽書、看書,孜孜不倦的學(xué)習(xí)??赐?..
    曉麗看職場閱讀 1,117評論 0 0
  • 五個多月的蠻蠻已經(jīng)可以分辨出媽媽了,有好幾次他哭鬧媽媽伸手要去抱他時他都會朝著媽媽伸出胳膊來,媽媽一抱起來就變得安...
    青鳥_01閱讀 162評論 0 1
  • 今天讀的是吳軍博士的新書《智能時代——大數(shù)據(jù)與智能革命重新定義未來》的第一章:數(shù)據(jù)——人類建造文明的基石。讀...
    次第花開1583閱讀 911評論 0 0

友情鏈接更多精彩內(nèi)容