《機器學(xué)習(xí)實戰(zhàn)》筆記(八):Ch8 - 預(yù)測數(shù)值型數(shù)據(jù):回歸

第八章 預(yù)測數(shù)值型數(shù)據(jù):回歸(代碼)

  • 線性回歸算法的優(yōu)缺點

    • 優(yōu)點:結(jié)果容易理解,計算上下不復(fù)雜

    • 缺點:對非線性問題數(shù)據(jù)處理不好.

    • 使用數(shù)據(jù)類型:數(shù)值型和標(biāo)稱型數(shù)據(jù).

  • 回歸方程

    回歸方程(regression equation),回歸系數(shù)(regression weights),求回歸系數(shù)的過程就是回歸。說到回歸,一般都是指線性回歸(linear regression),還存在非線性回歸模型。

  • 局部加權(quán)線性回歸

    線性回歸會出現(xiàn)欠擬合現(xiàn)象,因為它求的是最小均方誤差的無偏估計。可以在估計中引入一些偏差,從而降低預(yù)測的均方誤差。其中一個方法是局部加權(quán)線性回歸(Locally Weighted Linear Regression,LWLR),該算法中給待測點附近的每個點賦予一定的權(quán)重,然后在這個子集上基于最小均方差來進行普通的回歸。與kNN一樣,此算法每次預(yù)測均需事先選取出對應(yīng)的數(shù)據(jù)子集

  • 縮減系數(shù)“理解”數(shù)據(jù)

    若數(shù)據(jù)的特征比樣本點還多,在計算(XTX)?1的時候會出錯,也就是輸入數(shù)據(jù)的矩陣X不是滿秩矩陣,非滿秩矩陣在求逆是會出現(xiàn)問題。接下來介紹兩種方法來解決這個問題:嶺回歸(ridge regression)與前向逐步回歸(Forward stepwise regression),其中前向逐步回歸與lasso法效果差不多。

  • lasso

    是一種壓縮估計。它通過構(gòu)造一個懲罰函數(shù)得到一個較為精煉的模型,使得它壓縮一些系數(shù),同時設(shè)定一些系數(shù)為零。因此保留了子集收縮的優(yōu)點,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計。

  • 前向逐步回歸

    • 前向逐步回歸算法與lasso效果差不多,屬于貪心算法,即每一步都盡可能減少誤差。一開始,所有的權(quán)重都設(shè)為1,然后每步所做的決策是對某個權(quán)重增加或減少一個很小的值。

    • 逐步線性回歸算法的優(yōu)點在于他可以幫助人們理解現(xiàn)有模型并作出改進。當(dāng)構(gòu)建一個模型后,可運行該算法找出重要特征,這樣就可以及時停止那些不重要特征的收集。最后,如果用于測試,該算法每100次迭代后就可以構(gòu)建一個模型,可使用類似于10折交叉驗證的方法比較這些模型,最終選擇使誤差最小的模型。

    • 當(dāng)應(yīng)用縮減方法(逐步線性回歸或嶺回歸)時,模型也就增加了偏差(bias),與此同時卻減小了模型的方差。

  • 權(quán)衡偏差與誤差

    模型和測量值之間存在的差異,叫做誤差。當(dāng)考慮模型中的“噪聲”或者說誤差時,必須考慮其來源。

    • 對復(fù)雜的過程簡化,會導(dǎo)致模型和測量值之間出現(xiàn)“噪聲”和誤差。

    • 無法理解數(shù)據(jù)的真實生成過程,也會導(dǎo)致差異的發(fā)生。

    • 測量過程本身也可能產(chǎn)生“噪聲”或問題。

  • 小節(jié)

    與分類一樣,回歸也是預(yù)測目標(biāo)值的過程
    當(dāng)數(shù)據(jù)的樣本數(shù)比特征樹還少的時候,矩陣的逆不能直接計算
    嶺回歸是縮減法的一種,相當(dāng)于回歸系數(shù)的大小施加了限制
    縮減法還可以看作是一個對模型增加偏差的同時減少方差


代碼托管見Github

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容