機(jī)器學(xué)習(xí)與正則化

在學(xué)習(xí)器訓(xùn)練過(guò)程中經(jīng)常會(huì)遇到過(guò)擬合的情況,模型記錄噪聲和不相關(guān)特征,在新數(shù)據(jù)面前訓(xùn)練效果不佳。這樣的學(xué)習(xí)器沒(méi)有從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)真正有意義的模式,而只是記錄了它所看到的一切,解決此問(wèn)題的一種解決方法是正則化[4]。

一、正則化概念

1、基礎(chǔ)概念

正則化一般具有如下形式[1]

min \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i))+\lambda J(f)

其中第一項(xiàng)為經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng)為正則化項(xiàng)(regularizer)也稱為懲罰項(xiàng)(penalty term),\lambda為調(diào)整兩者之間關(guān)系的系數(shù)。

正則化的作用是選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度同時(shí)較小的模型。正則化項(xiàng)一般是模型復(fù)雜度單調(diào)遞增函數(shù),模型越復(fù)雜,值越大。給模型的參數(shù)加上一定的正則約束,這樣在優(yōu)化目標(biāo)函數(shù)的同時(shí)能夠避免權(quán)值過(guò)大帶來(lái)過(guò)擬合的風(fēng)險(xiǎn)。

正則化是模型防止過(guò)擬合的核心技術(shù)之一。

2、可控參數(shù)lambda

正則項(xiàng)系數(shù)lambda,調(diào)整經(jīng)驗(yàn)誤差項(xiàng)和正則項(xiàng)之間的系數(shù)。

當(dāng)lamba=0時(shí),相當(dāng)于公式?jīng)]有正則項(xiàng),模型全力討好第一項(xiàng),將經(jīng)驗(yàn)誤差進(jìn)行最小化,往往也是最容易發(fā)生過(guò)擬合的時(shí)候。隨著lamba的增大,正則化項(xiàng)在模型中的話語(yǔ)權(quán)越來(lái)越大,對(duì)模型復(fù)雜性的懲罰因子也越來(lái)越厲害。

3、公式地位

該公式是有監(jiān)督學(xué)習(xí)的核心原理,是機(jī)器學(xué)習(xí)中最核心、最關(guān)鍵、最能概述監(jiān)督學(xué)習(xí)的核心思想原理。

會(huì)發(fā)現(xiàn)80%的單一機(jī)器學(xué)習(xí)模型都是這個(gè)公式可以解釋的,無(wú)非是對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)、正則化項(xiàng)變著法換樣子而已。

擴(kuò)展第一項(xiàng)的經(jīng)驗(yàn)風(fēng)險(xiǎn),探究常見(jiàn)的機(jī)器學(xué)習(xí)模型與對(duì)應(yīng)經(jīng)驗(yàn)風(fēng)險(xiǎn)關(guān)系【暫放】

二、常見(jiàn)的正則化項(xiàng)

正則化項(xiàng)的可選擇比較多的,比較常見(jiàn)的是L1、L2正則項(xiàng)

1、L1正則化[2]

采用L1范數(shù)的正則化又稱為lasso,比如在sklearn.linear_mode下的Lasso,LassoCV, LassoLarsCV就是線性回歸與L1正則項(xiàng)的組合,LassoCV, LassoLarsCV使用交叉驗(yàn)證等方式獲得最優(yōu)的lambda

使用L1范數(shù)作為正則化項(xiàng),下面公式稱為lasso

min_w \sum_{i=1}^m(y_i-w^Tx_i)^2+\lambda||w||_1

可用于特征選擇,降低特征維度

2、L2正則化[2]

使用L2范數(shù)作為正則化項(xiàng),下面公式稱為ridge

min_w \sum_{i=1}^m(y_i-w^Tx_i)^2+\lambda||w||_2

L2是正則化中的天選之子,在各種防止過(guò)擬合和正則化處理過(guò)程中,L2正則化可謂風(fēng)頭無(wú)兩

由于偏導(dǎo)方面的優(yōu)勢(shì),L2正則化項(xiàng)的復(fù)雜度比L1要好。

3、Elastic-Net正則化

Elastic-Net正則化是嶺回歸和Lasso回歸的組合,Zou和 Hastie (2005) 引入了 Elastic Net 正則化,可以通過(guò)參數(shù)\rho調(diào)節(jié)L1正則化和L2正則化的權(quán)重

J(\theta)=\frac{1}{2}\sum_{i}^{m}(y^{(i)}-\theta ^Tx^{(i)})^2+\lambda (\rho\sum_{j}^{n}|\theta_j|+(1-\rho)\sum_{j}^{n}\theta_j^2)

補(bǔ)充:范數(shù)

范數(shù)可以理解為距離度量的方法。

向量空間中的向量都是有大小的,這個(gè)大小如何度量,就是用范數(shù)來(lái)度量的,不同的范數(shù)都可以來(lái)度量這個(gè)大小,就好比米和尺都可以來(lái)度量遠(yuǎn)近一樣

L_{p}=\sqrt[p]{\sum_i^nx_i^p}

當(dāng)p=1時(shí)就是L1范數(shù),p=2時(shí)就是L2范數(shù)

參考資料

[1] 李航《統(tǒng)計(jì)學(xué)習(xí)方法》

[2] 周志華《機(jī)器學(xué)習(xí)》

[3] L1正則化引起稀疏解的多種解釋:https://zhuanlan.zhihu.com/p/50142573

[4] L1正則化的稀疏性:https://vimsky.com/article/3852.html

[5] 深度學(xué)習(xí)中的正則化:https://github.com/MingchaoZhu/DeepLearning/blob/master/7%20%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E6%AD%A3%E5%88%99%E5%8C%96.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容