在學(xué)習(xí)器訓(xùn)練過(guò)程中經(jīng)常會(huì)遇到過(guò)擬合的情況,模型記錄噪聲和不相關(guān)特征,在新數(shù)據(jù)面前訓(xùn)練效果不佳。這樣的學(xué)習(xí)器沒(méi)有從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)真正有意義的模式,而只是記錄了它所看到的一切,解決此問(wèn)題的一種解決方法是正則化[4]。
一、正則化概念
1、基礎(chǔ)概念
正則化一般具有如下形式[1]
其中第一項(xiàng)為經(jīng)驗(yàn)風(fēng)險(xiǎn),第二項(xiàng)為正則化項(xiàng)(regularizer)也稱為懲罰項(xiàng)(penalty term),為調(diào)整兩者之間關(guān)系的系數(shù)。
正則化的作用是選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)和模型復(fù)雜度同時(shí)較小的模型。正則化項(xiàng)一般是模型復(fù)雜度單調(diào)遞增函數(shù),模型越復(fù)雜,值越大。給模型的參數(shù)加上一定的正則約束,這樣在優(yōu)化目標(biāo)函數(shù)的同時(shí)能夠避免權(quán)值過(guò)大帶來(lái)過(guò)擬合的風(fēng)險(xiǎn)。
正則化是模型防止過(guò)擬合的核心技術(shù)之一。
2、可控參數(shù)lambda
正則項(xiàng)系數(shù)lambda,調(diào)整經(jīng)驗(yàn)誤差項(xiàng)和正則項(xiàng)之間的系數(shù)。
當(dāng)lamba=0時(shí),相當(dāng)于公式?jīng)]有正則項(xiàng),模型全力討好第一項(xiàng),將經(jīng)驗(yàn)誤差進(jìn)行最小化,往往也是最容易發(fā)生過(guò)擬合的時(shí)候。隨著lamba的增大,正則化項(xiàng)在模型中的話語(yǔ)權(quán)越來(lái)越大,對(duì)模型復(fù)雜性的懲罰因子也越來(lái)越厲害。
3、公式地位
該公式是有監(jiān)督學(xué)習(xí)的核心原理,是機(jī)器學(xué)習(xí)中最核心、最關(guān)鍵、最能概述監(jiān)督學(xué)習(xí)的核心思想原理。
會(huì)發(fā)現(xiàn)80%的單一機(jī)器學(xué)習(xí)模型都是這個(gè)公式可以解釋的,無(wú)非是對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)、正則化項(xiàng)變著法換樣子而已。
擴(kuò)展第一項(xiàng)的經(jīng)驗(yàn)風(fēng)險(xiǎn),探究常見(jiàn)的機(jī)器學(xué)習(xí)模型與對(duì)應(yīng)經(jīng)驗(yàn)風(fēng)險(xiǎn)關(guān)系【暫放】
二、常見(jiàn)的正則化項(xiàng)
正則化項(xiàng)的可選擇比較多的,比較常見(jiàn)的是L1、L2正則項(xiàng)
1、L1正則化[2]
采用L1范數(shù)的正則化又稱為lasso,比如在sklearn.linear_mode下的Lasso,LassoCV, LassoLarsCV就是線性回歸與L1正則項(xiàng)的組合,LassoCV, LassoLarsCV使用交叉驗(yàn)證等方式獲得最優(yōu)的值
使用L1范數(shù)作為正則化項(xiàng),下面公式稱為lasso
可用于特征選擇,降低特征維度
2、L2正則化[2]
使用L2范數(shù)作為正則化項(xiàng),下面公式稱為ridge
L2是正則化中的天選之子,在各種防止過(guò)擬合和正則化處理過(guò)程中,L2正則化可謂風(fēng)頭無(wú)兩
由于偏導(dǎo)方面的優(yōu)勢(shì),L2正則化項(xiàng)的復(fù)雜度比L1要好。
3、Elastic-Net正則化
Elastic-Net正則化是嶺回歸和Lasso回歸的組合,Zou和 Hastie (2005) 引入了 Elastic Net 正則化,可以通過(guò)參數(shù)調(diào)節(jié)L1正則化和L2正則化的權(quán)重
補(bǔ)充:范數(shù)
范數(shù)可以理解為距離度量的方法。
向量空間中的向量都是有大小的,這個(gè)大小如何度量,就是用范數(shù)來(lái)度量的,不同的范數(shù)都可以來(lái)度量這個(gè)大小,就好比米和尺都可以來(lái)度量遠(yuǎn)近一樣
當(dāng)p=1時(shí)就是L1范數(shù),p=2時(shí)就是L2范數(shù)
參考資料
[1] 李航《統(tǒng)計(jì)學(xué)習(xí)方法》
[2] 周志華《機(jī)器學(xué)習(xí)》
[3] L1正則化引起稀疏解的多種解釋:https://zhuanlan.zhihu.com/p/50142573
[4] L1正則化的稀疏性:https://vimsky.com/article/3852.html
[5] 深度學(xué)習(xí)中的正則化:https://github.com/MingchaoZhu/DeepLearning/blob/master/7%20%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E6%AD%A3%E5%88%99%E5%8C%96.pdf