Smooth L1 Loss

1. L1 Loss:

L1(y,f(x))=\frac{1}{n} \sum_{i=1}^{n}|f(x_i)-y_i| \tag{1}
x=f(x_i)-y_i,忽略求和及系數(shù),則有L1(x)=|x|,其導(dǎo)數(shù)為
\frac{\partial L1}{\partial x}=\pm 1, x \ne 0 \tag{2}
隨機(jī)梯度下降法更新權(quán)重為:
\begin{aligned} w&=w-\lambda \frac{\partial L}{\partial x} \\ &=w \pm \lambda \end{aligned} \tag{3}
其中\lambda是學(xué)習(xí)率。由此可知,不管預(yù)測(cè)值f(x)和真實(shí)值y的差值大小x如何變化,反向傳播時(shí)其梯度不變。除非調(diào)整學(xué)習(xí)率大小,不然每次權(quán)重更新的幅度不變。

理想中的梯度變化應(yīng)該是:訓(xùn)練初期x值較大,則梯度也大,可以加快模型收斂;訓(xùn)練后期x值較小,梯度也應(yīng)小,使模型收斂到全局(或局部)極小值。

L1 Loss 優(yōu)點(diǎn):梯度值穩(wěn)定,使得訓(xùn)練平穩(wěn);不易受離群點(diǎn)(臟數(shù)據(jù))影響,所有數(shù)據(jù)一視同仁。
L1 Loss 缺點(diǎn)x=0處不可導(dǎo),可能影響收斂;x值小時(shí)梯度大,很難收斂到極小值(除非在x值小時(shí)調(diào)小學(xué)習(xí)率,以較小更新幅度)。

圖1 LI Loss

2. L2 Loss

L2(y,f(x))=\frac{1}{n}\sum_{i=1}^{n}(f(x_i)-y_i)^2 \tag{4}
x=f(x_i)-y_i,忽略求和及系數(shù),則有L1(x)=x^2,其導(dǎo)數(shù)為
\frac{\partial L2}{\partial x}=2x \tag{5}
可知,對(duì)于L2 Loss來說,預(yù)測(cè)值和真實(shí)值的差值x越大,梯度越大;x越小,則梯度值越小。

L2 Loss 優(yōu)點(diǎn):平滑可導(dǎo);x較大時(shí)梯度大,收斂快;x較小時(shí)梯度小,容易收斂至極值點(diǎn)。
L2 Loss 缺點(diǎn):訓(xùn)練初期x較大導(dǎo)致梯度大,更新幅度太大使得訓(xùn)練不穩(wěn)定,容易出現(xiàn)梯度爆炸現(xiàn)象;受離群點(diǎn)(臟數(shù)據(jù))影響大,容易在離群點(diǎn)的干擾下大幅更新,使擬合函數(shù)偏向離群點(diǎn)而導(dǎo)致準(zhǔn)確率低。

圖2 L2 Loss

3. Smooth L1 Loss

SL1(x)= \begin{cases} 0.5x^2 & if \quad |x|<1\\ |x|-0.5 & otherwise \end{cases} \tag{6}
從上式可知Smooth L1 Loss 是一個(gè)分段函數(shù),它綜合了 L1 Loss 和 L2 Loss 兩個(gè)損失函數(shù)的優(yōu)點(diǎn),即在x較小時(shí)采用平滑地 L2 Loss,在x較大時(shí)采用穩(wěn)定的 L1 Loss。

公式(6)衡量x的較大和較小的分界線是x=1,當(dāng)然也可以采用其它值來做這個(gè)臨界點(diǎn)。設(shè)\delta作為衡量預(yù)測(cè)值和真實(shí)值的差值x的閾值,則公式(6)變?yōu)楦话愕男问剑?br> SL1(x)= \begin{cases} 0.5(\delta x)^2 & if\quad |x|<\frac{1}{\delta^2} \\ |x|-\frac{0.5}{\delta^2} & otherwise \end{cases}

圖 3 Smooth L1 Loss

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 對(duì)于邊框的預(yù)測(cè)是一個(gè)回歸問題。通??梢赃x擇平方損失函數(shù)(L2損失)$f(x)=x^2$。但這個(gè)損失對(duì)于比較大的誤差...
    GoDeep閱讀 9,161評(píng)論 0 2
  • 之前再看Fast R-CNN的時(shí)候,網(wǎng)絡(luò)bounding boxes回歸使用的smooth L1 loss,當(dāng)時(shí)并...
    井底蛙蛙呱呱呱閱讀 21,061評(píng)論 0 3
  • 一. 概念: 正則化(Regularization) 是機(jī)器學(xué)習(xí)中對(duì)原始損失函數(shù)引入額外信息,以便防止過擬合和提高...
    三方斜陽閱讀 2,254評(píng)論 0 1
  • 引入 監(jiān)督學(xué)習(xí)的過程可以概括為:最小化誤差的同時(shí)規(guī)則化參數(shù)。最小化誤差是為了讓模型擬合訓(xùn)練數(shù)據(jù),規(guī)則化參數(shù)是為了防...
    Arya鑫閱讀 21,790評(píng)論 6 27
  • L1正則化和L2正則化可以看做是損失函數(shù)的懲罰項(xiàng)。所謂『懲罰』是指對(duì)損失函數(shù)中的某些參數(shù)做一些限制。對(duì)于線性回歸模...
    Jasmine晴天和我閱讀 663評(píng)論 0 2

友情鏈接更多精彩內(nèi)容