1. L1 Loss:
令,忽略求和及系數(shù),則有
,其導(dǎo)數(shù)為
隨機(jī)梯度下降法更新權(quán)重為:
其中是學(xué)習(xí)率。由此可知,不管預(yù)測(cè)值
和真實(shí)值
的差值大小
如何變化,反向傳播時(shí)其梯度不變。除非調(diào)整學(xué)習(xí)率大小,不然每次權(quán)重更新的幅度不變。
理想中的梯度變化應(yīng)該是:訓(xùn)練初期值較大,則梯度也大,可以加快模型收斂;訓(xùn)練后期
值較小,梯度也應(yīng)小,使模型收斂到全局(或局部)極小值。
L1 Loss 優(yōu)點(diǎn):梯度值穩(wěn)定,使得訓(xùn)練平穩(wěn);不易受離群點(diǎn)(臟數(shù)據(jù))影響,所有數(shù)據(jù)一視同仁。
L1 Loss 缺點(diǎn):處不可導(dǎo),可能影響收斂;
值小時(shí)梯度大,很難收斂到極小值(除非在
值小時(shí)調(diào)小學(xué)習(xí)率,以較小更新幅度)。

2. L2 Loss
令,忽略求和及系數(shù),則有
,其導(dǎo)數(shù)為
可知,對(duì)于L2 Loss來說,預(yù)測(cè)值和真實(shí)值的差值越大,梯度越大;
越小,則梯度值越小。
L2 Loss 優(yōu)點(diǎn):平滑可導(dǎo);較大時(shí)梯度大,收斂快;
較小時(shí)梯度小,容易收斂至極值點(diǎn)。
L2 Loss 缺點(diǎn):訓(xùn)練初期較大導(dǎo)致梯度大,更新幅度太大使得訓(xùn)練不穩(wěn)定,容易出現(xiàn)梯度爆炸現(xiàn)象;受離群點(diǎn)(臟數(shù)據(jù))影響大,容易在離群點(diǎn)的干擾下大幅更新,使擬合函數(shù)偏向離群點(diǎn)而導(dǎo)致準(zhǔn)確率低。

3. Smooth L1 Loss
從上式可知Smooth L1 Loss 是一個(gè)分段函數(shù),它綜合了 L1 Loss 和 L2 Loss 兩個(gè)損失函數(shù)的優(yōu)點(diǎn),即在較小時(shí)采用平滑地 L2 Loss,在
較大時(shí)采用穩(wěn)定的 L1 Loss。
公式(6)衡量的較大和較小的分界線是
,當(dāng)然也可以采用其它值來做這個(gè)臨界點(diǎn)。設(shè)
作為衡量預(yù)測(cè)值和真實(shí)值的差值
的閾值,則公式(6)變?yōu)楦话愕男问剑?br>
