亚洲久久一区二区视频,亚洲色伦天堂

1. L1 Loss：

$L1(y,f(x))=\frac{1}{n} \sum_{i=1}^{n}|f(x_i)-y_i| \tag{1}$
令 $x=f(x_i)-y_i$ ，忽略求和及系數(shù)，則有 $L1(x)=|x|$ ，其導(dǎo)數(shù)為
$\frac{\partial L1}{\partial x}=\pm 1, x \ne 0 \tag{2}$
隨機(jī)梯度下降法更新權(quán)重為：
$\begin{aligned} w&=w-\lambda \frac{\partial L}{\partial x} \\ &=w \pm \lambda \end{aligned} \tag{3}$
其中 $\lambda$ 是學(xué)習(xí)率。由此可知，不管預(yù)測(cè)值 $f(x)$ 和真實(shí)值 $y$ 的差值大小 $x$ 如何變化，反向傳播時(shí)其梯度不變。除非調(diào)整學(xué)習(xí)率大小，不然每次權(quán)重更新的幅度不變。

理想中的梯度變化應(yīng)該是：訓(xùn)練初期 $x$ 值較大，則梯度也大，可以加快模型收斂；訓(xùn)練后期 $x$ 值較小，梯度也應(yīng)小，使模型收斂到全局（或局部）極小值。

L1 Loss 優(yōu)點(diǎn)：梯度值穩(wěn)定，使得訓(xùn)練平穩(wěn)；不易受離群點(diǎn)（臟數(shù)據(jù)）影響，所有數(shù)據(jù)一視同仁。
L1 Loss 缺點(diǎn)： $x=0$ 處不可導(dǎo)，可能影響收斂； $x$ 值小時(shí)梯度大，很難收斂到極小值（除非在 $x$ 值小時(shí)調(diào)小學(xué)習(xí)率，以較小更新幅度）。

圖1 LI Loss

2. L2 Loss

$L2(y,f(x))=\frac{1}{n}\sum_{i=1}^{n}(f(x_i)-y_i)^2 \tag{4}$
令 $x=f(x_i)-y_i$ ，忽略求和及系數(shù)，則有 $L1(x)=x^2$ ，其導(dǎo)數(shù)為
$\frac{\partial L2}{\partial x}=2x \tag{5}$
可知，對(duì)于L2 Loss來說，預(yù)測(cè)值和真實(shí)值的差值 $x$ 越大，梯度越大； $x$ 越小，則梯度值越小。

L2 Loss 優(yōu)點(diǎn)：平滑可導(dǎo)； $x$ 較大時(shí)梯度大，收斂快； $x$ 較小時(shí)梯度小，容易收斂至極值點(diǎn)。
L2 Loss 缺點(diǎn)：訓(xùn)練初期 $x$ 較大導(dǎo)致梯度大，更新幅度太大使得訓(xùn)練不穩(wěn)定，容易出現(xiàn)梯度爆炸現(xiàn)象；受離群點(diǎn)（臟數(shù)據(jù)）影響大，容易在離群點(diǎn)的干擾下大幅更新，使擬合函數(shù)偏向離群點(diǎn)而導(dǎo)致準(zhǔn)確率低。

圖2 L2 Loss

3. Smooth L1 Loss

$SL1(x)= \begin{cases} 0.5x^2 & if \quad |x|<1\\ |x|-0.5 & otherwise \end{cases} \tag{6}$
從上式可知Smooth L1 Loss 是一個(gè)分段函數(shù)，它綜合了 L1 Loss 和 L2 Loss 兩個(gè)損失函數(shù)的優(yōu)點(diǎn)，即在 $x$ 較小時(shí)采用平滑地 L2 Loss，在 $x$ 較大時(shí)采用穩(wěn)定的 L1 Loss。

公式（6）衡量 $x$ 的較大和較小的分界線是 $x=1$ ，當(dāng)然也可以采用其它值來做這個(gè)臨界點(diǎn)。設(shè) $\delta$ 作為衡量預(yù)測(cè)值和真實(shí)值的差值 $x$ 的閾值，則公式（6）變?yōu)楦话愕男问剑?br> $SL1(x)= \begin{cases} 0.5(\delta x)^2 & if\quad |x|<\frac{1}{\delta^2} \\ |x|-\frac{0.5}{\delta^2} & otherwise \end{cases}$