久久久这里是精品,青青青手機觀看

以第 $i$ 節(jié)點(diǎn)輸出為例，Softmax函數(shù)的定義為：

$Softmax(z_i)=\frac{e^{z_i}}{\begin{matrix} \sum_{c=1}^{C} e^{z_c} \end{matrix}}$

上式中， $z_i$ 為第 $i$ 個(gè)節(jié)點(diǎn)的輸出值， $C$ 為輸出節(jié)點(diǎn)的個(gè)數(shù)（分類的類別數(shù)）。通過(guò)Softmax可以將多分類的輸出值轉(zhuǎn)換為范圍在 $[0,1]$ 和為1的概率分布。

Softmax引入指數(shù)形式的優(yōu)點(diǎn)是指數(shù)形式的Softmax函數(shù)能夠?qū)⒉罹啻蟮臄?shù)值距離拉的更大。Softmax引入指數(shù)形式的缺點(diǎn)是

Softmax函數(shù)求導(dǎo)

以三個(gè)輸出節(jié)點(diǎn)的Softmax函數(shù)為例，輸出值 $y_1$ 為 $y_1=e^{z_1}/(e^{z_1}+e^{z_2}+e^{z_3})$ 。雖然 $\frac{\partial y_1}{\partial z_1}$ 與 $\frac{\partial y_1}{\partial z_2}$ 和 $\frac{\partial y_1}{\partial z_3}$ 結(jié)果不同，而 $\frac{\partial y_1}{\partial z_2}$ 和 $\frac{\partial y_1}{\partial z_3}$ 只需換響應(yīng)的索引號(hào)就可以了。因此Softmax函數(shù)求導(dǎo)時(shí)分為 $j==i$ 和 $j!=i$ 的兩種情況下， $y_i$ 關(guān)于 $z_j$ 的導(dǎo)數(shù)。

$j==i$ 時(shí)，如 $\frac{\partial y_1}{\partial z_1}$ ：

$\begin{aligned} \frac{\partial}{\partial z_j}(\frac{e^{z_i}}{\begin{matrix} \sum_{c=1}^{C} e^{z_c} \end{matrix}})&=\frac{\left(e^{z_{i}}\right)^{\prime} \sum_{c=1}^{C} e^{z_{C}}-e^{z_{i}}\left(\sum_{c=1}^{C} e^{z_{C}}\right)^{\prime}}{\left(\sum_{c=1}^{C} e^{z_{C}}\right)^{2}}\\ &=\frac{e^{z_{i}} \sum_{c=1}^{C} e^{z_{c}}-e^{z_{i}} e^{z_{j}}}{\left(\sum_{c=1}^{C} e^{z_{c}}\right)^{2}}\\ &=\frac{e^{z_{i}}\left(\sum_{c=1}^{C} e^{z_{c}}-e^{z_{j}}\right)}{\left(\sum_{c=1}^{C} e^{z_{c}}\right)^{2}}\\ &=\frac{e^{z_{i}}}{\sum_{c=1}^{C} e^{z_{c}}} \times \frac{\sum_{c=1}^{C} e^{z_{C}}-e^{z_{j}}}{\sum_{c=1}^{C} e^{z_{C}}} \end{aligned}$

將 $Softmax(z_i)$ 記為 $p_i$ ，上面的結(jié)果可以轉(zhuǎn)化為 $p_i(1-p_j)$ ，由于前提條件為 $i==j$ ，結(jié)果又可變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=p_i-(p_i)%5E2" alt="p_i-(p_i)^2" mathimg="1">。

$j!=i$ 時(shí)，如 $\frac{\partial y_1}{\partial z_2}$ ：

$\begin{aligned} \frac{\partial}{\partial z_j}(\frac{e^{z_i}}{\begin{matrix} \sum_{c=1}^{C} e^{z_c} \end{matrix}})&=\frac{\left(e^{z_{i}}\right)^{\prime} \sum_{c=1}^{C} e^{z_{C}}-e^{z_{i}}\left(\sum_{c=1}^{C} e^{z_{C}}\right)^{\prime}}{\left(\sum_{c=1}^{C} e^{z_{C}}\right)^{2}}\\ &=\frac{0-e^{z_{j}} e^{z_{i}}}{\left(\sum_{c=1}^{C} e^{z_{c}}\right)^{2}}\\ &=\frac{-e^{z_{j}}}{\sum_{c=1}^{C} e^{z_{C}}} \times \frac{e^{z_{i}}}{\sum_{c=1}^{C} e^{z_{C}}} \end{aligned}$

按照1中所述，上式可以轉(zhuǎn)化為 $-p_j\cdot p_i$ 。

交叉熵?fù)p失函數(shù)

假設(shè)此時(shí)第 $i$ 個(gè)輸出節(jié)點(diǎn)為正確類別對(duì)應(yīng)的輸出節(jié)點(diǎn)， $p_i=Softmax(z_i)$ 是正確類別對(duì)應(yīng)輸出結(jié)點(diǎn)的概率值。添加 $\log$ 運(yùn)算不影響函數(shù)的單調(diào)性，即 $\log p_i$ 。 $p_i$ 的值越大越好，如果要使用梯度下降法來(lái)迭代求解，只需要為 $\log p_i$ 加上負(fù)號(hào)變?yōu)閾p失函數(shù)即可：
$\begin{aligned} loss_i&=-\log p_i=-log(\frac{e^{z_i}}{\begin{matrix} \sum_{c=1}^{C} e^{z_c} \end{matrix}})\\ &=-(z_i-\log \begin{matrix} \sum_{c=1}^{C} e^{z_c} \end{matrix}) \end{aligned}$

但通常說(shuō)的交叉熵是這種形式：
$L=-\begin{matrix} \sum_{c=1}^{C} \end{matrix} y_{c} \log \left(p_{c}\right)$
實(shí)際上 $loss_i$ 與 $L$ 的損失函數(shù)是一致的，接下來(lái)繼續(xù)以三分類的形式講解：

由于標(biāo)簽是one-hot的形式，所以 $L=-0\times\log(p_0)-1\times\log(p_1)-0\times\log(p_2)$ （假定真實(shí)分類為索引1的位置），最終結(jié)果為 $L=-1\times\log(p_1)$ 。再?gòu)?img class="math-inline" src="https://math.jianshu.com/math?formula=loss_1" alt="loss_1" mathimg="1">來(lái)看
$loss_1=-\log p_1=L$

那么損失函數(shù) $L$ 對(duì)網(wǎng)絡(luò)輸出變量 $z_i$ 的偏導(dǎo)數(shù)為：
$\begin{aligned} \frac{\partial L}{\partial z_{i}}&=-\begin{matrix} \sum_{c=1}^{C} \end{matrix} y_{c} \frac{\partial \log \left(p_{c}\right)}{\partial z_{i}}=-\begin{matrix} \sum_{c=1}^{C} \end{matrix} y_{c} \frac{\partial \log \left(p_{c}\right)}{\partial p_{c}} \cdot \frac{\partial p_{c}}{\partial z_{i}}\\ &=-\begin{matrix} \sum_{c=1}^{C} \end{matrix} y_{c} \frac{1}{p_{c}} \cdot \frac{\partial p_{c}}{\partial z_{i}} \end{aligned}$
根據(jù)Softmax函數(shù)求導(dǎo)的結(jié)果，上式可繼續(xù)推導(dǎo)：
$\begin{aligned} \frac{\partial L}{\partial z_{i}}&=-y_i(1-p_i)-\begin{matrix}\sum_{c\neq i}\end{matrix}y_c\frac{1}{p_c}(-p_c\cdot p_i)\\ &=-y_i(1-p_i)+\begin{matrix}\sum_{c\neq i}y_c\cdot p_i\end{matrix}\\ &=-y_i+y_ip_i+\begin{matrix}\sum_{c\neq i}y_c\cdot p_i\end{matrix}\\ &=p_i(y_i+\begin{matrix}\sum_{c\neq i} y_c\end{matrix})-y_i \end{aligned}$
至此完成了對(duì)交叉熵函數(shù)的梯度推導(dǎo)。

參考文獻(xiàn)：

一文詳解Softmax函數(shù)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Softmax函數(shù)

Softmax函數(shù)

Softmax函數(shù)求導(dǎo)

交叉熵?fù)p失函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Softmax函數(shù)

Softmax函數(shù)求導(dǎo)

交叉熵?fù)p失函數(shù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av