緒論:背景
分類:Logistic回歸
one-hot Encoding
本質(zhì):連續(xù)的值映射到0-1之間(相當于概率化)?
核心:梯度下降
一、基本網(wǎng)絡(luò)架構(gòu)
- 輸入層x-隱藏層h-輸出層y:(i, j, k)
- 分層layer
- ?節(jié)點node
激活函數(shù)
- sigmoid()
sigmoid函數(shù)
誤差函數(shù)E(W,b)
- 交叉熵
?本質(zhì):概率和誤差函數(shù)之間有一定的聯(lián)系
MLP:事件發(fā)生的概率(可能性)越大,則交叉熵越小?(熵越低,表示更加有序、確定)
優(yōu)化:相乘改為相加,取對數(shù)log?- MSE:平均平方誤差
注意 權(quán)重更新的±號:對y_hat偏導后的負數(shù)(MSE對y_hat求偏導后的結(jié)果是y_hat - y:即當誤差是y_hat - y時,權(quán)重更新為負號)- MAE:平均絕對誤差
- 誤差error
誤差函數(shù)E對層輸出側(cè)(右側(cè))的偏導- 誤差項delta
誤差函數(shù)E對層輸入側(cè)(左側(cè))的偏導權(quán)重更新
如圖output對h2的偏導==權(quán)重W2——>那么對權(quán)重W2的偏導,就是h2
所以權(quán)重更新需要乘以“輸入(h2)”
注意:編程時,權(quán)重更新相減(前提是最初的error計算公式為y_hat - y) @梯度方向表示增加
?
簡單的神經(jīng)網(wǎng)絡(luò)
二、感知器perceptron(神經(jīng)元結(jié)構(gòu))
感知器算法本質(zhì)上就是梯度下降
離散分類的階躍函數(shù)==連續(xù)型感知器的sigmoid?函數(shù);多類別用softmax函數(shù)?表示

單層感知器
微分:離散值連續(xù)化
選擇距離對應(yīng)的概率:距離越遠正確分類的概率越大,錯誤分類的概率越小
距離:?樣本點到當前分類界限的距離
誤差的連續(xù)表示
多層感知器
- 前向反饋Forward Feedback
反向傳播Backpropagation
多層感知器
三、神經(jīng)網(wǎng)絡(luò)架構(gòu)(非線性分類器)
單層神經(jīng)網(wǎng)絡(luò)
單層神經(jīng)網(wǎng)絡(luò)
多層神經(jīng)網(wǎng)絡(luò)
多層神經(jīng)網(wǎng)絡(luò)
四、反向傳播:得到誤差項,更新權(quán)值
-
原理
算法流程 具體計算過程 參考來源
網(wǎng)絡(luò)架構(gòu)
初始網(wǎng)絡(luò)前向傳播forward
- out_h1 = 0.5932
- out_h2 = 0.5968
- out_o1 = 0.7513
- out_o2 = 0.7729
反向傳播backpropagation
(1) 計算總的誤差(誤差函數(shù)E)
target: y ; output: y_hat
(2) hidden層到output層,以W5為例反向傳播過程
- 誤差error(每一層輸出側(cè)的誤差)
output層:誤差error
反向傳播 誤差的一般公式- 激活函數(shù)的導數(shù)
節(jié)點處:激活函數(shù)- 誤差項δ
errorterm = error*激活函數(shù)的導數(shù)
不妨理解為傳播路徑輸出側(cè)(右側(cè):激活函數(shù)只前)的誤差- 權(quán)重變化ΔW:誤差項δ*傳播路徑的輸入
權(quán)重更新:輸出合并為total項
一般公式:可以表示任意層數(shù)、任意節(jié)點的權(quán)重更新
Vin是該層的輸入,比如經(jīng)過隱藏層激活函數(shù)后的輸出值一般公式的抽象表示權(quán)重更新W:±號的選擇
基于MSE的誤差函數(shù)
output - target
權(quán)重更新:基于y_hat-y,選擇-號
補充:誤差項δ
比值為隱藏層輸出/激活函數(shù)的導數(shù)f'(hi)
反向傳播 誤差項
f'(hj)表示隱藏層節(jié)點j 輸出項的導數(shù)
五、拓展補充
- 學習率太高
- 樣本數(shù)量
學習率α 乘上1/N,N是訓練集中數(shù)據(jù)量:不被訓練集樣本的個數(shù)影響
參考
以下兩個條件成立時,網(wǎng)絡(luò)會無法收斂,且參數(shù)迅速擴大直至變成NaN:
1)input/label值過大:如0~100
2)學習率較大,如0.1
當學習率太高/輸入數(shù)據(jù)太大,會導致導數(shù)非常大,直接跳到二次函數(shù)對稱軸另一邊

學習率太高




















