[深度學習]神經(jīng)網(wǎng)絡(luò)理論

緒論:背景

分類:Logistic回歸

  • one-hot Encoding


    本質(zhì):連續(xù)的值映射到0-1之間(相當于概率化)?

核心:梯度下降

一、基本網(wǎng)絡(luò)架構(gòu)

  • 輸入層x-隱藏層h-輸出層y:(i, j, k)
  • 分層layer
  • ?節(jié)點node

激活函數(shù)

  • sigmoid()
    sigmoid函數(shù)

誤差函數(shù)E(W,b)

  • 交叉熵
    ?本質(zhì):概率和誤差函數(shù)之間有一定的聯(lián)系
    MLP:事件發(fā)生的概率(可能性)越大,則交叉熵越小?(熵越低,表示更加有序、確定)
    優(yōu)化:相乘改為相加,取對數(shù)log?
  • MSE:平均平方誤差
    注意 權(quán)重更新的±號:對y_hat偏導后的負數(shù)(MSE對y_hat求偏導后的結(jié)果是y_hat - y:即當誤差是y_hat - y時,權(quán)重更新為負號)
  • MAE:平均絕對誤差
  • 誤差error
    誤差函數(shù)E對層輸出側(cè)(右側(cè))的偏導
  • 誤差項delta
    誤差函數(shù)E對層輸入側(cè)(左側(cè))的偏導
  • 權(quán)重更新
    如圖output對h2的偏導==權(quán)重W2——>那么對權(quán)重W2的偏導,就是h2
    所以權(quán)重更新需要乘以“輸入(h2)”
    注意:編程時,權(quán)重更新相減(前提是最初的error計算公式為y_hat - y) @梯度方向表示增加
    ?


    簡單的神經(jīng)網(wǎng)絡(luò)

二、感知器perceptron(神經(jīng)元結(jié)構(gòu))

感知器算法本質(zhì)上就是梯度下降
離散分類的階躍函數(shù)==連續(xù)型感知器的sigmoid?函數(shù);多類別用softmax函數(shù)?表示


單層感知器
  • 微分:離散值連續(xù)化
    選擇距離對應(yīng)的概率:距離越遠正確分類的概率越大,錯誤分類的概率越小
    距離:?樣本點到當前分類界限的距離


    誤差的連續(xù)表示

多層感知器

  • 前向反饋Forward Feedback
  • 反向傳播Backpropagation


    多層感知器

三、神經(jīng)網(wǎng)絡(luò)架構(gòu)(非線性分類器)

單層神經(jīng)網(wǎng)絡(luò)

單層神經(jīng)網(wǎng)絡(luò)

多層神經(jīng)網(wǎng)絡(luò)

多層神經(jīng)網(wǎng)絡(luò)

四、反向傳播:得到誤差項,更新權(quán)值

  1. 原理


    算法流程
  2. 具體計算過程 參考來源

  1. 網(wǎng)絡(luò)架構(gòu)


    初始網(wǎng)絡(luò)
  2. 前向傳播forward

  • out_h1 = 0.5932
  • out_h2 = 0.5968
  • out_o1 = 0.7513
  • out_o2 = 0.7729
  1. 反向傳播backpropagation

    (1) 計算總的誤差(誤差函數(shù)E)
    target: y ; output: y_hat

    (2) hidden層到output層,以W5為例
    反向傳播過程
  • 誤差error(每一層輸出側(cè)的誤差)
    output層:誤差error

    反向傳播 誤差的一般公式
  • 激活函數(shù)的導數(shù)
    節(jié)點處:激活函數(shù)
  • 誤差項δerrorterm = error*激活函數(shù)的導數(shù)
    不妨理解為傳播路徑輸出側(cè)(右側(cè):激活函數(shù)只前)的誤差
  • 權(quán)重變化ΔW:誤差項δ*傳播路徑的輸入
    權(quán)重更新:輸出合并為total項

    一般公式:可以表示任意層數(shù)、任意節(jié)點的權(quán)重更新

    一般公式的抽象表示
    Vin是該層的輸入,比如經(jīng)過隱藏層激活函數(shù)后的輸出值
  • 權(quán)重更新W:±號的選擇

    基于MSE的誤差函數(shù)
    output - target

    權(quán)重更新:基于y_hat-y,選擇-號

補充:誤差項δ

比值為隱藏層輸出/激活函數(shù)的導數(shù)f'(hi)

反向傳播 誤差項

f'(hj)表示隱藏層節(jié)點j 輸出項的導數(shù)

五、拓展補充

  1. 學習率太高
  • 樣本數(shù)量
    學習率α 乘上1/N,N是訓練集中數(shù)據(jù)量:不被訓練集樣本的個數(shù)影響

參考
以下兩個條件成立時,網(wǎng)絡(luò)會無法收斂,且參數(shù)迅速擴大直至變成NaN:
1)input/label值過大:如0~100
2)學習率較大,如0.1

當學習率太高/輸入數(shù)據(jù)太大,會導致導數(shù)非常大,直接跳到二次函數(shù)對稱軸另一邊


學習率太高

References

原理詳解|含數(shù)值計算
問題 | 學習率太大

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容