梯度消失和梯度爆炸

通常來說,梯度爆炸更容易處理一些。因為梯度爆炸的時候,我們的程序會收到NaN錯誤。我們也可以設置一個梯度閾值,當梯度超過這個閾值的時候可以直接截取。

梯度消失更難檢測,而且也更難處理一些??偟膩碚f,我們有三種方法應對梯度消失問題:

  1. 合理的初始化權(quán)重值。初始化權(quán)重,使每個神經(jīng)元盡可能不要取極大或極小值,以躲開梯度消失的區(qū)域。
  2. 使用relu代替sigmoid和tanh作為激活函數(shù)。原理請參考上一篇文章零基礎入門深度學習(4) - 卷積神經(jīng)網(wǎng)絡激活函數(shù)一節(jié)。
  3. 使用其他結(jié)構(gòu)的RNNs,比如長短時記憶網(wǎng)絡(LTSM)和Gated Recurrent Unit(GRU),這是最流行的做法。我們將在以后的文章中介紹這兩種網(wǎng)絡。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容