李宏毅ML03—Gradient Descent

Gradient Descent

w^{n+1}=w^n-\eta\frac{\partial L(w^n)}{\partial w}

Tip1: Turning Your Learning Rate

  • Learning Rate \eta 會(huì)影響梯度下降的效果,太小的話會(huì)走得很慢,太大的話有可能會(huì)跨過(guò)最低點(diǎn)。
  • Learning Rate 的選擇
  • \eta 一開(kāi)始可以選大一點(diǎn),等到后來(lái)接近最小值點(diǎn)了,可以選小一點(diǎn),但這個(gè)是比較模糊的說(shuō)法
  • 比如 \eta^t=\frac{\eta}{\sqrt{t+1}}
  • 但是沒(méi)有一種算法是萬(wàn)金油,所以要根據(jù)不同的情況選擇不同的算法

AdaGrad 算法

w^{t+1}=w^t-\frac{\eta^t}{\sigma^t}g^t

  • \sigma^0=\sqrt{(g^0)^2}
  • \sigma^2=\sqrt{\frac{1}{3}[(g^0)^2+(g^1)^2+(g^2)^2]}
  • \sigma^n=\sqrt{\frac{1}{n+1}\sum\limits_{i=0}^t(g^i)^2}
  • \eta^t=\frac{\eta}{\sqrt{t+1}}
    化簡(jiǎn)得
    w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum\limits_{i=0}^t(g^i)^2g^t}}

Tip2: Make the Training Faster—SGD

Stochastic Gradient Descent(隨機(jī)梯度下降法)

  • 只選取一個(gè)樣本進(jìn)行梯度下降
  • 這是三種下降法里最快的一種,BGD走一步,SGD能走幾十步了
  • 但是由于只選取一個(gè)樣本,所以難免會(huì)受到更大的噪音干擾,迭代次數(shù)會(huì)較其他兩種更多,下降的過(guò)程中路線會(huì)逞折線前進(jìn),但大體上是朝著下降的方向前進(jìn)

Mini-Batch Gradient Descent

  • 選取一小組樣本進(jìn)行梯度下降

Batch Gradient Descent

  • 每一次跌倒都用所有的樣本

Feature Scaling(特征歸一化)

  • 把不同的參數(shù)的Scale(尺寸的數(shù)量級(jí))放在同一個(gè)數(shù)量級(jí)上比價(jià)
  • 參數(shù)在不同尺度上的比較

x^r_i=\frac{x^r_i-m_i}{\sigma _i}

  • 樣本r的i參數(shù)x^r_i的歸一化方式:
    • m_i是所有樣本的i參數(shù)的平均值
    • \sigma _i是所有樣本的i參數(shù)的標(biāo)準(zhǔn)差

Saddle Point(鞍點(diǎn))

  • 當(dāng)Loss Function小到一定程度時(shí),并不能代表已經(jīng)接近了Minimal,有可能是在鞍點(diǎn)附近。
  • 鞍點(diǎn)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容