Gradient Descent
Tip1: Turning Your Learning Rate
- Learning Rate
會(huì)影響梯度下降的效果,太小的話會(huì)走得很慢,太大的話有可能會(huì)跨過(guò)最低點(diǎn)。
- Learning Rate 的選擇
-
一開(kāi)始可以選大一點(diǎn),等到后來(lái)接近最小值點(diǎn)了,可以選小一點(diǎn),但這個(gè)是比較模糊的說(shuō)法
- 比如
- 但是沒(méi)有一種算法是萬(wàn)金油,所以要根據(jù)不同的情況選擇不同的算法
AdaGrad 算法
- 又
化簡(jiǎn)得
Tip2: Make the Training Faster—SGD
Stochastic Gradient Descent(隨機(jī)梯度下降法)
- 只選取一個(gè)樣本進(jìn)行梯度下降
- 這是三種下降法里最快的一種,BGD走一步,SGD能走幾十步了
- 但是由于只選取一個(gè)樣本,所以難免會(huì)受到更大的噪音干擾,迭代次數(shù)會(huì)較其他兩種更多,下降的過(guò)程中路線會(huì)逞折線前進(jìn),但大體上是朝著下降的方向前進(jìn)
Mini-Batch Gradient Descent
- 選取一小組樣本進(jìn)行梯度下降
Batch Gradient Descent
- 每一次跌倒都用所有的樣本
Feature Scaling(特征歸一化)
- 把不同的參數(shù)的Scale(尺寸的數(shù)量級(jí))放在同一個(gè)數(shù)量級(jí)上比價(jià)
- 參數(shù)在不同尺度上的比較
- 樣本r的i參數(shù)
的歸一化方式:
-
是所有樣本的i參數(shù)的平均值
-
是所有樣本的i參數(shù)的標(biāo)準(zhǔn)差
-
Saddle Point(鞍點(diǎn))
- 當(dāng)Loss Function小到一定程度時(shí),并不能代表已經(jīng)接近了Minimal,有可能是在鞍點(diǎn)附近。
- 鞍點(diǎn)


