Batch Normalization論文翻譯——中文版

文章作者:Tyan
博客:noahsnail.com | CSDN | 簡書

聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請(qǐng)聯(lián)系作者刪除博文,謝謝!

翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation

摘要

訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的復(fù)雜性在于,每層輸入的分布在訓(xùn)練過程中會(huì)發(fā)生變化,因?yàn)榍懊娴膶拥膮?shù)會(huì)發(fā)生變化。通過要求較低的學(xué)習(xí)率和仔細(xì)的參數(shù)初始化減慢了訓(xùn)練,并且使具有飽和非線性的模型訓(xùn)練起來非常困難。我們將這種現(xiàn)象稱為內(nèi)部協(xié)變量轉(zhuǎn)移,并通過標(biāo)準(zhǔn)化層輸入來解決這個(gè)問題。我們的方法力圖使標(biāo)準(zhǔn)化成為模型架構(gòu)的一部分,并為每個(gè)訓(xùn)練小批量數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)化。批標(biāo)準(zhǔn)化使我們能夠使用更高的學(xué)習(xí)率,并且不用太注意初始化。它也作為一個(gè)正則化項(xiàng),在某些情況下不需要Dropout。將批量標(biāo)準(zhǔn)化應(yīng)用到最先進(jìn)的圖像分類模型上,批標(biāo)準(zhǔn)化在取得相同的精度的情況下,減少了14倍的訓(xùn)練步驟,并以顯著的差距擊敗了原始模型。使用批標(biāo)準(zhǔn)化網(wǎng)絡(luò)的組合,我們改進(jìn)了在ImageNet分類上公布的最佳結(jié)果:達(dá)到了4.9% top-5的驗(yàn)證誤差(和4.8%測試誤差),超過了人類評(píng)估者的準(zhǔn)確性。

1. 引言

深度學(xué)習(xí)在視覺、語音等諸多方面顯著提高了現(xiàn)有技術(shù)的水平。隨機(jī)梯度下降(SGD)已經(jīng)被證明是訓(xùn)練深度網(wǎng)絡(luò)的有效方式,并且已經(jīng)使用諸如動(dòng)量(Sutskever等,2013)和Adagrad(Duchi等人,2011)等SGD變種取得了最先進(jìn)的性能。SGD優(yōu)化網(wǎng)絡(luò)參數(shù)\Theta,以最小化損失

\Theta = \arg \min_{\Theta}\frac {1}{N}\sum_{i=1}^N \ell(x_i, \Theta)

x_{1\ldots N}是訓(xùn)練數(shù)據(jù)集。使用SGD,訓(xùn)練將逐步進(jìn)行,在每一步中,我們考慮一個(gè)大小為m小批量數(shù)據(jù)x_{1 \ldots m}。通過計(jì)算\frac {1} {m} \sum_{i=1} ^m \frac {\partial \ell(x_i, \Theta)} {\partial \Theta},使用小批量數(shù)據(jù)來近似損失函數(shù)關(guān)于參數(shù)的梯度。使用小批量樣本,而不是一次一個(gè)樣本,在一些方面是有幫助的。首先,小批量數(shù)據(jù)的梯度損失是訓(xùn)練集上的梯度估計(jì),其質(zhì)量隨著批量增加而改善。第二,由于現(xiàn)代計(jì)算平臺(tái)提供的并行性,對(duì)一個(gè)批次的計(jì)算比單個(gè)樣本計(jì)算m次效率更高。

雖然隨機(jī)梯度是簡單有效的,但它需要仔細(xì)調(diào)整模型的超參數(shù),特別是優(yōu)化中使用的學(xué)習(xí)速率以及模型參數(shù)的初始值。訓(xùn)練的復(fù)雜性在于每層的輸入受到前面所有層的參數(shù)的影響——因此當(dāng)網(wǎng)絡(luò)變得更深時(shí),網(wǎng)絡(luò)參數(shù)的微小變化就會(huì)被放大。

層輸入的分布變化是一個(gè)問題,因?yàn)檫@些層需要不斷適應(yīng)新的分布。當(dāng)學(xué)習(xí)系統(tǒng)的輸入分布發(fā)生變化時(shí),據(jù)說會(huì)經(jīng)歷協(xié)變量轉(zhuǎn)移(Shimodaira,2000)。這通常是通過域適應(yīng)(Jiang,2008)來處理的。然而,協(xié)變量漂移的概念可以擴(kuò)展到整個(gè)學(xué)習(xí)系統(tǒng)之外,應(yīng)用到學(xué)習(xí)系統(tǒng)的一部分,例如子網(wǎng)絡(luò)或一層??紤]網(wǎng)絡(luò)計(jì)算\ell = F_2(F_1(u, \Theta_1), \Theta_2) F_1F_2是任意變換,學(xué)習(xí)參數(shù)\Theta_1,\Theta_2以便最小化損失\ell。學(xué)習(xí)\Theta_2可以看作輸入x=F_1(u,\Theta_1)送入到子網(wǎng)絡(luò)\ell = F_2(x, \Theta_2)。

例如,梯度下降步驟\Theta_2\leftarrow \Theta_2 - \frac {\alpha} {m} \sum_{i=1}^m \frac {\partial F_2(x_i,\Theta_2)} {\partial \Theta_2}(對(duì)于批大小m和學(xué)習(xí)率\alpha)與輸入為x的單獨(dú)網(wǎng)絡(luò)F_2完全等價(jià)。因此,輸入分布特性使訓(xùn)練更有效——例如訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間有相同的分布——也適用于訓(xùn)練子網(wǎng)絡(luò)。因此x的分布在時(shí)間上保持固定是有利的。然后,\Theta_2不必重新調(diào)整來補(bǔ)償x分布的變化。

子網(wǎng)絡(luò)輸入的固定分布對(duì)于子網(wǎng)絡(luò)外的層也有積極的影響。考慮一個(gè)激活函數(shù)為g(x) = \frac{1}{1+\exp(-x)}的層,u是層輸入,權(quán)重矩陣W和偏置向量b是要學(xué)習(xí)的層參數(shù),g(x) = \frac{1}{1+\exp(-x)}。隨著|x|的增加,g'(x)趨向于0。這意味著對(duì)于x=Wu+b的所有維度,除了那些具有小的絕對(duì)值之外,流向u的梯度將會(huì)消失,模型將緩慢的進(jìn)行訓(xùn)練。然而,由于xW,b和下面所有層的參數(shù)的影響,訓(xùn)練期間那些參數(shù)的改變可能會(huì)將x的許多維度移動(dòng)到非線性的飽和狀態(tài)并減慢收斂。這個(gè)影響隨著網(wǎng)絡(luò)深度的增加而放大。在實(shí)踐中,飽和問題和由此產(chǎn)生的梯度消失通常通過使用修正線性單元(Nair & Hinton, 2010) ReLU(x)=\max(x,0),仔細(xì)的初始化(Bengio & Glorot, 2010; Saxe et al., 2013)和小的學(xué)習(xí)率來解決。然而,如果我們能保證非線性輸入的分布在網(wǎng)絡(luò)訓(xùn)練時(shí)保持更穩(wěn)定,那么優(yōu)化器將不太可能陷入飽和狀態(tài),訓(xùn)練將加速。

我們把訓(xùn)練過程中深度網(wǎng)絡(luò)內(nèi)部結(jié)點(diǎn)的分布變化稱為內(nèi)部協(xié)變量轉(zhuǎn)移。消除它可以保證更快的訓(xùn)練。我們提出了一種新的機(jī)制,我們稱為為批標(biāo)準(zhǔn)化,它是減少內(nèi)部協(xié)變量轉(zhuǎn)移的一個(gè)步驟,這樣做可以顯著加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。它通過標(biāo)準(zhǔn)化步驟來實(shí)現(xiàn),標(biāo)準(zhǔn)化步驟修正了層輸入的均值和方差。批標(biāo)準(zhǔn)化減少了梯度對(duì)參數(shù)或它們的初始值尺度上的依賴,對(duì)通過網(wǎng)絡(luò)的梯度流動(dòng)有有益的影響。這允許我們使用更高的學(xué)習(xí)率而沒有發(fā)散的風(fēng)險(xiǎn)。此外,批標(biāo)準(zhǔn)化使模型正則化并減少了對(duì)Dropout(Srivastava et al., 2014)的需求。最后,批標(biāo)準(zhǔn)化通過阻止網(wǎng)絡(luò)陷入飽和模式讓使用飽和非線性成為可能。

在4.2小節(jié),我們將批標(biāo)準(zhǔn)化應(yīng)用到性能最好的ImageNet分類網(wǎng)絡(luò)上,并且表明我們可以使用僅7%的訓(xùn)練步驟來匹配其性能,并且可以進(jìn)一步超過其準(zhǔn)確性一大截。通過使用批標(biāo)準(zhǔn)化訓(xùn)練的網(wǎng)絡(luò)的集合,我們?nèi)〉昧藅op-5錯(cuò)誤率,其改進(jìn)了ImageNet分類上已知的最佳結(jié)果。

2. 減少內(nèi)部協(xié)變量轉(zhuǎn)變

由于訓(xùn)練過程中網(wǎng)絡(luò)參數(shù)的變化,我們將內(nèi)部協(xié)變量轉(zhuǎn)移定義為網(wǎng)絡(luò)激活分布的變化。為了改善訓(xùn)練,我們尋求減少內(nèi)部協(xié)變量轉(zhuǎn)移。隨著訓(xùn)練的進(jìn)行,通過固定層輸入x的分布,我們期望提高訓(xùn)練速度。眾所周知(LeCun et al., 1998b; Wiesler & Ney, 2011)如果對(duì)網(wǎng)絡(luò)的輸入進(jìn)行白化,網(wǎng)絡(luò)訓(xùn)練將會(huì)收斂的更快——即輸入線性變換為具有零均值和單位方差,并去相關(guān)。當(dāng)每一層觀察下面的層產(chǎn)生的輸入時(shí),實(shí)現(xiàn)每一層輸入進(jìn)行相同的白化將是有利的。通過白化每一層的輸入,我們將采取措施實(shí)現(xiàn)輸入的固定分布,消除內(nèi)部協(xié)變量轉(zhuǎn)移的不良影響。

我們考慮在每個(gè)訓(xùn)練步驟或在某些間隔來白化激活值,通過直接修改網(wǎng)絡(luò)或根據(jù)網(wǎng)絡(luò)激活值來更改優(yōu)化方法的參數(shù)(Wiesler et al., 2014; Raiko et al., 2012; Povey et al., 2014; Desjardins & Kavukcuoglu)。然而,如果這些修改分散在優(yōu)化步驟中,那么梯度下降步驟可能會(huì)試圖以要求標(biāo)準(zhǔn)化進(jìn)行更新的方式來更新參數(shù),這會(huì)降低梯度下降步驟的影響。例如,考慮一個(gè)層,其輸入u加上學(xué)習(xí)到的偏置b,通過減去在訓(xùn)練集上計(jì)算的激活值的均值對(duì)結(jié)果進(jìn)行歸一化:\hat x=x - E[x],x = u+b, X=\{x_{1\ldots N}\}是訓(xùn)練集上x值的集合,E[x] = \frac{1}{N}\sum_{i=1}^N x_i。如果梯度下降步驟忽略了E[x]對(duì)b的依賴,那它將更新b\leftarrow b+\Delta b,其中\Delta b\propto -\partial{\ell}/\partial{\hat x}。然后u+(b+\Delta b) -E[u+(b+\Delta b)] = u+b-E[u+b]。因此,結(jié)合b的更新和接下來標(biāo)準(zhǔn)化中的改變會(huì)導(dǎo)致層的輸出沒有變化,從而導(dǎo)致?lián)p失沒有變化。隨著訓(xùn)練的繼續(xù),b將無限增長而損失保持不變。如果標(biāo)準(zhǔn)化不僅中心化而且縮放了激活值,問題會(huì)變得更糟糕。我們?cè)谧畛醯膶?shí)驗(yàn)中已經(jīng)觀察到了這一點(diǎn),當(dāng)標(biāo)準(zhǔn)化參數(shù)在梯度下降步驟之外計(jì)算時(shí),模型會(huì)爆炸。

上述方法的問題是梯度下降優(yōu)化沒有考慮到標(biāo)準(zhǔn)化中發(fā)生的事實(shí)。為了解決這個(gè)問題,我們希望確保對(duì)于任何參數(shù)值,網(wǎng)絡(luò)總是產(chǎn)生具有所需分布的激活值。這樣做將允許關(guān)于模型參數(shù)損失的梯度來解釋標(biāo)準(zhǔn)化,以及它對(duì)模型參數(shù)\Theta的依賴。設(shè)x為層的輸入,將其看作向量,\cal X是這些輸入在訓(xùn)練集上的集合。標(biāo)準(zhǔn)化可以寫為變換\hat x=Norm(x, \cal X)它不僅依賴于給定的訓(xùn)練樣本x而且依賴于所有樣本\cal X——它們中的每一個(gè)都依賴于\Theta,如果x是由另一層生成的。對(duì)于反向傳播,我們將需要計(jì)算Jacobians\frac {\partial Norm(x,\cal X)} {\partial x}\frac {\partial Norm(x,\cal X)} {\partial \cal X};忽略后一項(xiàng)會(huì)導(dǎo)致上面描述的爆炸。在這個(gè)框架中,白化層輸入是昂貴的,因?yàn)樗笥?jì)算協(xié)方差矩陣Cov[x]=E_{x\in \cal X}[x x^T]- E[x]E[x]^T和它的平方根倒數(shù),從而生成白化的激活Cov[x]^{-1/2}(x-E[x])和這些變換進(jìn)行反向傳播的偏導(dǎo)數(shù)。這促使我們尋求一種替代方案,以可微分的方式執(zhí)行輸入標(biāo)準(zhǔn)化,并且在每次參數(shù)更新后不需要對(duì)整個(gè)訓(xùn)練集進(jìn)行分析。

以前的一些方法(例如(Lyu&Simoncelli,2008))使用通過單個(gè)訓(xùn)練樣本計(jì)算的統(tǒng)計(jì)信息,或者在圖像網(wǎng)絡(luò)的情況下,使用給定位置處不同特征圖上的統(tǒng)計(jì)。然而,通過丟棄激活值絕對(duì)尺度改變了網(wǎng)絡(luò)的表示能力。我們希望通過對(duì)相對(duì)于整個(gè)訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)信息的單個(gè)訓(xùn)練樣本的激活值進(jìn)行歸一化來保留網(wǎng)絡(luò)中的信息。

3. 通過Mini-Batch統(tǒng)計(jì)進(jìn)行標(biāo)準(zhǔn)化

由于每一層輸入的整個(gè)白化是代價(jià)昂貴的并且不是到處可微分的,因此我們做了兩個(gè)必要的簡化。首先是我們將單獨(dú)標(biāo)準(zhǔn)化每個(gè)標(biāo)量特征,從而代替在層輸入輸出對(duì)特征進(jìn)行共同白化,使其具有零均值和單位方差。對(duì)于具有d維輸入x = (x^{(1)}\ldots x^{(d)})的層,我們將標(biāo)準(zhǔn)化每一維\hat x^{(k)} = \frac{x^{(k)} - E[x^{(k)}]} {\sqrt {Var[x^{(k)}]}}其中期望和方差在整個(gè)訓(xùn)練數(shù)據(jù)集上計(jì)算。如(LeCun et al., 1998b)中所示,這種標(biāo)準(zhǔn)化加速了收斂,即使特征沒有去相關(guān)。

注意簡單標(biāo)準(zhǔn)化層的每一個(gè)輸入可能會(huì)改變層可以表示什么。例如,標(biāo)準(zhǔn)化sigmoid的輸入會(huì)將它們約束到非線性的線性狀態(tài)。為了解決這個(gè)問題,我們要確保插入到網(wǎng)絡(luò)中的變換可以表示恒等變換。為了實(shí)現(xiàn)這個(gè),對(duì)于每一個(gè)激活值x^{(k)},我們引入成對(duì)的參數(shù)\gamma^{(k)},\beta^{(k)},它們會(huì)歸一化和移動(dòng)標(biāo)準(zhǔn)化值:y^{(k)} = \gamma^{(k)}\hat x^{(k)} + \beta^{(k)}.這些參數(shù)與原始的模型參數(shù)一起學(xué)習(xí),并恢復(fù)網(wǎng)絡(luò)的表示能力。實(shí)際上,通過設(shè)置\gamma^{(k)} = \sqrt{Var[x^{(k)}]}\beta^{(k)} = E[x^{(k)}],我們可以重新獲得原始的激活值,如果這是要做的最優(yōu)的事。

每個(gè)訓(xùn)練步驟的批處理設(shè)置是基于整個(gè)訓(xùn)練集的,我們將使用整個(gè)訓(xùn)練集來標(biāo)準(zhǔn)化激活值。然而,當(dāng)使用隨機(jī)優(yōu)化時(shí),這是不切實(shí)際的。因此,我們做了第二個(gè)簡化:由于我們?cè)陔S機(jī)梯度訓(xùn)練中使用小批量,每個(gè)小批量產(chǎn)生每次激活平均值和方差的估計(jì)。這樣,用于標(biāo)準(zhǔn)化的統(tǒng)計(jì)信息可以完全參與梯度反向傳播。注意,通過計(jì)算每一維的方差而不是聯(lián)合協(xié)方差,可以實(shí)現(xiàn)小批量的使用;在聯(lián)合情況下,將需要正則化,因?yàn)樾∨看笮】赡苄∮诎谆募せ钪档臄?shù)量,從而導(dǎo)致單個(gè)協(xié)方差矩陣。

考慮一個(gè)大小為m的小批量數(shù)據(jù)\cal B。由于標(biāo)準(zhǔn)化被單獨(dú)地應(yīng)用于每一個(gè)激活,所以讓我們集中在一個(gè)特定的激活x^{(k)},為了清晰忽略k。在小批量數(shù)據(jù)里我們有這個(gè)激活的m個(gè)值,\cal B=\lbrace x_{1\ldots m} \rbrace.設(shè)標(biāo)準(zhǔn)化值為\hat x_{1\ldots m},它們的線性變換為y_{1\ldots m}。我們把變換BN_{\gamma,\beta}: x_{1\ldots m}\rightarrow y_{1\ldots m}看作批標(biāo)準(zhǔn)化變換。我們?cè)谒惴?中提出了BN變換。在算法中,為了數(shù)值穩(wěn)定,\epsilon是一個(gè)加到小批量數(shù)據(jù)方差上的常量。

Algorithm 1

BN變換可以添加到網(wǎng)絡(luò)上來操縱任何激活。在公式y = BN_{\gamma,\beta}(x)中,我們指出參數(shù)\gamma\beta需要進(jìn)行學(xué)習(xí),但應(yīng)該注意到在每一個(gè)訓(xùn)練樣本中BN變換不單獨(dú)處理激活。相反,BN_{\gamma,\beta}(x)取決于訓(xùn)練樣本和小批量數(shù)據(jù)中的其它樣本。縮放和移動(dòng)的值y傳遞到其它的網(wǎng)絡(luò)層。標(biāo)準(zhǔn)化的激活值\hat x在我們的變換內(nèi)部,但它們的存在至關(guān)重要。只要每個(gè)小批量的元素從相同的分布中進(jìn)行采樣,如果我們忽略\epsilon,那么任何\hat x值的分布都具有期望為0,方差為1。這可以通過觀察\sum_{i=1}^m \hat x_i = 0\frac {1} {m} \sum_{i=1}^m \hat x_i^2 = 1看到,并取得預(yù)期。每一個(gè)標(biāo)準(zhǔn)化的激活值\hat x^\{(k)}可以看作由線性變換y^{(k)}=\gamma^{(k)}\hat x^{(k)}+\beta^{(k)}組成的子網(wǎng)絡(luò)的輸入,接下來是原始網(wǎng)絡(luò)的其它處理。所有的這些子網(wǎng)絡(luò)輸入都有固定的均值和方差,盡管這些標(biāo)準(zhǔn)化的\hat x^{(k)}的聯(lián)合分布可能在訓(xùn)練過程中改變,但我們預(yù)計(jì)標(biāo)準(zhǔn)化輸入的引入會(huì)加速子網(wǎng)絡(luò)的訓(xùn)練,從而加速整個(gè)網(wǎng)絡(luò)的訓(xùn)練。

在訓(xùn)練過程中我們需要通過這個(gè)變換反向傳播損失\ell的梯度,以及計(jì)算關(guān)于BN變換參數(shù)的梯度。我們使用的鏈?zhǔn)椒▌t如下(簡化之前):

\begin {align} &\frac {\partial \ell}{\partial \hat x\_i} = \frac {\partial \ell} {\partial y\_i} \cdot \gamma\\\\ &\frac {\partial \ell}{\partial \sigma\_\cal B^2} = \sum\_{i=1}^m \frac {\partial \ell}{\partial \hat x\_i}\cdot(x\_i-\mu\_\cal B)\cdot \frac {-1}{2}(\sigma\_\cal B^2+\epsilon)^{-3/2}\\\\ &\frac {\partial \ell}{\partial \mu\_\cal B} = \sum\_{i=1}^m \frac {\partial \ell}{\partial \hat x\_i}\cdot \frac {-1} {\sqrt {\sigma\_\cal B^2 + \epsilon}}\\\\ &\frac {\partial \ell}{\partial x\_i} = \sum\_{i=1}^m \frac {\partial \ell}{\partial \hat x\_i} \cdot \frac {-1} {\sqrt {\sigma\_\cal B^2 + \epsilon}} + \frac {\partial \ell}{\partial \sigma\_\cal B^2} \cdot \frac {2(x\_i - \mu\_\cal B)} {m} + \frac {\partial \ell} {\partial \mu\_\cal B} \cdot \frac {1} {m}\\\\ &\frac {\partial \ell}{\partial \gamma} = \sum\_{i=1}^m \frac {\partial \ell}{\partial y\_i} \cdot \hat x\_i \\\\ &\frac {\partial \ell}{\partial \beta} = \sum\_{i=1}^m \frac {\partial \ell}{\partial y\_i} \end{align}

因此,BN變換是將標(biāo)準(zhǔn)化激活引入到網(wǎng)絡(luò)中的可微變換。這確保了在模型訓(xùn)練時(shí),層可以繼續(xù)學(xué)習(xí)輸入分布,表現(xiàn)出更少的內(nèi)部協(xié)變量轉(zhuǎn)移,從而加快訓(xùn)練。此外,應(yīng)用于這些標(biāo)準(zhǔn)化的激活上的學(xué)習(xí)到的仿射變換允許BN變換表示恒等變換并保留網(wǎng)絡(luò)的能力。

3.1 批標(biāo)準(zhǔn)化網(wǎng)絡(luò)的訓(xùn)練和推斷

為了批標(biāo)準(zhǔn)化一個(gè)網(wǎng)絡(luò),根據(jù)算法1,我們指定一個(gè)激活的子集,然后在每一個(gè)激活中插入BN變換。任何以前接收x作為輸入的層現(xiàn)在接收BN(x)作為輸入。采用批標(biāo)準(zhǔn)化的模型可以使用批梯度下降,或者用小批量數(shù)據(jù)大小為m>1的隨機(jī)梯度下降,或使用它的任何變種例如Adagrad (Duchi et al., 2011)進(jìn)行訓(xùn)練。依賴小批量數(shù)據(jù)的激活值的標(biāo)準(zhǔn)化可以有效地訓(xùn)練,但在推斷過程中是不必要的也是不需要的;我們希望輸出只確定性地取決于輸入。為此,一旦網(wǎng)絡(luò)訓(xùn)練完成,我們使用總體統(tǒng)計(jì)來進(jìn)行標(biāo)準(zhǔn)化\hat x=\frac {x - E[x]} {\sqrt{Var[x] + \epsilon}},而不是小批量數(shù)據(jù)統(tǒng)計(jì)。跟訓(xùn)練過程中一樣,如果忽略\epsilon,這些標(biāo)準(zhǔn)化的激活具有相同的均值0和方差1。我們使用無偏方差估計(jì)Var[x] = \frac {m} {m-1} \cdot E\_\cal B[\sigma\_\cal B^2],其中期望是在大小為m的小批量訓(xùn)練數(shù)據(jù)上得到的,\sigma\_\cal B^2是其樣本方差。使用這些值移動(dòng)平均,我們?cè)谟?xùn)練過程中可以跟蹤模型的準(zhǔn)確性。由于均值和方差在推斷時(shí)是固定的,因此標(biāo)準(zhǔn)化是應(yīng)用到每一個(gè)激活上的簡單線性變換。它可以進(jìn)一步由縮放\gamma和轉(zhuǎn)移\beta組成,以產(chǎn)生代替BN(x)的單線性變換。算法2總結(jié)了訓(xùn)練批標(biāo)準(zhǔn)化網(wǎng)絡(luò)的過程。

Algorithm 2

3.2. 批標(biāo)準(zhǔn)化卷積網(wǎng)絡(luò)

批標(biāo)準(zhǔn)化可以應(yīng)用于網(wǎng)絡(luò)的任何激活集合。這里我們專注于仿射變換和元素級(jí)非線性組成的變換:z = g(Wu+b) 其中Wb是模型學(xué)習(xí)的參數(shù),g(\cdot)是非線性例如sigmoid或ReLU。這個(gè)公式涵蓋了全連接層和卷積層。我們?cè)诜蔷€性之前通過標(biāo)準(zhǔn)化x=Wu+b加入BN變換。我們也可以標(biāo)準(zhǔn)化層輸入u,但由于u可能是另一個(gè)非線性的輸出,它的分布形狀可能在訓(xùn)練過程中改變,并且限制其第一矩或第二矩不能去除協(xié)變量轉(zhuǎn)移。相比之下,Wu+b更可能具有對(duì)稱,非稀疏分布,即“更高斯”(Hyv?rinen&Oja,2000);對(duì)其標(biāo)準(zhǔn)化可能產(chǎn)生具有穩(wěn)定分布的激活。

注意,由于我們對(duì)Wu+b進(jìn)行標(biāo)準(zhǔn)化,偏置b可以忽略,因?yàn)樗男?yīng)將會(huì)被后面的中心化取消(偏置的作用會(huì)歸入到算法1的\beta)。因此,z = g(Wu+b)z = g(BN(Wu))替代,其中BN變換獨(dú)立地應(yīng)用到x=Wu的每一維,每一維具有單獨(dú)的成對(duì)學(xué)習(xí)參數(shù)\gamma^{(k)},\beta^{(k)}。

另外,對(duì)于卷積層我們希望標(biāo)準(zhǔn)化遵循卷積特性——為的是同一特征映射的不同元素,在不同的位置,以相同的方式進(jìn)行標(biāo)準(zhǔn)化。為了實(shí)現(xiàn)這個(gè),我們?cè)谒形恢寐?lián)合標(biāo)準(zhǔn)化了小批量數(shù)據(jù)中的所有激活。在算法1中,我們讓\cal B是跨越小批量數(shù)據(jù)的所有元素和空間位置的特征圖中所有值的集合——因此對(duì)于大小為m的小批量數(shù)據(jù)和大小為p\times q的特征映射,我們使用有效的大小為m'=|\cal B| = m\cdot p\, q的小批量數(shù)據(jù)。我們每個(gè)特征映射學(xué)習(xí)一對(duì)參數(shù)\gamma^{(k)}\beta^{(k)},而不是每個(gè)激活。算法2進(jìn)行類似的修改,以便推斷期間BN變換對(duì)在給定的特征映射上的每一個(gè)激活應(yīng)用同樣的線性變換。

3.3. 批標(biāo)準(zhǔn)化可以提高學(xué)習(xí)率

在傳統(tǒng)的深度網(wǎng)絡(luò)中,學(xué)習(xí)率過高可能會(huì)導(dǎo)致梯度爆炸或梯度消失,以及陷入差的局部最小值。批標(biāo)準(zhǔn)化有助于解決這些問題。通過標(biāo)準(zhǔn)化整個(gè)網(wǎng)絡(luò)的激活值,在數(shù)據(jù)通過深度網(wǎng)絡(luò)傳播時(shí),它可以防止層參數(shù)的微小變化被放大。例如,這使sigmoid非線性更容易保持在它們的非飽和狀態(tài),這對(duì)訓(xùn)練深度sigmoid網(wǎng)絡(luò)至關(guān)重要,但在傳統(tǒng)上很難實(shí)現(xiàn)。

批標(biāo)準(zhǔn)化也使訓(xùn)練對(duì)參數(shù)的縮放更有彈性。通常,大的學(xué)習(xí)率可能會(huì)增加層參數(shù)的縮放,這會(huì)在反向傳播中放大梯度并導(dǎo)致模型爆炸。然而,通過批標(biāo)準(zhǔn)化,通過層的反向傳播不受其參數(shù)縮放的影響。實(shí)際上,對(duì)于標(biāo)量a,BN(Wu) = BN((aW)u)因此\frac {\partial BN((aW)u)} {\partial u}= \frac {\partial BN(Wu)} {\partial u},因此標(biāo)量不影響層的Jacobian行列式,從而不影響梯度傳播。此外,\frac {\partial BN((aW)u)} {\partial (aW)}=\frac {1} {a} \cdot \frac {\partial BN(Wu)} {\partial W}因此更大的權(quán)重會(huì)導(dǎo)致更小的梯度,并且批標(biāo)準(zhǔn)化會(huì)穩(wěn)定參數(shù)的增長。

我們進(jìn)一步推測,批標(biāo)準(zhǔn)化可能會(huì)導(dǎo)致雅可比行列式的奇異值接近于1,這被認(rèn)為對(duì)訓(xùn)練是有利的(Saxe et al., 2013)??紤]具有標(biāo)準(zhǔn)化輸入的兩個(gè)連續(xù)的層,并且變換位于這些標(biāo)準(zhǔn)化向量之間:\hat z = F(\hat x)。如果我們假設(shè)\hat x\hat z是高斯分布且不相關(guān)的,那么F(\hat x)\approx J \hat x是對(duì)給定模型參數(shù)的一個(gè)線性變換,\hat x\hat z有單位方差,并且I=Cov[\hat z] =J Cov[\hat x] J^T = JJ^T。因此,J是正交的,其保留了反向傳播中的梯度大小。盡管上述假設(shè)在現(xiàn)實(shí)中不是真實(shí)的,但我們希望批標(biāo)準(zhǔn)化有助于梯度傳播更好的執(zhí)行。這有待于進(jìn)一步研究。

4. 實(shí)驗(yàn)

4.1. 隨時(shí)間激活

為了驗(yàn)證內(nèi)部協(xié)變量轉(zhuǎn)移對(duì)訓(xùn)練的影響,以及批標(biāo)準(zhǔn)化對(duì)抗它的能力,我們考慮了在MNIST數(shù)據(jù)集上預(yù)測數(shù)字類別的問題(LeCun et al., 1998a)。我們使用非常簡單的網(wǎng)絡(luò),28x28的二值圖像作為輸入,以及三個(gè)全連接層,每層100個(gè)激活。每一個(gè)隱藏層用sigmoid非線性計(jì)算y = g(Wu+b),權(quán)重W初始化為小的隨機(jī)高斯值。最后的隱藏層之后是具有10個(gè)激活(每類1個(gè))和交叉熵?fù)p失的全連接層。我們訓(xùn)練網(wǎng)絡(luò)50000次迭代,每份小批量數(shù)據(jù)中有60個(gè)樣本。如第3.1節(jié)所述,我們?cè)诰W(wǎng)絡(luò)的每一個(gè)隱藏層后添加批標(biāo)準(zhǔn)化。我們對(duì)基準(zhǔn)線和批標(biāo)準(zhǔn)化網(wǎng)絡(luò)之間的比較感興趣,而不是實(shí)現(xiàn)在MNIST上的最佳性能(所描述的架構(gòu)沒有)。

圖1(a)顯示了隨著訓(xùn)練進(jìn)行,兩個(gè)網(wǎng)絡(luò)在提供的測試數(shù)據(jù)上正確預(yù)測的分?jǐn)?shù)。批標(biāo)準(zhǔn)化網(wǎng)絡(luò)具有更高的測試準(zhǔn)確率。為了調(diào)查原因,我們?cè)谟?xùn)練過程中研究了原始網(wǎng)絡(luò)N和批標(biāo)準(zhǔn)化網(wǎng)絡(luò)N\_{BN}^{tr}(Alg. 2)中的sigmoid輸入。在圖1(b,c)中,我們顯示,對(duì)于來自每個(gè)網(wǎng)絡(luò)的最后一個(gè)隱藏層的一個(gè)典型的激活,其分布如何演變。原始網(wǎng)絡(luò)中的分布隨著時(shí)間的推移而發(fā)生顯著變化,無論是平均值還是方差,都會(huì)使后面的層的訓(xùn)練復(fù)雜化。相比之下,隨著訓(xùn)練的進(jìn)行,批標(biāo)準(zhǔn)化網(wǎng)絡(luò)中的分布更加穩(wěn)定,這有助于訓(xùn)練。

Figure 1

圖1。(a)使用批標(biāo)準(zhǔn)化和不使用批標(biāo)準(zhǔn)化訓(xùn)練的網(wǎng)絡(luò)在MNIST上的測試準(zhǔn)確率,以及訓(xùn)練的迭代次數(shù)。批標(biāo)準(zhǔn)化有助于網(wǎng)絡(luò)訓(xùn)練的更快,取得更高的準(zhǔn)確率。(b,c)典型的sigmoid在訓(xùn)練過程中輸入分布的演變,顯示為15%,50%,85%。批標(biāo)準(zhǔn)化使分布更穩(wěn)定并降低了內(nèi)部協(xié)變量轉(zhuǎn)移。

4.2. ImageNet分類

我們將批標(biāo)準(zhǔn)化化應(yīng)用于在ImageNet分類任務(wù)(Russakovsky等,2014)上訓(xùn)練的Inception網(wǎng)絡(luò)的新變種(Szegedy等,2014)。網(wǎng)絡(luò)具有大量的卷積和池化層,和一個(gè)softmax層用來在1000個(gè)可能之中預(yù)測圖像的類別。卷積層使用ReLU作為非線性。與(Szegedy等人,2014年)中描述的網(wǎng)絡(luò)的主要區(qū)別是5×5卷積層被兩個(gè)連續(xù)的3x3卷積層替換,最多可以有128個(gè)濾波器。該網(wǎng)絡(luò)包含13.6 \cdot 10^6個(gè)參數(shù),除了頂部的softmax層之外,沒有全連接層。在其余的文本中我們將這個(gè)模型稱為Inception。訓(xùn)練在大型分布式架構(gòu)(Dean et al。,2012)上進(jìn)行,10個(gè)模型副本中的每一個(gè)都使用了5個(gè)并行步驟,使用異步帶動(dòng)量的SGD(Sutskever等,2013),小批量數(shù)據(jù)大小為32。隨著訓(xùn)練進(jìn)行,所有網(wǎng)絡(luò)都通過計(jì)算驗(yàn)證準(zhǔn)確率@1來評(píng)估,即每幅圖像使用單個(gè)裁剪圖像,在1000個(gè)可能性中預(yù)測正確標(biāo)簽的概率。

在我們的實(shí)驗(yàn)中,我們?cè)u(píng)估了幾個(gè)帶有批標(biāo)準(zhǔn)化的Inception修改版本。在所有情況下,如第3.2節(jié)所述,批標(biāo)準(zhǔn)化以卷積方式應(yīng)用于每個(gè)非線性的輸入,同時(shí)保持架構(gòu)的其余部分不變。

4.2.1. 加速BN網(wǎng)絡(luò)

將批標(biāo)準(zhǔn)化簡單添加到網(wǎng)絡(luò)中不能充分利用我們方法的優(yōu)勢。為此,我們進(jìn)行了以下修改:

提高學(xué)習(xí)率。在批標(biāo)準(zhǔn)化模型中,我們已經(jīng)能夠從高學(xué)習(xí)率中實(shí)現(xiàn)訓(xùn)練加速,沒有不良的副作用(第3.3節(jié))。

刪除丟棄。我們發(fā)現(xiàn)從BN-Inception中刪除丟棄可以使網(wǎng)絡(luò)實(shí)現(xiàn)更高的驗(yàn)證準(zhǔn)確率。我們推測,批標(biāo)準(zhǔn)化提供了類似丟棄的正則化收益,因?yàn)閷?duì)于訓(xùn)練樣本觀察到的激活受到了同一小批量數(shù)據(jù)中樣本隨機(jī)選擇的影響。

更徹底地?cái)噥y訓(xùn)練樣本。我們啟用了分布內(nèi)部攪亂訓(xùn)練數(shù)據(jù),這樣可以防止同一個(gè)例子一起出現(xiàn)在小批量數(shù)據(jù)中。這導(dǎo)致驗(yàn)證準(zhǔn)確率提高了約1%,這與批標(biāo)準(zhǔn)化作為正則化項(xiàng)的觀點(diǎn)是一致的:它每次被看到時(shí)都會(huì)影響一個(gè)樣本,在我們的方法中內(nèi)在的隨機(jī)化應(yīng)該是最有益的。

減少L2全中正則化。雖然在Inception中模型參數(shù)的L2損失會(huì)控制過擬合,但在修改的BN-Inception中,損失的權(quán)重減少了5倍。我們發(fā)現(xiàn)這提高了在提供的驗(yàn)證數(shù)據(jù)上的準(zhǔn)確性。

加速學(xué)習(xí)率衰減。在訓(xùn)練Inception時(shí),學(xué)習(xí)率呈指數(shù)衰減。因?yàn)槲覀兊木W(wǎng)絡(luò)訓(xùn)練速度比Inception更快,所以我們將學(xué)習(xí)速度降低加快6倍。

刪除局部響應(yīng)歸一化。雖然Inception和其它網(wǎng)絡(luò)(Srivastava等人,2014)從中受益,但是我們發(fā)現(xiàn)使用批標(biāo)準(zhǔn)化它是不必要的。

減少光照扭曲。因?yàn)榕鷺?biāo)準(zhǔn)化網(wǎng)絡(luò)訓(xùn)練更快,并且觀察每個(gè)訓(xùn)練樣本更少的次數(shù),所以通過更少地扭曲它們,我們讓訓(xùn)練器關(guān)注更多的“真實(shí)”圖像。

4.2.2. 單網(wǎng)絡(luò)分類

我們?cè)u(píng)估了下面的網(wǎng)絡(luò),所有的網(wǎng)絡(luò)都在LSVRC2012訓(xùn)練數(shù)據(jù)上訓(xùn)練,并在驗(yàn)證數(shù)據(jù)上測試:

Inception:在4.2小節(jié)開頭描述的網(wǎng)絡(luò),以0.0015的初始學(xué)習(xí)率進(jìn)行訓(xùn)練。

BN-Baseline:每個(gè)非線性之前加上批標(biāo)準(zhǔn)化,其它的與Inception一樣。

BN-x5:帶有批標(biāo)準(zhǔn)化的Inception,修改在4.2.1小節(jié)中。初始學(xué)習(xí)率增加5倍到了0.0075。原始Inception增加同樣的學(xué)習(xí)率會(huì)使模型參數(shù)達(dá)到機(jī)器無限大。

BN-x30:類似于BN-x5,但初始學(xué)習(xí)率為0.045(Inception學(xué)習(xí)率的30倍)。

BN-x5-Sigmoid:類似于BN-x5,但使用sigmoud非線性g(t)=\frac{1}{1+\exp(-x)}來代替ReLU。我們也嘗試訓(xùn)練帶有sigmoid的原始Inception,但模型保持在相當(dāng)于機(jī)會(huì)的準(zhǔn)確率。

在圖2中,我們顯示了網(wǎng)絡(luò)的驗(yàn)證集準(zhǔn)確率,作為訓(xùn)練步驟次數(shù)的函數(shù)。Inception網(wǎng)絡(luò)在31 \cdot 10^6次訓(xùn)練步驟后達(dá)到了72.2%的準(zhǔn)確率。圖3顯示,對(duì)于每個(gè)網(wǎng)絡(luò),達(dá)到同樣的72.2%準(zhǔn)確率需要的訓(xùn)練步驟數(shù)量,以及網(wǎng)絡(luò)達(dá)到的最大驗(yàn)證集準(zhǔn)確率和達(dá)到該準(zhǔn)確率的訓(xùn)練步驟數(shù)量。

Figure 2

圖2。Inception和它的批標(biāo)準(zhǔn)化變種在單個(gè)裁剪圖像上的驗(yàn)證準(zhǔn)確率以及訓(xùn)練步驟的數(shù)量。

Figure 2

圖3。對(duì)于Inception和它的批標(biāo)準(zhǔn)化變種,達(dá)到Inception最大準(zhǔn)確率(72.2%)所需要的訓(xùn)練步驟數(shù)量,以及網(wǎng)絡(luò)取得的最大準(zhǔn)確率。

通過僅使用批標(biāo)準(zhǔn)化(BN-Baseline),我們?cè)诓坏絀nception一半的訓(xùn)練步驟數(shù)量內(nèi)將準(zhǔn)確度與其相匹配。通過應(yīng)用4.2.1小節(jié)中的修改,我們顯著提高了網(wǎng)絡(luò)的訓(xùn)練速度。BN-x5需要比Inception少14倍的步驟就達(dá)到了72.2%的準(zhǔn)確率。有趣的是,進(jìn)一步提高學(xué)習(xí)率(BN-x30)使得該模型最初訓(xùn)練有點(diǎn)慢,但可以使其達(dá)到更高的最終準(zhǔn)確率。這種現(xiàn)象是違反直覺的,應(yīng)進(jìn)一步調(diào)查。在6 \cdot 10^6步驟之后,BN-x30達(dá)到74.8%的準(zhǔn)確率,即比Inception達(dá)到72.2%的準(zhǔn)確率所需的步驟減少了5倍。

我們也證實(shí)了盡管訓(xùn)練這樣的網(wǎng)絡(luò)是眾所周知的困難,但是當(dāng)使用sigmoid作為非線性時(shí),內(nèi)部協(xié)變量轉(zhuǎn)移的減少允許具有批標(biāo)準(zhǔn)化的深層網(wǎng)絡(luò)被訓(xùn)練。的確,BN-x5-Sigmoid取得了69.8%的準(zhǔn)確率達(dá)。沒有批標(biāo)準(zhǔn)化,使用sigmoid的Inception從未達(dá)到比1/1000準(zhǔn)確率更好的結(jié)果。

4.2.3. 組合分類

目前在ImageNet大型視覺識(shí)別競賽中報(bào)道的最佳結(jié)果是傳統(tǒng)模型(Wu et al。,2015)的Deep Image組合和(He等,2015)的組合模型。后者報(bào)告了ILSVRC測試服務(wù)器評(píng)估的4.94%的top-5錯(cuò)誤率。這里我們?cè)跍y試服務(wù)器上報(bào)告4.82%的測試錯(cuò)誤率。這提高了以前的最佳結(jié)果,并且根據(jù)(Russakovsky等,2014)這超過了人類評(píng)估者的評(píng)估準(zhǔn)確率。

對(duì)于我們的組合,我們使用了6個(gè)網(wǎng)絡(luò)。每個(gè)都是基于BN-x30的,進(jìn)行了以下一些修改:增加卷積層中的初始重量;使用Dropout(丟棄概率為5%或10%,而原始Inception為40%);模型最后的隱藏層使用非卷積批標(biāo)準(zhǔn)化。每個(gè)網(wǎng)絡(luò)在大約6 \cdot 10^6個(gè)訓(xùn)練步驟之后實(shí)現(xiàn)了最大的準(zhǔn)確率。組合預(yù)測是基于組成網(wǎng)絡(luò)的預(yù)測類概率的算術(shù)平均。組合和多裁剪圖像推斷的細(xì)節(jié)與(Szegedy et al,2014)類似。

我們?cè)趫D4中證實(shí)了批標(biāo)準(zhǔn)化使我們能夠在ImageNet分類挑戰(zhàn)基準(zhǔn)上設(shè)置新的最佳結(jié)果。

我們?cè)趫D4中證實(shí)了批標(biāo)準(zhǔn)化使我們能夠在ImageNet分類挑戰(zhàn)基準(zhǔn)上設(shè)置新的最佳結(jié)果。

Figure 4

圖4。批標(biāo)準(zhǔn)化Inception與以前的最佳結(jié)果在提供的包含5萬張圖像的驗(yàn)證集上的比較。組合結(jié)果是在測試集上由測試服務(wù)器評(píng)估的結(jié)果。BN-Inception組合在驗(yàn)證集的5萬張圖像上取得了4.9% top-5的錯(cuò)誤率。所有報(bào)道的其它結(jié)果是在驗(yàn)證集上。

5. 結(jié)論

我們提出了一個(gè)新的機(jī)制,大大加快了深度網(wǎng)絡(luò)的訓(xùn)練。它是基于前提協(xié)變量轉(zhuǎn)移的,已知其會(huì)使機(jī)器學(xué)習(xí)系統(tǒng)的訓(xùn)練復(fù)雜化,也適用于子網(wǎng)絡(luò)和層,并且從網(wǎng)絡(luò)的內(nèi)部激活中去除它可能有助于訓(xùn)練。我們提出的方法從其標(biāo)準(zhǔn)化激活中獲取其功能,并將這種標(biāo)準(zhǔn)化合并到網(wǎng)絡(luò)架構(gòu)本身。這確保了標(biāo)準(zhǔn)化可以被用來訓(xùn)練網(wǎng)絡(luò)的任何優(yōu)化方法進(jìn)行恰當(dāng)?shù)奶幚怼榱俗屔疃染W(wǎng)絡(luò)訓(xùn)練中常用的隨機(jī)優(yōu)化方法可用,我們對(duì)每個(gè)小批量數(shù)據(jù)執(zhí)行標(biāo)準(zhǔn)化,并通過標(biāo)準(zhǔn)化參數(shù)來反向傳播梯度。批標(biāo)準(zhǔn)化每個(gè)激活只增加了兩個(gè)額外的參數(shù),這樣做可以保持網(wǎng)絡(luò)的表示能力。我們提出了一個(gè)算法,其用于構(gòu)建,訓(xùn)練和執(zhí)行推斷批標(biāo)準(zhǔn)化網(wǎng)絡(luò)。所得到的網(wǎng)絡(luò)可以用飽和非線性進(jìn)行訓(xùn)練,能更容忍增加的訓(xùn)練率,并且通常不需要丟棄來進(jìn)行正則化。

僅僅將批標(biāo)準(zhǔn)化添加到了最新的圖像分類模型中便在訓(xùn)練中取得了實(shí)質(zhì)的加速。通過進(jìn)一步提高學(xué)習(xí)率,刪除丟棄和應(yīng)用批標(biāo)準(zhǔn)化所提供的其它修改,我們只用了少部分的訓(xùn)練步驟就達(dá)到了以前的技術(shù)水平——然后在單網(wǎng)絡(luò)圖像分類中擊敗了最先進(jìn)的技術(shù)。此外,通過組合多個(gè)使用批標(biāo)準(zhǔn)化訓(xùn)練的模型,我們?cè)贗mageNet上的表現(xiàn)顯著優(yōu)于最好的已知系統(tǒng)。

我們的方法與(Gül?ehre&Bengio,2013)的標(biāo)準(zhǔn)化層相似,盡管這兩個(gè)方法解決的目標(biāo)不同。批標(biāo)準(zhǔn)化尋求在整個(gè)訓(xùn)練過程中激活值的穩(wěn)定分布,并且對(duì)非線性的輸入進(jìn)行歸一化,因?yàn)檫@時(shí)更有可能穩(wěn)定分布。相反,標(biāo)準(zhǔn)化層被應(yīng)用于非線性的輸出,這導(dǎo)致了更稀疏的激活。我們沒有觀察到非線性輸入是稀疏的,無論是有批標(biāo)準(zhǔn)化還是沒有批標(biāo)準(zhǔn)化。批標(biāo)準(zhǔn)化的其它顯著差異包括學(xué)習(xí)到的縮放和轉(zhuǎn)移允許BN變換表示恒等,卷積層處理以及不依賴于小批量數(shù)據(jù)的確定性推斷。

在這項(xiàng)工作中,我們沒有探索批標(biāo)準(zhǔn)化可能實(shí)現(xiàn)的全部可能性。我們的未來工作包括將我們的方法應(yīng)用于循環(huán)神經(jīng)網(wǎng)絡(luò)(Pascanu et al.,2013),其中內(nèi)部協(xié)變量轉(zhuǎn)移和梯度消失或爆炸可能特別嚴(yán)重,這將使我們能夠更徹底地測試假設(shè)標(biāo)準(zhǔn)化改善了梯度傳播(第3.3節(jié))。需要對(duì)批標(biāo)準(zhǔn)化的正則化屬性進(jìn)行更多的研究,我們認(rèn)為這是BN-Inception中刪除丟棄時(shí)我們觀察到的改善的原因。我們計(jì)劃調(diào)查批標(biāo)準(zhǔn)化是否有助于傳統(tǒng)意義上的域自適應(yīng)——即網(wǎng)絡(luò)執(zhí)行標(biāo)準(zhǔn)化是否能夠更容易泛化到新的數(shù)據(jù)分布,也許僅僅是對(duì)總體均值和方差的重新計(jì)算(Alg.2)。最后,我們認(rèn)為,該算法的進(jìn)一步理論分析將允許更多的改進(jìn)和應(yīng)用。

致謝

我們感謝Vincent Vanhoucke和Jay Yagnik的幫助和討論,以及審稿人的深刻評(píng)論。

References

Bengio, Yoshua and Glorot, Xavier. Understanding the difficulty of training deep feedforward neural networks. In Proceedings of AISTATS 2010, volume 9, pp. 249–256, May 2010.

Dean, Jeffrey, Corrado, Greg S., Monga, Rajat, Chen, Kai, Devin, Matthieu, Le, Quoc V., Mao, Mark Z., Ranzato, Marc’Aurelio, Senior, Andrew, Tucker, Paul, Yang, Ke, and Ng, Andrew Y. Large scale distributed deep networks. In NIPS, 2012.

Desjardins, Guillaume and Kavukcuoglu, Koray. Natural neural networks. (unpublished).

Duchi, John, Hazan, Elad, and Singer, Yoram. Adaptive subgradient methods for online learning and stochastic optimization. J. Mach. Learn. Res., 12:2121–2159, July 2011. ISSN 1532-4435.

Gu ?lc ?ehre, C ? aglar and Bengio, Yoshua. Knowledge matters: Importance of prior information for optimization. CoRR, abs/1301.4083, 2013.

He, K., Zhang, X., Ren, S., and Sun, J. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ArXiv e-prints, February 2015.

Hyva ?rinen, A. and Oja, E. Independent component analysis: Algorithms and applications. Neural Netw., 13(4-5): 411–430, May 2000.
Jiang, Jing. A literature survey on domain adaptation of statistical classifiers, 2008.

LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, November 1998a.

LeCun, Y., Bottou, L., Orr, G., and Muller, K. Efficient backprop. In Orr, G. and K., Muller (eds.), Neural Networks: Tricks of the trade. Springer, 1998b.

Lyu, S and Simoncelli, E P. Nonlinear image representation using divisive normalization. In Proc. Computer Vision and Pattern Recognition, pp. 1–8. IEEE Computer Society, Jun 23-28 2008. doi: 10.1109/CVPR.2008.4587821.

Nair, Vinod and Hinton, Geoffrey E. Rectified linear units improve restricted boltzmann machines. In ICML, pp. 807–814. Omnipress, 2010.

Pascanu, Razvan, Mikolov, Tomas, and Bengio, Yoshua. On the difficulty of training recurrent neural networks. In Proceedings of the 30th International Conference on Machine Learning, ICML 2013, Atlanta, GA, USA, 16-21 June 2013, pp. 1310–1318, 2013.

Povey, Daniel, Zhang, Xiaohui, and Khudanpur, Sanjeev. Parallel training of deep neural networks with natural gradient and parameter averaging. CoRR, abs/1410.7455, 2014.

Raiko, Tapani, Valpola, Harri, and LeCun, Yann. Deep learning made easier by linear transformations in perceptrons. In International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 924–932, 2012.

Russakovsky, Olga, Deng, Jia, Su, Hao, Krause, Jonathan, Satheesh, Sanjeev, Ma, Sean, Huang, Zhiheng, Karpathy, Andrej, Khosla, Aditya, Bernstein, Michael, Berg, Alexander C., and Fei-Fei, Li. ImageNet Large Scale Visual Recognition Challenge, 2014.

Saxe, Andrew M., McClelland, James L., and Ganguli, Surya. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. CoRR, abs/1312.6120, 2013.

Shimodaira, Hidetoshi. Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of Statistical Planning and Inference, 90 (2):227–244, October 2000.

Srivastava, Nitish, Hinton, Geoffrey, Krizhevsky, Alex, Sutskever, Ilya, and Salakhutdinov, Ruslan. Dropout: A simple way to prevent neural networks from overfitting. J. Mach. Learn. Res., 15(1):1929–1958, January 2014.

Sutskever, Ilya, Martens, James, Dahl, George E., and Hinton, Geoffrey E. On the importance of initialization and momentum in deep learning. In ICML (3), volume 28 of JMLR Proceedings, pp. 1139–1147. JMLR.org, 2013.

Szegedy, Christian, Liu, Wei, Jia, Yangqing, Sermanet, Pierre, Reed, Scott, Anguelov, Dragomir, Erhan, Dumitru, Vanhoucke, Vincent, and Rabinovich, Andrew. Going deeper with convolutions. CoRR, abs/1409.4842, 2014.

Wiesler, Simon and Ney, Hermann. A convergence analysis of log-linear training. In Shawe-Taylor, J., Zemel, R.S., Bartlett, P., Pereira, F.C.N., and Weinberger, K.Q. (eds.), Advances in Neural Information Processing Systems 24, pp. 657–665, Granada, Spain, December 2011.

Wiesler, Simon, Richard, Alexander, Schlu ?ter, Ralf, and Ney, Hermann. Mean-normalized stochastic gradient for large-scale deep learning. In IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 180–184, Florence, Italy, May 2014.

Wu, Ren, Yan, Shengen, Shan, Yi, Dang, Qingqing, and Sun, Gang. Deep image: Scaling up image recognition, 2015.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容