卷積的空間不變性是過(guò)度的歸納偏置

Revisiting Spatial Invariance with Low-Rank Local Connectivity

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中最成功的架構(gòu)之一,其成功至少部分歸因于空間不變性作為歸納偏置的功效。局部連接層與卷積層的不同之處在于它們?nèi)狈臻g不變性,在實(shí)踐中通常表現(xiàn)不佳。然而,這些觀察結(jié)果仍然存在一種可能性,即空間不變性的某種程度的松弛可能產(chǎn)生比卷積或局部連接性更好的歸納偏置。為了驗(yàn)證這一假設(shè),我們?cè)O(shè)計(jì)了一種方法,以受控方式放松網(wǎng)絡(luò)層的空間不變性;我們創(chuàng)建一個(gè)\text{low rank}局部連接層,其中應(yīng)用于每個(gè)位置的濾波器組被構(gòu)造為具有空間變化的組合權(quán)重的濾波器組的基本集的線性組合。通過(guò)改變基濾波器組的數(shù)量,我們可以控制空間不變性的松弛程度。在小型卷積網(wǎng)絡(luò)的實(shí)驗(yàn)中,我們發(fā)現(xiàn)放松空間不變性可以提高M(jìn)NIST、CIFAR-10和CelebA數(shù)據(jù)集上卷積層和局部連接層的分類精度,從而表明空間不變性可能是一種過(guò)度限制的先驗(yàn)知識(shí)。

1.導(dǎo)言

卷積神經(jīng)網(wǎng)絡(luò)(CNN)現(xiàn)在是許多計(jì)算機(jī)視覺(jué)任務(wù)的主要方法。卷積層具有兩個(gè)被認(rèn)為是其成功關(guān)鍵的主要特性:局部感受野和空間不變?yōu)V波器。在這項(xiàng)工作中,我們?cè)噲D重新審視后者。之前的工作比較了卷積層(在所有空間位置共享過(guò)濾器)和局部連接層(沒(méi)有權(quán)重共享),發(fā)現(xiàn)卷積在公共數(shù)據(jù)集上是有利的(LeCun,1989;Bartunov等人,2018;Novak等人,2018)。然而,這一觀察結(jié)果表明,某些偏離空間不變性的情況可能優(yōu)于卷積和局部連通性(圖1)。

CNN的結(jié)構(gòu)通常被比作靈長(zhǎng)類視覺(jué)系統(tǒng)(LeCun等人,2015)。然而,視覺(jué)系統(tǒng)沒(méi)有直接的機(jī)制來(lái)共享空間中的重量。構(gòu)成視網(wǎng)膜主題圖的神經(jīng)元具有隨其在圖中的位置而變化的選擇性,特別是在高級(jí)視覺(jué)區(qū)域(Hasson等人,2002年;Arcaro等人,2009年;Lafer Sousa&Conway,2013年;Rajimehr等人,2014年;Srihasam等人,2014年;Saygin等人,2016年;Livingstone等人,2017年)。此外,視網(wǎng)膜包含幾種類型的細(xì)胞,其分布和特征根據(jù)低等級(jí)空間梯度進(jìn)行組織(Dacey&Petersen,1992)。

由于大腦中缺少突觸權(quán)重共享,我們假設(shè)神經(jīng)網(wǎng)絡(luò)可以通過(guò)放松空間不變性來(lái)實(shí)現(xiàn)更高的性能(圖1)。特別是在神經(jīng)網(wǎng)絡(luò)的更高層,感受野覆蓋了圖像的大部分或全部,在所有位置應(yīng)用相同的權(quán)重可能比在不同位置應(yīng)用不同的權(quán)重效率更低。然而,有證據(jù)表明,典型數(shù)據(jù)集太小,無(wú)法約束局部連接層的參數(shù);可由卷積層表達(dá)的函數(shù)是可由局部連接層表達(dá)的函數(shù)的子集,但卷積通常實(shí)現(xiàn)更高的性能(LeCun,1989;Bartunov等人,2018;Novak等人,2018)。

為了理解為什么某些空間不變性的放松可能是有用的,考慮地面和天空區(qū)域的自然場(chǎng)景的圖像。將不同的局部過(guò)濾器應(yīng)用于具有相似外觀的天空的不同部分可能不是一個(gè)好主意。但是,對(duì)天空和地面區(qū)域應(yīng)用相同的濾波器組也可能會(huì)受到過(guò)度限制??臻g不變性的某種程度的松弛,例如不同的天空和地面過(guò)濾器,可能更適合這種假設(shè)數(shù)據(jù)。

為了驗(yàn)證空間不變性是一種過(guò)度限制性歸納偏置的假設(shè),我們創(chuàng)建了一個(gè)新的工具,允許我們放松空間不變性。我們開發(fā)了一個(gè)低秩局部連接(LRLC)層1,它可以參數(shù)化地調(diào)整空間不變性的程度。該層是通過(guò)減少權(quán)重共享來(lái)放松空間不變性的一種特殊方法。LRLC層學(xué)習(xí)一組K個(gè)濾波器組,這些濾波器組使用每個(gè)空間位置的K個(gè)組合權(quán)重進(jìn)行線性組合,而不是學(xué)習(xí)單個(gè)濾波器組應(yīng)用于所有位置(如卷積層)或不同濾波器組(如局部連接層)。

在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn),在三個(gè)數(shù)據(jù)集(MNIST、CIFAR-10和CelebA)中,與卷積層和局部連接層相比,LRLC層放松空間不變性可以獲得更好的性能。這些結(jié)果表明,與卷積層強(qiáng)制的空間不變性或局部連接層缺乏空間不變性相比,對(duì)圖像數(shù)據(jù)集而言,某種程度的空間不變性松弛是一種更好的歸納偏置。

2.相關(guān)工作

連接主義模型中的局部連通性思想早于反向傳播和卷積的流行。受視覺(jué)皮層組織的啟發(fā)(Hubel&Wiesel,1963;1968),一些早期的神經(jīng)網(wǎng)絡(luò)模型由一個(gè)或多個(gè)二維特征圖組成,其中神經(jīng)元優(yōu)先接收附近其他神經(jīng)元的輸入(Von der Malsburg,1973;Fukushima,1975)。與生物學(xué)決裂的是,Neocognitron(福島,1980)在空間位置上共享權(quán)重,從而產(chǎn)生了空間不變性。然而,Neocognitron是使用競(jìng)爭(zhēng)學(xué)習(xí)算法而不是梯度下降法進(jìn)行訓(xùn)練的。LeCun(1989)將權(quán)重共享與反向傳播相結(jié)合,證明在數(shù)字識(shí)別任務(wù)中,與局部連接網(wǎng)絡(luò)(LCN)相比有相當(dāng)大的收益。盡管在過(guò)去十年中,人們對(duì)計(jì)算機(jī)視覺(jué)CNN的興趣重新燃起,但局部連接已經(jīng)不再受歡迎。當(dāng)層計(jì)算分布在多個(gè)節(jié)點(diǎn)上時(shí),權(quán)重共享會(huì)帶來(lái)額外的同步成本(Krizhevsky,2014);因此,第一個(gè)大規(guī)模并行的深度神經(jīng)網(wǎng)絡(luò)僅采用局部連接層(Raina等人,2009年;Uetz&Behnke,2009年;Dean等人,2012年;Le等人,2012年;Coates等人,2013年)。用于計(jì)算機(jī)視覺(jué)任務(wù)的一些最早成功的神經(jīng)網(wǎng)絡(luò)結(jié)合了卷積層和局部連接層(Hinton等人,2012;Goodfello等人,2013;Gregor等人,2014),以及用于人臉識(shí)別的網(wǎng)絡(luò)(Taigman等人,2014;Sun等人,2014;2015;Yim等人,2015)。然而,較新的架構(gòu),甚至是設(shè)計(jì)用于人臉識(shí)別的架構(gòu)(Schroff等人,2015;Liu等人,2017),通常只使用卷積。

比較卷積網(wǎng)絡(luò)和局部連接網(wǎng)絡(luò)用于計(jì)算機(jī)視覺(jué)任務(wù)的工作總是發(fā)現(xiàn)CNN具有更好的性能。Bartunov等人(2018年)比較了多個(gè)圖像數(shù)據(jù)集上的分類性能,作為生物合理學(xué)習(xí)算法研究的一部分;卷積在數(shù)據(jù)集上實(shí)現(xiàn)了更高的精度。Novak et al.(2018)在初始化時(shí)導(dǎo)出了一個(gè)與無(wú)限寬CNN等價(jià)的內(nèi)核,并表明在這個(gè)無(wú)限寬限制中,CNN和LCN是等價(jià)的。他們發(fā)現(xiàn),SGD訓(xùn)練的CNN顯著優(yōu)于SGD訓(xùn)練的LCN和該內(nèi)核。然而,d'Ascoli等人(2019)發(fā)現(xiàn),最初訓(xùn)練卷積層,然后在接近訓(xùn)練結(jié)束時(shí)將卷積層轉(zhuǎn)換為等效的完全連接層,導(dǎo)致性能略有提高。

其他工作試圖將卷積的效率與局部連接的一些優(yōu)點(diǎn)結(jié)合起來(lái)。Nowlan&Hinton(1992)提出了一種“軟權(quán)重共享”方法,用于懲罰權(quán)重分布和高斯混合分布之間的差異。其他工作使用了周期性權(quán)重共享,也稱為平鋪,其中n個(gè)像素之外的過(guò)濾器共享權(quán)重(Le等人,2010年;Gregor&LeCun,2010年),或?qū)⑻卣鞯貓D細(xì)分為斑塊,其中權(quán)重僅在每個(gè)斑塊內(nèi)共享(Zhao等人,2016年)。CoordConv(Liu等人,2018)將包含像素x和y坐標(biāo)的特征地圖連接到CNN的輸入,允許在整個(gè)網(wǎng)絡(luò)中直接使用位置信息。

輸入相關(guān)的低階局部連接,我們將在第3.2節(jié)中探討。2和4.2,與先前應(yīng)用輸入相關(guān)卷積濾波器的工作進(jìn)一步相關(guān)。空間軟注意機(jī)制(Wang et al.,2017;Jetley et al.,2018;Woo et al.,2018;Linsley et al.,2019;Fukui et al.,2019)可以解釋為通過(guò)整個(gè)過(guò)濾器的逐位置縮放在不同位置應(yīng)用不同權(quán)重的機(jī)制。自注意(Bahdanaau et al.,2015;Vaswani et al.,2017)最近被應(yīng)用于圖像模型(Bello et al.,2019;Ramachandran et al.,2019;Hu et al.,2019),它提供了一種替代機(jī)制,可以將空間上的信息與內(nèi)容相關(guān)的混合權(quán)重進(jìn)行集成。非局部方法(Wang et al.,2018;Zhang et al.,2019)和圖卷積方法(Chen et al.,2019a)是執(zhí)行內(nèi)容相關(guān)空間聚合的其他方法。其他方法在空間上應(yīng)用相同的卷積濾波器,但分別為每個(gè)示例選擇濾波器或分支(McGill&Perona,2017;Fernando等人,2017;Gross等人,2017;Chen等人,2019b;Yang等人,2019)。Jia等人(2016)的動(dòng)態(tài)局部過(guò)濾層使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)每個(gè)位置的一組單獨(dú)過(guò)濾器。我們的方法只預(yù)測(cè)固定基集的組合權(quán)重,通過(guò)層核基集的大小控制空間不變性的程度。Yang et al.(2019)的CondConv layer預(yù)測(cè)了在所有空間位置上共享的每個(gè)示例的組合權(quán)重,而我們的方法學(xué)習(xí)每個(gè)空間位置的權(quán)重,這取決于示例。此外,可將輸入相關(guān)LRLC層中的空間濾波器的計(jì)算視為與膠囊網(wǎng)絡(luò)相關(guān)的動(dòng)態(tài)路由的一種形式(Sabour等人,2017)。然而,在Sabour等人(2017年)中,第一個(gè)膠囊層(PrimaryCaps)是卷積的,完全連接到每個(gè)DigitCaps膠囊,這不允許像LRLC層那樣部分放松空間不變性。

3.方法

3.1. 預(yù)備賽

讓我∈ rh×W×Cin可以是帶有Cin通道的輸入(H:輸入高度,W:輸入寬度,Cin:輸入通道)。在卷積層中,輸入I與濾波器組F卷積∈ rh×w×Cin×Cout計(jì)算O∈ rh×W×Cout(H:濾波器高度大小,W:濾波器寬度大小,Cout:濾波器輸出通道)。為了清晰顯示,我們將圖層輸出和輸入固定為相同大小,步幅為1,盡管我們?cè)趯?shí)驗(yàn)中放寬了這些限制。更正式地說(shuō),F(xiàn)在以位置(i,j)Ii,j為中心的大小為h×w×Cin的局部輸入面片上的操作是:

我在哪里∈ R Cout是位置(i,j)處的輸出?我∈ {1,…,H}和?J∈ {1,…,W}(定義為輸入和濾波器沿前3個(gè)軸的元素相乘)。卷積的空間不變性是指對(duì)所有位置的輸入面片應(yīng)用相同的濾波器組F(圖2左)。

另一方面,局部連接的層不共享權(quán)重。與卷積類似,他們使用帶有局部感受野的濾波器。但是,過(guò)濾器并不是跨空間共享的(圖2右側(cè))。形式上,每個(gè)輸出Oi,j是通過(guò)將不同的濾波器組F(i,j)應(yīng)用于相應(yīng)的輸入補(bǔ)丁(即Oi,j=Ii,j?F(i,j))來(lái)計(jì)算的。

根據(jù)經(jīng)驗(yàn),與卷積層相比,局部連接層的性能較差(Novak等人,2018年)。直觀地說(shuō),圖像中的局部區(qū)域并不是完全獨(dú)立的,我們期望在一個(gè)局部區(qū)域上學(xué)習(xí)的濾波器在應(yīng)用于附近區(qū)域時(shí)有用。雖然局部連接層嚴(yán)格來(lái)說(shuō)比卷積層更強(qiáng)大,并且在理論上可以收斂到卷積解,但在實(shí)踐中,它們不會(huì)收斂,而是過(guò)度擬合訓(xùn)練數(shù)據(jù)。然而,卷積層的性能優(yōu)于局部連接層(LeCun,1989;Bartunov等人,2018;Novak等人,2018),這并不意味著嚴(yán)格要求空間不變性。

下面,我們開發(fā)了一些方法來(lái)控制一個(gè)層可能具有的空間不變性程度,這使我們能夠檢驗(yàn)空間不變性可能過(guò)度限制的假設(shè)

3.2. 低秩局部連接層

在這里,我們?cè)O(shè)計(jì)了一個(gè)局部連接層,該層具有控制空間不變性程度的空間秩參數(shù)。我們通過(guò)使用一組K個(gè)局部濾波器組(基集)來(lái)調(diào)整空間不變性的程度,而不是卷積層中的1個(gè)濾波器組或經(jīng)典局部連接層中的H×W濾波器組(K是可以根據(jù)驗(yàn)證子集調(diào)整的超參數(shù);1≤ K≤ H×W)。對(duì)于每個(gè)輸入面片Ii,j,我們構(gòu)造一個(gè)濾波器組來(lái)操作該面片,該面片是基集成員的線性組合。就是,

其中w(k)i,j∈ R是組合基集中濾波器組的權(quán)重?我∈ {1,…,H}和?J∈ {1,…,W}。該公式等價(jià)于局部連通核的秩為K的低秩因子分解。因此,我們將該層稱為“低秩局部連接”(LRLC)層(圖2)。

注意,在本文中,我們使用具有類似結(jié)構(gòu)的濾波器的基集。然而,該層也可與包含具有不同結(jié)構(gòu)(例如,不同的濾波器尺寸和/或膨脹率)的濾波器的基集一起使用。

基集中的過(guò)濾器使用特定于每個(gè)空間位置的權(quán)重進(jìn)行線性組合。特別是,在基集中輸入大小為H×W和K的濾波器組時(shí),我們需要H×W×K權(quán)重來(lái)組合這些濾波器組,并在每個(gè)空間位置形成濾波器組。我們提出兩種方法來(lái)學(xué)習(xí)這些組合權(quán)重。一種方法學(xué)習(xí)所有示例共享的權(quán)重,而第二種方法根據(jù)輸入函數(shù)預(yù)測(cè)每個(gè)示例的權(quán)重。

3.2.1.固定組合權(quán)重

學(xué)習(xí)組合權(quán)重的最簡(jiǎn)單方法是學(xué)習(xí)每個(gè)空間位置的K個(gè)標(biāo)量。這種方法非常適合于具有空間不均勻特征的數(shù)據(jù)集,例如對(duì)齊面的數(shù)據(jù)集。組合權(quán)重的數(shù)量與圖像中可能較大的像素?cái)?shù)量成線性比例。因此,為了減少參數(shù),我們學(xué)習(xí)將位置(i,j)的每行和每列的權(quán)重組合如下:

該公式將組合權(quán)重參數(shù)的數(shù)量減少到(H+W)×K,這限制了層的表現(xiàn)力(即,限制了空間不變性的最大松弛度)。該公式在實(shí)踐中也表現(xiàn)得更好(圖Supp.2)。

我們進(jìn)一步歸一化權(quán)重,以限制組合濾波器的規(guī)模。標(biāo)準(zhǔn)化的常見選擇是除以權(quán)重范數(shù)或使用softmax函數(shù)。在我們的早期實(shí)驗(yàn)中,我們發(fā)現(xiàn)softmax歸一化的性能稍好一些。因此,組合權(quán)重的計(jì)算如下:

基集中的濾波器組和組合權(quán)重都可以端到端地學(xué)習(xí)。在實(shí)踐中,我們使用卷積和逐點(diǎn)乘法運(yùn)算實(shí)現(xiàn)該層,如算法1中所示,而不是形成等效的局部連接層。這種實(shí)現(xiàn)選擇是由于局部連接層在實(shí)踐中速度較慢,因?yàn)楫?dāng)前硬件的內(nèi)存帶寬有限,而卷積是高度優(yōu)化和快速的。我們將組合權(quán)重初始化為一個(gè)常數(shù),這相當(dāng)于帶有隨機(jī)核的卷積層,盡管我們的主要發(fā)現(xiàn)在有或沒(méi)有此初始化的情況下保持不變(圖Supp.1)。

在訓(xùn)練時(shí),LRLC層的參數(shù)計(jì)數(shù)約為相應(yīng)卷積層的K倍,算法1的計(jì)算成本也是如此。然而,在訓(xùn)練網(wǎng)絡(luò)之后,LRLC層可以轉(zhuǎn)換為局部連接層。當(dāng)卷積實(shí)現(xiàn)為矩陣乘法時(shí),局部連接層具有與卷積相同的觸發(fā)器計(jì)數(shù)(圖Supp.4),盡管存儲(chǔ)權(quán)重所需的內(nèi)存量與特征映射的空間大小成比例。

空間變化偏置

通常,每個(gè)通道的學(xué)習(xí)偏置被添加到卷積的輸出。這里,我們?cè)试S添加到LRLC輸出的偏置也在空間上變化。與組合權(quán)重類似,將學(xué)習(xí)每行和每列偏置,并將其添加到標(biāo)準(zhǔn)通道偏置中。形式上,我們將層偏置(B)定義為:

b排在哪里∈ rh,b柱∈ RW和b頻道∈ R庫(kù)特。K=1的LRLC層的特殊情況等效于卷積運(yùn)算,然后添加空間變化的偏置。在我們的實(shí)驗(yàn)中,我們使用這個(gè)例子作為一個(gè)簡(jiǎn)單的基線來(lái)測(cè)試僅僅在偏置中放松空間不變性是否足以看到改進(jìn)。

3.2.2.與輸入相關(guān)的組合權(quán)重

當(dāng)所有圖像與一致出現(xiàn)在相同空間位置的結(jié)構(gòu)對(duì)齊時(shí),直觀地說(shuō),固定組合權(quán)重公式將最有效。許多圖像數(shù)據(jù)集在結(jié)構(gòu)上有一定的一致性,我們期望這種方法對(duì)于此類數(shù)據(jù)集特別成功。然而,這種公式可能不適合沒(méi)有圖像對(duì)齊的數(shù)據(jù)集。在本節(jié)中,我們描述了LRLC層的擴(kuò)展,該擴(kuò)展對(duì)輸入上的組合權(quán)重進(jìn)行了調(diào)節(jié)。

形式上,我們修改等式3中的組合權(quán)重,使其成為輸入的函數(shù):

其中g(shù)是一個(gè)輕型神經(jīng)網(wǎng)絡(luò),用于預(yù)測(cè)每個(gè)位置的組合權(quán)重。更正式地說(shuō),g接受輸入I∈ R H×W×Cin并輸出權(quán)重

w~∈ R H×W×K。然后,預(yù)測(cè)權(quán)重被類似地歸一化,如等式4所示,并與之前一樣用于組合基集中的濾波器組,以形成每個(gè)空間位置的局部濾波器。與第3.2節(jié)類似。1,空間上變化的偏置也應(yīng)用于層的輸出。用于g的架構(gòu)具有較低的計(jì)算成本,由幾個(gè)并行應(yīng)用的擴(kuò)展可分離卷積組成,然后是一系列輸出H×W×K張量的廉價(jià)聚合層。g的完整架構(gòu)在補(bǔ)充章節(jié)B中有詳細(xì)說(shuō)明,如圖Supp.5所示。

4.實(shí)驗(yàn)

我們?cè)贛NIST、CIFAR-10和CelebA數(shù)據(jù)集上進(jìn)行了分類實(shí)驗(yàn)。我們?cè)跊](méi)有數(shù)據(jù)增強(qiáng)或正則化的情況下訓(xùn)練我們的模型,以便將我們的研究重點(diǎn)放在空間不變性程度對(duì)泛化的純粹影響上。在我們的實(shí)驗(yàn)中,我們使用了最大學(xué)習(xí)率為0.01、小批量大小為512的Adam優(yōu)化器。我們訓(xùn)練了150個(gè)epoch的模型,從10個(gè)epoch的線性預(yù)熱期開始,然后使用余弦衰減時(shí)間表。我們?cè)谒械挠?xùn)練中都使用了張量處理單元(TPU)加速器。

我們使用3層網(wǎng)絡(luò)進(jìn)行研究,每層64個(gè)通道,局部濾波器大小為3×3。每層之后是批量歸一化和ReLU非線性。網(wǎng)絡(luò)之后是一個(gè)全局平均池操作,然后是一個(gè)線性完全連接層以形成預(yù)測(cè)。我們的網(wǎng)絡(luò)有足夠的容量,我們進(jìn)行了足夠多的步驟訓(xùn)練,以達(dá)到較高的訓(xùn)練精度(表Supp.2)。對(duì)于我們的所有結(jié)果,我們展示了基于10種不同隨機(jī)初始化訓(xùn)練模型的平均精度±標(biāo)準(zhǔn)誤差。我們的訓(xùn)練、驗(yàn)證和測(cè)試子集劃分如表Supp.1所示。

4.1. 空間不變性可能過(guò)于嚴(yán)格

在本節(jié)中,我們將研究放松層的空間不變性程度是否是圖像分類的更好的歸納偏置。我們用設(shè)計(jì)的低秩局部連接(LRLC)層替換了網(wǎng)絡(luò)不同深度的卷積層(第一層、第二層、第三層或所有層)。我們改變了LRLC層的空間秩,這控制了從空間不變卷積層到局部連接層的偏置程度。如果秩較小,則網(wǎng)絡(luò)被限制在跨空間共享更多的過(guò)濾器,并且秩越高,施加的共享越少。我們訓(xùn)練了我們的模型,并量化了這些不同等級(jí)的測(cè)試數(shù)據(jù)的泛化精度。

當(dāng)秩為1時(shí),LRLC層等效于具有附加空間偏置的卷積層。將這種空間偏置添加到卷積中可以提高正常卷積層的精度(表1)。增加空間秩允許層在不同的空間位置使用不同的濾波器,并進(jìn)一步偏離卷積網(wǎng)絡(luò)。我們的結(jié)果表明,這樣做進(jìn)一步提高了準(zhǔn)確性(圖3)。我們發(fā)現(xiàn),在任何深度放置LRLC層的網(wǎng)絡(luò),或用LRLC層替換所有層的網(wǎng)絡(luò),其精度高于純卷積網(wǎng)絡(luò)(圖3和表1)。這些發(fā)現(xiàn)為空間不變性可能過(guò)度限制的假設(shè)提供了證據(jù)。我們的結(jié)果進(jìn)一步表明,在網(wǎng)絡(luò)后期(靠近網(wǎng)絡(luò)輸出)放松空間不變性比早期(在輸入)好。在網(wǎng)絡(luò)后期放松空間不變性也比在每一層放松好(表1)。不同數(shù)據(jù)集的最優(yōu)空間秩不同;CIFAR-10數(shù)據(jù)的秩最低,CelebA的秩最高。

LRLC層具有編碼位置的能力,這是普通卷積層所缺乏的。這種額外的位置編碼可以解釋精度的提高。之前的工作試圖通過(guò)增加坐標(biāo)通道的輸入來(lái)賦予卷積網(wǎng)絡(luò)這種能力,這種方法被稱為CoordConv(Liu等人,2018)。為了測(cè)試LRLC層的功效是否可以僅僅通過(guò)其編碼位置的能力來(lái)解釋,我們將其性能與CoordConv進(jìn)行了比較。我們的結(jié)果表明,CoordConv優(yōu)于vanilla卷積,但仍落后于LRLC網(wǎng)絡(luò)(表2和圖4),這表明LRLC層的歸納偏置更適合數(shù)據(jù)。與CoordConv不同,LRLC層允許通過(guò)調(diào)整空間秩來(lái)控制和調(diào)整不同數(shù)據(jù)集的空間不變性程度。但是,對(duì)于CoordConv,這種調(diào)整是不可能的。這直觀地說(shuō)明了為什么LRLC層比CoordConv更適合數(shù)據(jù)。

盡管局部連接層具有與標(biāo)準(zhǔn)卷積層類似的推斷時(shí)間觸發(fā)器計(jì)數(shù),但空間不變性的放松是以增加可訓(xùn)練參數(shù)的數(shù)量為代價(jià)的。特別是,LRLC層中可訓(xùn)練參數(shù)的數(shù)量隨著空間秩線性增長(zhǎng)(忽略組合權(quán)重和空間偏置,因?yàn)樗鼈兿鄬?duì)較?。?。模型參數(shù)的增加并不能解釋LRLC層的優(yōu)越性。與LRLC層相比,局部連接層的可訓(xùn)練參數(shù)更多,但性能更差(圖4和表2)。此外,即使在加寬卷積層以匹配LRLC層的可訓(xùn)練參數(shù)計(jì)數(shù)之后,僅具有卷積層的網(wǎng)絡(luò)仍然不匹配具有低秩局部連接層的網(wǎng)絡(luò)的精度(圖4,補(bǔ)充3和表2)。因此,在我們的實(shí)驗(yàn)中,LRLC層似乎提供了與參數(shù)計(jì)數(shù)無(wú)關(guān)的更好的歸納偏置。

4.2. 與輸入相關(guān)的低秩局部連通性對(duì)于對(duì)齊較少的數(shù)據(jù)集來(lái)說(shuō)是一種更好的歸納偏置

在上一節(jié)中,我們的結(jié)果表明,最佳空間秩依賴于數(shù)據(jù)集。具有最高精度的空間秩(最佳秩)在不同的數(shù)據(jù)集中是不同的,并且通常遠(yuǎn)離滿秩(即輸入的空間大?。?,這就直觀地說(shuō)明了為什么卷積層在卷積更接近最佳秩的情況下對(duì)圖像工作得很好,而與普通的局部連接層相比。最佳秩似乎取決于數(shù)據(jù)集中的對(duì)齊方式。例如,CelebA數(shù)據(jù)集的最佳秩最高,該數(shù)據(jù)集包含大致對(duì)齊的人臉圖像。相比之下,在CIFAR-10上,最佳秩較低,這可能反映了數(shù)據(jù)集中除了對(duì)圖像中心對(duì)象的微弱偏向之外,沒(méi)有對(duì)齊。

這些發(fā)現(xiàn)提出了這樣一個(gè)問(wèn)題:如果跨空間的局部過(guò)濾器的分配不是在整個(gè)數(shù)據(jù)集中固定的,而是以輸入為條件的,那么是否可以獲得更多收益。為了回答這個(gè)問(wèn)題,我們修改了LRLC層,以允許該層根據(jù)輸入分配局部濾波器(見第3.2.2節(jié))。這種方法與之前關(guān)于輸入相關(guān)濾波器的工作有一些相似之處(Yang等人,2019年;Jia等人,2016年)。我們測(cè)試了使用這種依賴于輸入的方法選擇局部過(guò)濾器是否可以在對(duì)齊程度較低的CIFAR-10數(shù)據(jù)集中獲得更多收益。我們的結(jié)果表明,與固定LRLC層相比,依賴輸入的LRLC網(wǎng)絡(luò)確實(shí)在CIFAR-10上實(shí)現(xiàn)了更高的精度,并產(chǎn)生了更高的最佳空間秩(圖5和表3)。我們還在MNIST和CelebA上實(shí)驗(yàn)了輸入相關(guān)的LRLC。我們發(fā)現(xiàn),與具有固定權(quán)重的LRLC相比,依賴輸入的LRLC對(duì)MNIST的影響較小,對(duì)CelebA的準(zhǔn)確性也有一定的影響(圖5和表3)。這一發(fā)現(xiàn)表明,對(duì)于高度對(duì)齊的數(shù)據(jù),低秩局部連接性是一種更好的歸納偏置,而與輸入相關(guān)的低秩局部連接性更適合于對(duì)齊程度較低的數(shù)據(jù)集(圖5)。

為了進(jìn)一步研究這一發(fā)現(xiàn),我們通過(guò)將32×32人臉圖像均勻地放置在帶有隨機(jī)均勻噪聲的48×48圖像中,從而隨機(jī)平移CelebA人臉,破壞了CelebA中的對(duì)齊。我們的結(jié)果表明,“翻譯的CelebA”上的LRLC精度下降,而輸入相關(guān)的LRLC精度在很大程度上保持不變(圖Supp.6)。我們進(jìn)一步將權(quán)重與秩2模型相結(jié)合,以便于解釋結(jié)果。我們的結(jié)果表明,LRLC層的組合權(quán)重使用一個(gè)濾波器組用于平移面重疊最多的中心位置,另一個(gè)用于邊緣(圖Supp.7左側(cè))。對(duì)于依賴輸入的LRLC,組合權(quán)重跟蹤轉(zhuǎn)換的面,這使層能夠在對(duì)齊度較低的數(shù)據(jù)集中捕獲空間變化的信息(圖Supp.7)。

4.3. 低秩局部連通性在大規(guī)模問(wèn)題中應(yīng)用的可行性

在本節(jié)中,我們將演示在大規(guī)模問(wèn)題中使用低秩局部連接層的可行性。局部連接層不適用于大規(guī)模問(wèn)題,因?yàn)榭捎?xùn)練參數(shù)的數(shù)量隨空間維度的變化而變化,這在具有高分辨率圖像的數(shù)據(jù)集中可能會(huì)非常大。例如,應(yīng)用于來(lái)自ImageNet的224x圖像的局部連接層需要局部連接層中的50176個(gè)局部濾波器組。相比之下,低秩局部連接層中的濾波器組數(shù)量?jī)H與秩參數(shù)成比例,這實(shí)際上比空間維度小得多。

為了證明在實(shí)踐中使用LRLC層的可行性,我們?cè)贗mageNet上使用ResNet-50進(jìn)行了兩次實(shí)驗(yàn)(訓(xùn)練詳情見附錄C)。在第一個(gè)實(shí)驗(yàn)中,我們?cè)诘谝粋€(gè)卷積層之后插入了一個(gè)額外的LRLC層。在第二個(gè)實(shí)驗(yàn)中,我們用LRLC層替換了網(wǎng)絡(luò)塊中的所有3×3卷積。請(qǐng)注意,如果我們使用一個(gè)普通的局部連接層,這些實(shí)驗(yàn)將非常昂貴。我們研究了空間等級(jí)1、4和7,并使用保持?jǐn)?shù)據(jù)集分割選擇了最佳等級(jí)。與先前在MNIST、CIFAR-10和CelebA中的結(jié)果類似,LRLC模型優(yōu)于卷積,這表明ImageNet也受益于放松空間不變性(表4)。然而,在ImageNet上,與LRLC中的參數(shù)數(shù)量相匹配的更廣泛版本的ResNet-50要么匹配,要么優(yōu)于LRLC(表4)。運(yùn)行這些大規(guī)模實(shí)驗(yàn)的可行性為在許多計(jì)算機(jī)視覺(jué)問(wèn)題中使用LRLC層打開了大門。

5.結(jié)論

在這項(xiàng)工作中,我們測(cè)試了空間不變性(卷積層的基本屬性)是否是一種過(guò)度限制的歸納偏置。為了解決這個(gè)問(wèn)題,我們?cè)O(shè)計(jì)了一個(gè)新的局部連接層(LRLC),其中的空間不變性程度可以通過(guò)修改空間秩參數(shù)來(lái)控制。此參數(shù)確定局部濾波器組的基本集的大小,圖層可以使用這些基本集在輸入的不同位置形成局部濾波器。LRLC層具有與局部連接層類似的限制,即它具有比卷積層更多的可訓(xùn)練參數(shù)。然而,LRLC參數(shù)的計(jì)數(shù)尺度僅與空間秩有關(guān),這比局部連接層中的空間維度尺度小得多。

我們的結(jié)果表明,使用我們的LRLC層放松空間不變性可以提高標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)模型的準(zhǔn)確性,這表明空間不變性可能過(guò)于嚴(yán)格。然而,我們還發(fā)現(xiàn),我們提出的LRLC層比普通的局部連接層實(shí)現(xiàn)了更高的精度,這表明它有利于部分空間不變性。我們表明,在后期層中放松空間不變性優(yōu)于在早期層中放松空間不變性。此外,我們發(fā)現(xiàn),當(dāng)數(shù)據(jù)沒(méi)有很好地對(duì)齊時(shí),與輸入相關(guān)的LRLC層(它使局部濾波器適應(yīng)每個(gè)輸入)表現(xiàn)得更好。

局部連接層在很大程度上被研究界忽視,因?yàn)槿藗冋J(rèn)為它們的性能很差,而且可訓(xùn)練參數(shù)的數(shù)量也很復(fù)雜。然而,我們的研究結(jié)果表明,這種悲觀主義應(yīng)該重新審視,因?yàn)榫哂械椭葏?shù)化的局部連接層實(shí)現(xiàn)了良好的性能,并解決了可訓(xùn)練參數(shù)的復(fù)雜性問(wèn)題。進(jìn)一步的工作是必要的,以捕捉放松對(duì)其他計(jì)算機(jī)視覺(jué)問(wèn)題和數(shù)據(jù)集的空間不變性的優(yōu)勢(shì)。實(shí)現(xiàn)這一目標(biāo)的一個(gè)有趣方向是利用我們的LRLC公式,并探索使用具有混合過(guò)濾器大小和膨脹率的基集來(lái)構(gòu)建各種層,以適合不同應(yīng)用程序的數(shù)據(jù)集。

6.致謝

我們非常感謝吉全·恩賈姆、彼得·詹·金德曼斯、賈斯卡·蘇爾·迪克斯坦、杰洪·李、丹尼爾·帕克、索邦·納德利、馬克斯·弗拉季米羅夫、休姆、邁克爾·辛比斯基、羅曼·諾瓦克、哈尼·塞吉、卡爾蒂克·穆爾西、邁克爾·莫澤和亞尼·伊奧安諾對(duì)手稿進(jìn)行了有益的討論并提供了有益的反饋。

[if !supportLists]A.?[endif]補(bǔ)充數(shù)字

圖Supp.1:

結(jié)構(gòu)化與非結(jié)構(gòu)化初始化。前1位精度與圖3相似。我們研究了我們?cè)贚RLC層實(shí)驗(yàn)中使用的結(jié)構(gòu)化初始化的效果(即,使用隨機(jī)核初始化到卷積層)。在結(jié)構(gòu)化初始化中,我們將層合并權(quán)重初始化為常數(shù),等于1/√ 空間等級(jí)。我們將此初始化與組合權(quán)重的隨機(jī)初始化進(jìn)行了比較。我們的結(jié)果表明,結(jié)構(gòu)化初始化通常與非結(jié)構(gòu)化初始化非常相似。誤差條表示從10個(gè)不同隨機(jī)初始化的訓(xùn)練模型計(jì)算出的±標(biāo)準(zhǔn)誤差。

圖Supp.2:

因式分解與完全組合權(quán)重和偏置。前1位精度與圖3相似。我們研究了方程3和5中組合權(quán)重和偏置的因式分解效應(yīng)。我們比較了具有因式分解權(quán)重和偏置的LRLC層與不具有因式分解的LRLC層的性能。具有因式分解的層似乎性能更好。

圖Supp.3:

精度作為模型參數(shù)的函數(shù)。分類精度是網(wǎng)絡(luò)參數(shù)的函數(shù)。誤差條表示從10個(gè)不同隨機(jī)初始化的訓(xùn)練模型計(jì)算出的±標(biāo)準(zhǔn)誤差。

圖Supp.4:

計(jì)算量是局部連通核空間秩的函數(shù)。隨著局部連接內(nèi)核的空間秩的增加,輸入相關(guān)LRLC層和具有類似可訓(xùn)練參數(shù)(寬卷積)的卷積層的計(jì)算成本(通過(guò)浮點(diǎn)運(yùn)算(FLOPS)的數(shù)量衡量)以類似的速率增長(zhǎng),而LRLC層的計(jì)算成本保持不變,因?yàn)樗梢栽谕评頃r(shí)轉(zhuǎn)換為局部連接層。

圖Supp.6:

與輸入相關(guān)的LRLC對(duì)轉(zhuǎn)換是不變的。比較CelebA和翻譯后的CelebA數(shù)據(jù)集中LRLC和輸入相關(guān)LRLC網(wǎng)絡(luò)的性能。

圖Supp.7:

組合權(quán)重的可視化。將LRLC網(wǎng)絡(luò)a)和b)中的輸入相關(guān)LRLC網(wǎng)絡(luò)的權(quán)重與在翻譯的CelebA數(shù)據(jù)集上訓(xùn)練的秩2相結(jié)合。

B.與輸入相關(guān)的組合權(quán)重網(wǎng)絡(luò)

圖Supp.5說(shuō)明了輸入相關(guān)組合權(quán)重網(wǎng)絡(luò)(g)的架構(gòu)。g的初始操作是使用1×1卷積將輸入通道投影到低維空間。該投影用于允許g具有少量參數(shù),并且還因?yàn)樵诨羞x擇濾波器組可能比網(wǎng)絡(luò)正在執(zhí)行的分類任務(wù)更簡(jiǎn)單。受分段工作的推動(dòng)(Chen等人,2017a;Yu&Koltun,2015;Chen等人,2017b),第二次操作使用并行池和擴(kuò)展的深度3×3卷積層,然后進(jìn)行雙線性調(diào)整,收集輸入不同尺度的統(tǒng)計(jì)數(shù)據(jù)。注意,由于初始投影步驟和深度卷積的使用,此處參數(shù)的增加很小。下一階段是一個(gè)非線性低維瓶頸,然后是具有1×1卷積的非線性維數(shù)擴(kuò)展。該操作與擠壓和激發(fā)操作類似(Hu等人,2018年),其目的是賦予g學(xué)習(xí)輸入有用嵌入的能力。最后一層是線性1×1卷積,將信道大小減小到空間秩。

C.ImageNet訓(xùn)練

我們將標(biāo)準(zhǔn)ImageNet ILSVRC 2012訓(xùn)練集劃分為訓(xùn)練和開發(fā)子集。我們?cè)谟?xùn)練子集上訓(xùn)練我們的模型,并根據(jù)發(fā)展子集選擇最佳等級(jí)。我們遵循常規(guī)做法,并在單獨(dú)的ILSVRC 2012驗(yàn)證集上報(bào)告結(jié)果,我們不將其用于訓(xùn)練或超參數(shù)選擇。我們通過(guò)優(yōu)化交叉熵?fù)p失加上模型權(quán)重的2-正則化來(lái)訓(xùn)練網(wǎng)絡(luò)。我們使用Nesterov動(dòng)量為0.9的隨機(jī)梯度下降優(yōu)化了所有模型。我們通過(guò)減去平均值并除以訓(xùn)練樣本的標(biāo)準(zhǔn)偏置對(duì)圖像進(jìn)行預(yù)處理。在優(yōu)化過(guò)程中,我們通過(guò)在圖像中進(jìn)行隨機(jī)裁剪,然后根據(jù)模型分辨率執(zhí)行雙三次調(diào)整來(lái)增加訓(xùn)練數(shù)據(jù)。我們使用了2048的批量和8e的2-正則化規(guī)模? 5.我們訓(xùn)練了150個(gè)epoch的模型,從10個(gè)epoch的線性預(yù)熱期開始,然后使用余弦衰減時(shí)間表。我們?cè)谒械挠?xùn)練中都使用了張量處理單元(TPU)加速器。我們通過(guò)計(jì)算top-1精度±標(biāo)準(zhǔn)誤差來(lái)計(jì)算我們的結(jié)果,該誤差基于從3種不同隨機(jī)初始化訓(xùn)練的模型。

D.補(bǔ)充表格

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容