原文鏈接:http://blog.csdn.net/yjl9122/article/details/70198357
卷積神經(jīng)網(wǎng)絡(luò)(CNN)由輸入層、卷積層、激活函數(shù)、池化層、全連接層組成,即INPUT(輸入層)-CONV(卷積層)-RELU(激活函數(shù))-POOL(池化層)-FC(全連接層)
卷積層
用它來(lái)進(jìn)行特征提取,如下:

輸入圖像是32*32*3,3是它的深度(即R、G、B),卷積層是一個(gè)5*5*3的filter(感受野),這里注意:感受野的深度必須和輸入圖像的深度相同。通過(guò)一個(gè)filter與輸入圖像的卷積可以得到一個(gè)28*28*1的特征圖,上圖是用了兩個(gè)filter得到了兩個(gè)特征圖;
我們通常會(huì)使用多層卷積層來(lái)得到更深層次的特征圖。如下:


關(guān)于卷積的過(guò)程圖解如下:

輸入圖像和filter的對(duì)應(yīng)位置元素相乘再求和,最后再加上b,得到特征圖。如圖中所示,filter w0的第一層深度和輸入圖像的藍(lán)色方框中對(duì)應(yīng)元素相乘再求和得到0,其他兩個(gè)深度得到2,0,則有0+2+0+1=3即圖中右邊特征圖的第一個(gè)元素3.,卷積過(guò)后輸入圖像的藍(lán)色方框再滑動(dòng),stride(步長(zhǎng))=2,如下:

如上圖,完成卷積,得到一個(gè)3*3*1的特征圖;在這里還要注意一點(diǎn),即zero pad項(xiàng),即為圖像加上一個(gè)邊界,邊界元素均為0.(對(duì)原輸入無(wú)影響)一般有
F=3 => zero pad with 1
F=5 => zero pad with 2
F=7=> zero pad with 3,邊界寬度是一個(gè)經(jīng)驗(yàn)值,加上zero pad這一項(xiàng)是為了使輸入圖像和卷積后的特征圖具有相同的維度,如:
輸入為5*5*3,filter為3*3*3,在zero pad 為1,則加上zero pad后的輸入圖像為7*7*3,則卷積后的特征圖大小為5*5*1((7-3)/1+1),與輸入圖像一樣;
而關(guān)于特征圖的大小計(jì)算方法具體如下:

卷積層還有一個(gè)特性就是“權(quán)值共享”原則。如下圖:

如沒(méi)有這個(gè)原則,則特征圖由10個(gè)32*32*1的特征圖組成,即每個(gè)特征圖上有1024個(gè)神經(jīng)元,每個(gè)神經(jīng)元對(duì)應(yīng)輸入圖像上一塊5*5*3的區(qū)域,即一個(gè)神經(jīng)元和輸入圖像的這塊區(qū)域有75個(gè)連接,即75個(gè)權(quán)值參數(shù),則共有75*1024*10=768000個(gè)權(quán)值參數(shù),這是非常復(fù)雜的,因此卷積神經(jīng)網(wǎng)絡(luò)引入“權(quán)值”共享原則,即一個(gè)特征圖上每個(gè)神經(jīng)元對(duì)應(yīng)的75個(gè)權(quán)值參數(shù)被每個(gè)神經(jīng)元共享,這樣則只需75*10=750個(gè)權(quán)值參數(shù),而每個(gè)特征圖的閾值也共享,即需要10個(gè)閾值,則總共需要750+10=760個(gè)參數(shù)。
所謂的權(quán)值共享就是說(shuō),給一張輸入圖片,用一個(gè)filter去掃這張圖,filter里面的數(shù)就叫權(quán)重,這張圖每個(gè)位置就是被同樣的filter掃的,所以權(quán)重是一樣的,也就是共享。
激活函數(shù)
如果輸入變化很小,導(dǎo)致輸出結(jié)構(gòu)發(fā)生截然不同的結(jié)果,這種情況是我們不希望看到的,為了模擬更細(xì)微的變化,輸入和輸出數(shù)值不只是0到1,可以是0和1之間的任何數(shù),
激活函數(shù)是用來(lái)加入非線性因素的,因?yàn)榫€性模型的表達(dá)力不夠
這句話字面的意思很容易理解,但是在具體處理圖像的時(shí)候是什么情況呢?我們知道在神經(jīng)網(wǎng)絡(luò)中,對(duì)于圖像,我們主要采用了卷積的方式來(lái)處理,也就是對(duì)每個(gè)像素點(diǎn)賦予一個(gè)權(quán)值,這個(gè)操作顯然就是線性的。但是對(duì)于我們樣本來(lái)說(shuō),不一定是線性可分的,為了解決這個(gè)問(wèn)題,我們可以進(jìn)行線性變化,或者我們引入非線性因素,解決線性模型所不能解決的問(wèn)題。
這里插一句,來(lái)比較一下上面的那些激活函數(shù),因?yàn)樯窠?jīng)網(wǎng)絡(luò)的數(shù)學(xué)基礎(chǔ)是處處可微的,所以選取的激活函數(shù)要能保證數(shù)據(jù)輸入與輸出也是可微的,運(yùn)算特征是不斷進(jìn)行循環(huán)計(jì)算,所以在每代循環(huán)過(guò)程中,每個(gè)神經(jīng)元的值也是在不斷變化的。
這就導(dǎo)致了tanh特征相差明顯時(shí)的效果會(huì)很好,在循環(huán)過(guò)程中會(huì)不斷擴(kuò)大特征效果顯示出來(lái),但有是,在特征相差比較復(fù)雜或是相差不是特別大時(shí),需要更細(xì)微的分類判斷的時(shí)候,sigmoid效果就好了。
還有一個(gè)東西要注意,sigmoid 和 tanh作為激活函數(shù)的話,一定要注意一定要對(duì) input 進(jìn)行歸一話,否則激活后的值都會(huì)進(jìn)入平坦區(qū),使隱層的輸出全部趨同,但是?ReLU 并不需要輸入歸一化來(lái)防止它們達(dá)到飽和。
構(gòu)建稀疏矩陣,也就是稀疏性,這個(gè)特性可以去除數(shù)據(jù)中的冗余,最大可能保留數(shù)據(jù)的特征,也就是大多數(shù)為0的稀疏矩陣來(lái)表示。其實(shí)這個(gè)特性主要是對(duì)于Relu,它就是取的max(0,x),因?yàn)樯窠?jīng)網(wǎng)絡(luò)是不斷反復(fù)計(jì)算,實(shí)際上變成了它在嘗試不斷試探如何用一個(gè)大多數(shù)為0的矩陣來(lái)嘗試表達(dá)數(shù)據(jù)特征,結(jié)果因?yàn)橄∈杼匦缘拇嬖?,反而這種方法變得運(yùn)算得又快效果又好了。所以我們可以看到目前大部分的卷積神經(jīng)網(wǎng)絡(luò)中,基本上都是采用了ReLU 函數(shù)。
常用的激活函數(shù)
激活函數(shù)應(yīng)該具有的性質(zhì):?
(1)非線性。線性激活層對(duì)于深層神經(jīng)網(wǎng)絡(luò)沒(méi)有作用,因?yàn)槠渥饔靡院笕匀皇禽斎氲母鞣N線性變換。。?
(2)連續(xù)可微。梯度下降法的要求。?
(3)范圍最好不飽和,當(dāng)有飽和的區(qū)間段時(shí),若系統(tǒng)優(yōu)化進(jìn)入到該段,梯度近似為0,網(wǎng)絡(luò)的學(xué)習(xí)就會(huì)停止。?
(4)單調(diào)性,當(dāng)激活函數(shù)是單調(diào)時(shí),單層神經(jīng)網(wǎng)絡(luò)的誤差函數(shù)是凸的,好優(yōu)化。?
(5)在原點(diǎn)處近似線性,這樣當(dāng)權(quán)值初始化為接近0的隨機(jī)值時(shí),網(wǎng)絡(luò)可以學(xué)習(xí)的較快,不用可以調(diào)節(jié)網(wǎng)絡(luò)的初始值。?
目前常用的激活函數(shù)都只擁有上述性質(zhì)的部分,沒(méi)有一個(gè)擁有全部的~~
Sigmoid函數(shù)

目前已被淘汰
缺點(diǎn):?
??飽和時(shí)梯度值非常小。由于BP算法反向傳播的時(shí)候后層的梯度是以乘性方式傳遞到前層,因此當(dāng)層數(shù)比較多的時(shí)候,傳到前層的梯度就會(huì)非常小,網(wǎng)絡(luò)權(quán)值得不到有效的更新,即梯度耗散。如果該層的權(quán)值初始化使得f(x)?處于飽和狀態(tài)時(shí),網(wǎng)絡(luò)基本上權(quán)值無(wú)法更新。?
??輸出值不是以0為中心值。?
Tanh函數(shù)

其中σ(x)?為sigmoid函數(shù),仍然具有飽和的問(wèn)題。
ReLU函數(shù)
Alex在2012年提出的一種新的激活函數(shù)。該函數(shù)的提出很大程度的解決了BP算法在優(yōu)化深層神經(jīng)網(wǎng)絡(luò)時(shí)的梯度耗散問(wèn)題?
優(yōu)點(diǎn):?
?x>0時(shí),梯度恒為1,無(wú)梯度耗散問(wèn)題,收斂快;?
?增大了網(wǎng)絡(luò)的稀疏性。當(dāng)x<0時(shí),該層的輸出為0,訓(xùn)練完成后為0的神經(jīng)元越多,稀疏性越大,提取出來(lái)的特征就約具有代表性,泛化能力越強(qiáng)。即得到同樣的效果,真正起作用的神經(jīng)元越少,網(wǎng)絡(luò)的泛化性能越好?
?運(yùn)算量很??;?
缺點(diǎn):?
如果后層的某一個(gè)梯度特別大,導(dǎo)致W更新以后變得特別大,導(dǎo)致該層的輸入<0,輸出為0,這時(shí)該層就會(huì)‘die’,沒(méi)有更新。當(dāng)學(xué)習(xí)率比較大時(shí)可能會(huì)有40%的神經(jīng)元都會(huì)在訓(xùn)練開始就‘die’,因此需要對(duì)學(xué)習(xí)率進(jìn)行一個(gè)好的設(shè)置。?
由優(yōu)缺點(diǎn)可知max(0,x)函數(shù)為一個(gè)雙刃劍,既可以形成網(wǎng)絡(luò)的稀疏性,也可能造成有很多永遠(yuǎn)處于‘die’的神經(jīng)元,需要tradeoff。
Leaky ReLU函數(shù)?

改善了ReLU的死亡特性,但是也同時(shí)損失了一部分稀疏性,且增加了一個(gè)超參數(shù),目前來(lái)說(shuō)其好處不太明確
Maxout函數(shù)

泛化了ReLU和Leaky ReLU,改善了死亡特性,但是同樣損失了部分稀疏性,每個(gè)非線性函數(shù)增加了兩倍的參數(shù)
真實(shí)使用的時(shí)候最常用的還是ReLU函數(shù),注意學(xué)習(xí)率的設(shè)置以及死亡節(jié)點(diǎn)所占的比例即可
池化層
對(duì)輸入的特征圖進(jìn)行壓縮,一方面使特征圖變小,簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜度;一方面進(jìn)行特征壓縮,提取主要特征,如下:

池化操作一般有兩種,一種是Avy Pooling,一種是max Pooling,如下:

同樣地采用一個(gè)2*2的filter,max pooling是在每一個(gè)區(qū)域中尋找最大值,這里的stride=2,最終在原特征圖中提取主要特征得到右圖。
(Avy pooling現(xiàn)在不怎么用了,方法是對(duì)每一個(gè)2*2的區(qū)域元素求和,再除以4,得到主要特征),而一般的filter取2*2,最大取3*3,stride取2,壓縮為原來(lái)的1/4.
注意:這里的pooling操作是特征圖縮小,有可能影響網(wǎng)絡(luò)的準(zhǔn)確度,因此可以通過(guò)增加特征圖的深度來(lái)彌補(bǔ)(這里的深度變?yōu)樵瓉?lái)的2倍)。

在卷積神經(jīng)網(wǎng)絡(luò)中,我們經(jīng)常會(huì)碰到池化操作,而池化層往往在卷積層后面,通過(guò)池化來(lái)降低卷積層輸出的特征向量,同時(shí)改善結(jié)果(不易出現(xiàn)過(guò)擬合)。
為什么可以通過(guò)降低維度呢?
因?yàn)閳D像具有一種“靜態(tài)性”的屬性,這也就意味著在一個(gè)圖像區(qū)域有用的特征極有可能在另一個(gè)區(qū)域同樣適用。因此,為了描述大的圖像,一個(gè)很自然的想法就是對(duì)不同位置的特征進(jìn)行聚合統(tǒng)計(jì),例如,人們可以計(jì)算圖像一個(gè)區(qū)域上的某個(gè)特定特征的平均值 (或最大值)來(lái)代表這個(gè)區(qū)域的特征。
一般池化(General Pooling)
池化作用于圖像中不重合的區(qū)域(這與卷積操作不同),過(guò)程如下圖。
我們定義池化窗口的大小為sizeX,即下圖中紅色正方形的邊長(zhǎng),定義兩個(gè)相鄰池化窗口的水平位移/豎直位移為stride。一般池化由于每一池化窗口都是不重復(fù)的,所以sizeX=stride。

最常見的池化操作為平均池化mean pooling和最大池化max pooling:
平均池化:計(jì)算圖像區(qū)域的平均值作為該區(qū)域池化后的值。
最大池化:選圖像區(qū)域的最大值作為該區(qū)域池化后的值。
重疊池化(OverlappingPooling
?重疊池化正如其名字所說(shuō)的,相鄰池化窗口之間會(huì)有重疊區(qū)域,此時(shí)sizeX>stride。
論文中Krizhevsky, I. Sutskever, andG. Hinton, “Imagenet classification with deep convolutional neural networks,”in NIPS,2012.中,作者使用了重疊池化,其他的設(shè)置都不變的情況下, top-1和top-5 的錯(cuò)誤率分別減少了0.4% 和0.3%。
空金字塔池化(Spatial Pyramid Pooling)
空間金字塔池化可以把任何尺度的圖像的卷積特征轉(zhuǎn)化成相同維度,這不僅可以讓CNN處理任意尺度的圖像,還能避免cropping和warping操作,導(dǎo)致一些信息的丟失,具有非常重要的意義。
一般的CNN都需要輸入圖像的大小是固定的,這是因?yàn)槿B接層的輸入需要固定輸入維度,但在卷積操作是沒(méi)有對(duì)圖像尺度有限制,所有作者提出了空間金字塔池化,先讓圖像進(jìn)行卷積操作,然后轉(zhuǎn)化成維度相同的特征輸入到全連接層,這個(gè)可以把CNN擴(kuò)展到任意大小的圖像

空間金字塔池化的思想來(lái)自于Spatial Pyramid Model,它一個(gè)pooling變成了多個(gè)scale的pooling。用不同大小池化窗口作用于卷積特征,我們可以得到1X1,2X2,4X4的池化結(jié)果,由于conv5中共有256個(gè)過(guò)濾器,所以得到1個(gè)256維的特征,4個(gè)256個(gè)特征,以及16個(gè)256維的特征,然后把這21個(gè)256維特征鏈接起來(lái)輸入全連接層,通過(guò)這種方式把不同大小的圖像轉(zhuǎn)化成相同維度的特征。

對(duì)于不同的圖像要得到相同大小的pooling結(jié)果,就需要根據(jù)圖像的大小動(dòng)態(tài)的計(jì)算池化窗口的大小和步長(zhǎng)。假設(shè)conv5輸出的大小為a*a,需要得到n*n大小的池化結(jié)果,可以讓窗口大小sizeX為

,步長(zhǎng)為

。下圖以conv5輸出的大小為13*13為例。
全連接層
連接所有的特征,將輸出值送給分類器(如softmax分類器)。
總的一個(gè)結(jié)構(gòu)大致如下:
