1.影響網(wǎng)絡(luò)的結(jié)果因素:權(quán)重初始化(會(huì)使線(xiàn)性加權(quán)后的結(jié)果過(guò)大或者過(guò)小,放進(jìn)激活函數(shù)中的話(huà)可能會(huì)產(chǎn)生0值,當(dāng)x的值大于28的時(shí)候輸入sigmoid函數(shù)會(huì)輸出0);激活函數(shù)(求導(dǎo)很多地方為0如sigmoid);學(xué)習(xí)率;迭代次數(shù);數(shù)據(jù)預(yù)處理
2.過(guò)擬合的問(wèn)題:首先是選擇合適的學(xué)習(xí)率最小化cost,在此基礎(chǔ)上出現(xiàn)過(guò)擬合(訓(xùn)練誤差比測(cè)試誤差小很多),則進(jìn)一步采取措施。
3.神經(jīng)網(wǎng)絡(luò)為什么會(huì)產(chǎn)生梯度消失現(xiàn)象?
在DNN中反向傳播的過(guò)程中是激活函數(shù)的梯度與權(quán)重相乘的結(jié)果,若是sigmoid函數(shù),導(dǎo)數(shù)最大為1/4,權(quán)重初始化為均值為0方差為1的值時(shí),很多項(xiàng)相乘,越乘越小,梯度消失問(wèn)題便出現(xiàn)了。
4.為什么會(huì)出現(xiàn)梯度爆炸現(xiàn)象?
如果權(quán)重很大,每次相乘后的結(jié)果都是大于1的,越乘越大,爆炸出現(xiàn)。
5.常見(jiàn)的激活函數(shù)有哪些?都有什么特點(diǎn)?
sigmoid/tanh/ReLU/LReLU/PReLU
sigmoid
優(yōu)點(diǎn):可以表示概率
缺點(diǎn):梯度消失/輸出不以0為中心/計(jì)算成本高需要計(jì)算exp
tanh
優(yōu)點(diǎn):輸出以0為中心
缺點(diǎn):梯度消失
ReLU
優(yōu)點(diǎn):收斂快;在x大于0的情況不會(huì)飽和
缺點(diǎn):在x小于0的情況下梯度為0/輸出不易0為中心
Leakly ReLU:
缺點(diǎn):函數(shù)不連續(xù)
Parametric ReLU:
alpha可以被學(xué)習(xí)
通常來(lái)說(shuō),很少會(huì)把各種激活函數(shù)串起來(lái)在一個(gè)網(wǎng)絡(luò)中使用的。
如果使用 ReLU,那么一定要小心設(shè)置 learning rate,而且要注意不要讓你的網(wǎng)絡(luò)出現(xiàn)很多 “dead” 神經(jīng)元,如果這個(gè)問(wèn)題不好解決,那么可以試試 Leaky ReLU、PReLU 或者 Maxout.最好不要用 sigmoid,可以試試 tanh,不過(guò)可以預(yù)期它的效果會(huì)比不上 ReLU 和 Maxout.
6.超參數(shù):
學(xué)習(xí)率/正則化系數(shù)/批尺寸/最大迭代次數(shù)/隱層結(jié)點(diǎn)個(gè)數(shù)/隱層個(gè)數(shù)
權(quán)重矩陣初始化(全都初始化為0,學(xué)到的內(nèi)容是一樣的;隨機(jī)初始化,容易權(quán)重過(guò)大,飽和;使用he初始化)/激活函數(shù)的選擇
7.優(yōu)化方法


8.AUC與log損失函數(shù)差別:
AUC是衡量的正樣本排在負(fù)樣本前面的概率,但是Log損失函數(shù)衡量的是模型預(yù)測(cè)的是否準(zhǔn)確;
AUC作為目標(biāo)函數(shù)更接近的是pair損失函數(shù),正樣本比負(fù)樣本的得分高。
9.平方L2范數(shù)在數(shù)學(xué)和計(jì)算上都比L2范數(shù)本身更方便。例如,平方fL2范數(shù)對(duì)α 中每個(gè)元素的導(dǎo)數(shù)值取決于對(duì)應(yīng)的元素,而f 范數(shù)對(duì)每個(gè)無(wú)素的導(dǎo)數(shù)
和整個(gè)向量有關(guān)。