深入淺出了解深度學(xué)習(xí)

深度學(xué)習(xí)

對(duì)于深度學(xué)習(xí),大部分未接觸的人都處于模糊的階段。每次說到這塊,都會(huì)聯(lián)想到機(jī)器統(tǒng)治人類。覺得高大上,并且里面的邏輯晦澀難懂。但其實(shí),他沒有我們想象中的高大上,也沒有我們想象里的那么難。我們離所謂的機(jī)器人統(tǒng)治革命其實(shí)還差得遠(yuǎn)。因此,本文會(huì)簡化深度學(xué)習(xí)各類的模型和盡量使用通俗的指代和描述,旨在以簡單直觀的方式進(jìn)行表達(dá)。普及并解決下面一些疑問:到底什么是深度學(xué)習(xí)?深度學(xué)習(xí)和機(jī)器學(xué)習(xí)有什么不同?深度學(xué)習(xí)要解決哪些問題。深度學(xué)習(xí)中的激勵(lì)函數(shù),損失函數(shù)作用是什么等等問題。

如果你對(duì)此產(chǎn)生了興趣,不妨往下閱讀, 進(jìn)行更深入的了解。

image.png

深度學(xué)習(xí)的由來

說的這個(gè)問題,我們不得不聊一下深度學(xué)習(xí)的歷史??梢哉f深度學(xué)習(xí) = 神經(jīng)網(wǎng)絡(luò) + 機(jī)器學(xué)習(xí),從另一種角度來說他的發(fā)展也十分有趣。

深度學(xué)習(xí)的本源其實(shí)就是神經(jīng)網(wǎng)絡(luò)的在機(jī)器學(xué)習(xí)中的應(yīng)用。他是機(jī)器學(xué)習(xí)的子集。

他起源于1980年福島邦彥提出的感知機(jī)。但因計(jì)算代價(jià)過大, 訓(xùn)練時(shí)間過長。導(dǎo)致未能進(jìn)行實(shí)際的應(yīng)用。并且神經(jīng)網(wǎng)絡(luò)這個(gè)名詞, 可能因?yàn)楹蜕锵嚓P(guān), 投資者們都認(rèn)為賺不了錢。研究的經(jīng)費(fèi)也有所減少。自此,神經(jīng)網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)的應(yīng)用如打入冷宮,一直不溫不火。但深度學(xué)習(xí)的萌芽已經(jīng)種下。只等隨著科技的研究與發(fā)展,在未來進(jìn)行一輪革命性的爆發(fā)。

經(jīng)過一段漫長的沉寂與暗中生長。2006年,Geoffrey Hinton等人在Science雜志上發(fā)表Deep Belief Networks的文章。為了能更好的騙經(jīng)費(fèi), 忽悠信徒。率先使用了“深度”這個(gè)詞。重新激活了神經(jīng)網(wǎng)絡(luò)的研究,開啟了深度神經(jīng)網(wǎng)絡(luò)的新時(shí)代。

自此, 學(xué)術(shù)界和工業(yè)界對(duì)深度學(xué)習(xí)熱情高漲,并逐漸在語音識(shí)別、圖像識(shí)別、自然語言處理等領(lǐng)域獲得突破性進(jìn)展。深度學(xué)習(xí)在語音識(shí)別領(lǐng)域獲得相對(duì)20%到30%的準(zhǔn)確率提升,突破了近十年的瓶頸。2012年圖像識(shí)別領(lǐng)域在ImageNet圖像分類競(jìng)賽中取得了85%的top5準(zhǔn)確率 ,相比前一年74%的準(zhǔn)確率有里程碑式的提升,并進(jìn)一步在2013年獲得89%的準(zhǔn)確率。事實(shí)證明, 改名字真的能改變命運(yùn)!

什么是人工神經(jīng)網(wǎng)絡(luò)?

在了解深度學(xué)習(xí)前,我們不得不先說明什么是神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)準(zhǔn)確來說是被命名為 人工神經(jīng)網(wǎng)絡(luò)。他旨在用數(shù)學(xué)的方法,模擬我們細(xì)胞中的神經(jīng)元反應(yīng)。處理解決實(shí)際中的問題。

人工神經(jīng)網(wǎng)絡(luò)與反射弧

讓我們來復(fù)習(xí)復(fù)習(xí)初中的知識(shí),神經(jīng)反射是如何產(chǎn)生的。他的組成部分有哪些? 神經(jīng)反射源于反射弧。簡單來分它由:感受器, 神經(jīng)中樞, 效應(yīng)器三部分組成。

肌肉受到刺激,感受器向中樞神經(jīng)發(fā)送興奮。通過中樞神經(jīng)的閾值判斷強(qiáng)度,引起效應(yīng)器進(jìn)行響應(yīng)。肌肉馬上對(duì)刺激做出應(yīng)激反應(yīng),收縮肌肉。

image.png

神經(jīng)興奮與閥值

并非所有 刺激 (興奮) 都可以引起細(xì)胞的的 應(yīng)激反應(yīng) 。就像輕風(fēng)拂過和, 針刺釘扎的區(qū)別。細(xì)胞的反應(yīng)取決于刺激的程度。而決定這一現(xiàn)象的因數(shù)被稱為 閥值。只有總刺激度超過細(xì)胞閥值時(shí),細(xì)胞才會(huì)做出反應(yīng)。

神經(jīng)的興奮與反應(yīng)閥值

但刺激的來源往往不是單一的。他的組成要素可能有很多,因此他更類似于如下模型。刺激的來源可能不只一種。并且每種來源的興奮,對(duì)中樞神經(jīng)的刺激程度也不一樣。就像我們?cè)谕嬲嫘脑挻竺半U(xiǎn)時(shí),被逼喝下一碗混合 蜜糖,醬油辣椒的嶗山神水。甜,咸,辣每種味道對(duì)舌根的刺激都是不同的。如果是吃不得辣的廣東人喝了估計(jì)就要被辣出翔。而被湖南人吃了,只覺得是甜到膩。

image

? 因此,每種刺激對(duì)中樞神經(jīng)的說都有不同的權(quán)重。假設(shè)三種味覺分別a1, a2, a3。他們的權(quán)重即為w1, w2, w3??傻?strong>一個(gè)神經(jīng)元的刺激總和 z 為:

image.png

? 如果刺激從 3 種延伸到 k 種可得:

image.png

? 為了更具有普遍性,一般會(huì)在末尾帶上常熟變量b, 我們就得到了單個(gè)神經(jīng)元神經(jīng)網(wǎng)絡(luò)最基本的通項(xiàng)公式。

? 一個(gè)神經(jīng)元的刺激 = 每種刺激 x 每種刺激對(duì)應(yīng)的權(quán)重 , 即:

image.png

? 但總所周知, 我們?nèi)颂幚硎挛飼r(shí), 往往不是一個(gè)而是多個(gè)神經(jīng)元決定的。就如我們辨認(rèn)人的聲音,可能會(huì)有音色,尖細(xì)(頻率), 大小 多個(gè)閥值決定。因此繼續(xù)推導(dǎo),假設(shè)我們判斷事物需要有 j 個(gè)神經(jīng)元參與。分別為z1, z2, z3 … zj-1, zj??傻妹總€(gè)神經(jīng)元的通項(xiàng)公式:

image.png

而我們決斷的最終結(jié)果就等于他們的總合。即把z1 … zj求和。一個(gè)簡單事物的判斷 = 多個(gè)神經(jīng)元的總刺激, 他便變成了我們剛一直覺得看似晦澀難懂的公式:

?
image.png
image

機(jī)器學(xué)習(xí)的分類

說完神經(jīng)網(wǎng)絡(luò),將該說機(jī)器學(xué)習(xí)了。學(xué)習(xí)的分類一般分為三種: 有監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí) , 半監(jiān)督式學(xué)習(xí)。他們的關(guān)系也非常直觀。

訓(xùn)練機(jī)器就正如養(yǎng)孩子。所謂的無監(jiān)督學(xué)習(xí)就是把孩子散養(yǎng)。讓熊孩子們自己去耍,從不干預(yù)。讓他自己去區(qū)分和理解事物。直到某一天認(rèn)為他們認(rèn)知夠了,就查看他們價(jià)值觀是否符合自己的期望。如果符合就把他送去做苦力,不符合就悄悄把他干掉, 再重新養(yǎng)一個(gè) (喪心病狂! = = )。

期間沒有人為干涉,不需要給機(jī)器定制目標(biāo), 標(biāo)識(shí)出我們需要的特征。而是通過某些特征的距離算法,讓他們自己把具有相似性的事物歸類在一塊,沒有經(jīng)過專門的學(xué)習(xí)(所謂的社會(huì)大學(xué)畢業(yè)生)。就如把孩子放在寵物堆中,通過接觸貓狗小動(dòng)物。孩子們很容易就能夠區(qū)分他們是兩種類型的事物。但只是沒有經(jīng)過人為的教導(dǎo),并不知道其中一類命名為 “狗”,而另一類命名為 “貓” 而已。

但無監(jiān)督算法的缺點(diǎn)也非常明顯,便是分離結(jié)果只能通過特征的表象。因?yàn)槿鄙偌议L人為的干預(yù)與監(jiān)督,“孩子” 們并不知道家長的期望是怎么樣的。他也沒有基本的倫理道德,很容易就走歪了。并且事物的歸類標(biāo)準(zhǔn)并不單一。萬物互聯(lián),所有事物都具有相似性。我們也很難說哪些是正確的。如下圖,長發(fā)的狗和人雖為同一物種。但無監(jiān)督學(xué)習(xí)很可能就把他們分為同一類別,雖說從某種角度來說也是有一定正確性。但對(duì)人的參考性就沒那么大了。因此,無監(jiān)督學(xué)習(xí)普遍識(shí)別率并不高。多用于數(shù)據(jù)預(yù)處理。面對(duì)于數(shù)據(jù)量巨大,不好人為提取的抽象特征的數(shù)據(jù)集。

image

那么有監(jiān)督學(xué)習(xí)是怎么樣的呢。不妨先讓我們看看下面這個(gè)耳熟能詳?shù)膶?shí)驗(yàn)。

image

研究人員為了揭示了傳統(tǒng)是如何形成的。五只猴子被關(guān)進(jìn)籠子里,籠子一角掛著一串香蕉,如果有猴子試圖摘取香蕉,就會(huì)被開水潑到。猴子們吃了幾次苦頭之后,就再也不想摘香蕉了。

此時(shí)用一只新猴子替換老猴子,新猴子看到有香蕉剛想去摘,就被老猴子們拉住一頓暴打。新猴子挨了幾次打之后,也不再去摘香蕉了。

此時(shí)再換進(jìn)一只新猴子,它也看到香蕉想去摘,也被老猴子們一頓暴打,下手最狠的恰恰是那一只沒被開水燙到過的。

最后老猴子們都被換干凈了,仍然沒有猴子去碰那串香蕉,因?yàn)樗鼈冎馈鱿憬兑馕吨淮?,而為什么?huì)被打,沒有猴子知道。

這個(gè)實(shí)驗(yàn)非常有趣,體現(xiàn)了有監(jiān)督學(xué)習(xí)的最大優(yōu)勢(shì)。能夠?qū)C(jī)器制定目標(biāo)。 就像上文中的猴子一樣,讓他們的行為都按照我們期望的方向發(fā)展。最后能優(yōu)秀的為我們所用。

有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)相反。都是些每天望子成龍虎爸虎媽,天天監(jiān)督孩子學(xué)習(xí)。不是就是興趣組就是補(bǔ)習(xí)班。就怕你以后考不到個(gè)好學(xué)校。我們會(huì)人為的給數(shù)據(jù)打上標(biāo)簽,并給出指標(biāo),給孩子們直接指出名為 “正確” 的答案。經(jīng)過這一系列的應(yīng)試教育,孩子成績不好也難。因此有監(jiān)督學(xué)習(xí)的識(shí)別率普遍比無監(jiān)督高許多。某些算法在 MNIST 數(shù)據(jù)集的正確率上都已經(jīng)高達(dá)92%, 93%了。

? 看起來非常的好啊。只要經(jīng)過不斷的訓(xùn)練和學(xué)習(xí),便能一朝飛上枝頭,光宗耀祖。但這樣你就too young了,這樣訓(xùn)練的目的性太強(qiáng)。 容易制造精致的利己主義者。應(yīng)試教育培養(yǎng)出來的考試機(jī)器,并不能應(yīng)付現(xiàn)實(shí)中多變的場(chǎng)景。往往容易問題稍微的偏離考試大綱他就馬上懵逼(過擬合情況)。并且現(xiàn)在家長們 (開發(fā)者) 的生存壓力也大,哪有時(shí)間一步步給他標(biāo)出 特征 來學(xué)習(xí)。

因此有監(jiān)督學(xué)習(xí)多用于有明確結(jié)果的數(shù)據(jù)有限的集合,這樣能得到更準(zhǔn)確的數(shù)據(jù)模型。同時(shí)能更為節(jié)省訓(xùn)練哈飛的周期。

針對(duì)于上述兩種學(xué)習(xí)方式, 都有其優(yōu)點(diǎn)與不足。因此,提出了第三種學(xué)習(xí)方式——半監(jiān)督試學(xué)習(xí)。半監(jiān)督學(xué)習(xí)把無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)相結(jié)合。在孩子幼年期,進(jìn)行手把手教育,標(biāo)注出有用特征。給他傳授基本的倫理與社會(huì)道德。而剩下的數(shù)據(jù)則讓他在已有的基本道德與準(zhǔn)則下自我學(xué)習(xí)與發(fā)展。因此半監(jiān)督學(xué)習(xí)會(huì)有小部分已標(biāo)注的訓(xùn)練集用于初始化學(xué)習(xí),而留下一大部分未標(biāo)注的訓(xùn)練數(shù)據(jù)讓其自我學(xué)習(xí)。

深度學(xué)習(xí)

深度學(xué)習(xí)中的 “深度”

從上面的層層推到, 我們很容易就能理解人工神經(jīng)網(wǎng)絡(luò)公式由來。那么他和深度又有什么關(guān)系呢?!?code>深度” 一詞到底是深在哪里?單層的神經(jīng)網(wǎng)絡(luò)為什么就不能叫深度學(xué)習(xí)?

雖然我在上文中很不地道的揣測(cè)了 Geoffrey Hinton 改變神經(jīng)網(wǎng)絡(luò)命名用以騙經(jīng)費(fèi)的意圖, 但深度學(xué)習(xí)的深度一詞的提出,確實(shí)是有確切含義的。非常明顯,深度一詞自然是與淺度相對(duì)應(yīng)的。而單層的神經(jīng)網(wǎng)絡(luò),就是所謂的 “淺層學(xué)習(xí)”。

如下圖,他只有簡單的單層細(xì)胞結(jié)構(gòu),包含:刺激 輸入層 (有N個(gè)則表示他的識(shí)別特征或刺激有N種),一層的神經(jīng)元 隱式層(藍(lán)色),反應(yīng) 輸出層(綠色,同時(shí)有兩個(gè)圈則表示輸出結(jié)果有兩種)。而深度學(xué)習(xí)與淺層學(xué)習(xí)最大的區(qū)別在于神經(jīng)元的層數(shù),他的結(jié)果是通過過逐級(jí)深化的形式進(jìn)行判斷的。

image

就像我們識(shí)別一個(gè)人其實(shí)也是通過模糊到具體, 從面部輪廓,眼睛大小,發(fā)色,第二性征(性別),等多個(gè)維度去判斷的。每個(gè)神經(jīng)元的閥值判斷,在宏觀上都會(huì)表現(xiàn)為區(qū)分事物的一個(gè) 特征(后文特征即指代為上圖隱層每個(gè)判斷的神經(jīng)元)。因此每一層的神經(jīng)元相當(dāng)于一個(gè)特征組。而通過多個(gè)特征組一步步判斷識(shí)別事物便是 深度學(xué)習(xí)。

? 那么,深度學(xué)習(xí)為什么能更優(yōu)于淺層學(xué)習(xí)呢。其實(shí)是和我們大腦辨別事物的方式類似的。深度學(xué)習(xí)多層的結(jié)構(gòu)更利于提取模糊特征。從輪廓到細(xì)節(jié)一步步去判定。這樣有兩個(gè)好處。一是慢慢深入,結(jié)果自然準(zhǔn)確。二是比起單層的結(jié)構(gòu),前期能有效的篩選出有用的數(shù)據(jù)集。

? 如我們要辨別出人的四類分類:長發(fā)女生,長發(fā)男生,短發(fā)女生,短發(fā)男生。單層的神經(jīng)網(wǎng)絡(luò)需要對(duì)等的判斷4類情況。即每個(gè)樣本要進(jìn)行4次判斷。而在實(shí)際中短發(fā)女生的數(shù)量較少,長發(fā)男生更是占男生總數(shù)不到10%。不應(yīng)該為每種情況平均的分配資源。

而深度網(wǎng)絡(luò)可以先提取 頭發(fā)長度 作為一層神經(jīng)元的篩選。如果恰好篩選出為長發(fā)。那么在篩選出來的集合里,我們已經(jīng)可以大概率的認(rèn)為這個(gè)樣本90%的概率是為女性了。

深度學(xué)習(xí)中的 “學(xué)習(xí)”

從前文,我們可以了解到 深度學(xué)習(xí) = 神經(jīng)網(wǎng)絡(luò) + 機(jī)器學(xué)習(xí)。那么深度學(xué)習(xí)又是怎么學(xué)習(xí)的呢?神經(jīng)網(wǎng)絡(luò)是從生命科學(xué)發(fā)展而來。因此,深度的學(xué)習(xí)方式也與細(xì)胞體一致。細(xì)胞會(huì)通過細(xì)胞負(fù)反饋來學(xué)習(xí)。如下圖血壓的負(fù)反饋調(diào)節(jié)??刂撇糠謺?huì)通過感受器獲取現(xiàn)在的血壓指標(biāo)。如果過低則指令提高血壓。反之則降低血壓。深度學(xué)習(xí)的優(yōu)化學(xué)習(xí)算法于此原理相同。他會(huì)通過衡量當(dāng)前數(shù)值與期望值偏差數(shù)值。反向調(diào)控自己的敏感度(梯度下降法,見后文),改變刺激的權(quán)重(上文w1,w2,w3…wk)。從而達(dá)到負(fù)反饋調(diào)節(jié)的目的。那么,在深度學(xué)習(xí)中我們?cè)撛趺春饬恐笜?biāo)的偏差值呢。

image

深度學(xué)習(xí)中的誤差衡量——損失函數(shù)

在深度學(xué)習(xí)中,衡量實(shí)際與期望差誤的函數(shù)稱為損失函數(shù)(或 代價(jià)函數(shù) ),兩種幾乎可以認(rèn)為是完全一樣,只是在不同層面的叫法。那么回想我們的高中知識(shí), 當(dāng)我們計(jì)算線性回歸的擬合函數(shù)時(shí)。是怎么計(jì)算他的誤差的呢?沒錯(cuò),就是最簡單的平方誤差 函數(shù) (注意不是 平方差 函數(shù), 一字之別, 差之千里) 。平方誤差的公式等于平方誤差 = (當(dāng)前期望值 - 實(shí)際值) 的平方總和

image.png

在線性回歸問題中,我們只要讓平方誤差 L 降低,就能提高我們最后結(jié)果的正確率。并且平方誤差越低,正確率越高。至于原因,可能下圖兩條數(shù)據(jù)擬合線段的誤差能更為直觀的闡述。

image

由公式不難看出,平方誤差的總和,就等于黃色小球到擬合函數(shù)的垂直距離平方總和。所以,平方誤差函數(shù)越小,數(shù)據(jù)坐標(biāo)點(diǎn)就越近似擬合函數(shù),擬合度就越高。右圖的擬合函數(shù)明顯優(yōu)于左圖。因此深度學(xué)習(xí)中誤差衡量也使用了平方誤差函數(shù)。

可能在這之中你會(huì)有個(gè)疑問, 為什么誤差衡量要使用 平方誤差 而不使用 均方誤差 呢。

原因在于平方形式對(duì)大誤差的懲罰會(huì)更大。為了得到更好的擬合度,誤差的懲罰并非線性了。而是以凸函數(shù)的形式單向增長。誤差會(huì)以平方的形式放大。這樣誤差越大,糾正(學(xué)習(xí))的力度也會(huì)倍增。使誤差更尖銳和明顯,加快學(xué)習(xí)的能力。

另外, 常見的損失函數(shù)有: 。各類互有優(yōu)劣,但我認(rèn)為平法差能更好地理解。

既然已經(jīng)有了 神經(jīng)網(wǎng)絡(luò)模擬函數(shù) 和 衡量誤差的平方差函數(shù)。那么,要讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)起來,我們就只剩下最后一個(gè)問題了。怎么讓神經(jīng)網(wǎng)絡(luò)進(jìn)行反饋與自我學(xué)習(xí)。

權(quán)重的自我學(xué)習(xí)——梯度下降法

? 所謂自我學(xué)習(xí),其實(shí)只是找到損失函數(shù)最小值的一個(gè)過程。但實(shí)際上因硬件限制許多方程我們無法找到全局最優(yōu)解。因此機(jī)器學(xué)習(xí)中我們的算法都是尋求局部最優(yōu)解的一個(gè)過程。而在計(jì)算機(jī)中,求解的過程特別適合于 迭代算法,就相當(dāng)于計(jì)算機(jī)的學(xué)習(xí)過程。

那么,我們要怎么去找到損失函數(shù)的局部最優(yōu)解呢。從大學(xué)數(shù)學(xué)的理論中,很容易得出。局部最小值便是函數(shù)的極值點(diǎn),準(zhǔn)確來說是極小值點(diǎn)。并且,當(dāng)函數(shù)為凸函數(shù)是,極小值點(diǎn)便是最小值點(diǎn)。否則則為局部最小值點(diǎn)。這點(diǎn)我就不予證明了。所以深度學(xué)習(xí)的學(xué)習(xí)算法中最大的問題就是怎么找到這些極值點(diǎn)了。

最自然的想法,當(dāng)然是求導(dǎo)拉。連續(xù)函數(shù)中,導(dǎo)函數(shù)為0的點(diǎn)即為極值點(diǎn)。使方程倒數(shù)為0就能夠得出所有極值的橫坐標(biāo)x。再通過比較 y 軸的值大小。不就能找出最小值了嗎?但是,實(shí)際上。前文也說道,這樣的方程我們現(xiàn)在的計(jì)算機(jī)并一定能解出他的解。并且數(shù)據(jù)量過于巨大,也太花費(fèi)時(shí)間,而方程的解也不一定是有窮的。這樣問題就相當(dāng)大了。又該如何得到損失函數(shù)的局部最優(yōu)解呢?

這里最常見的便是使用一種迭代法——梯度下降法

我們來模擬一個(gè)場(chǎng)景:

假如你到了一座陌生小山上,并且不認(rèn)識(shí)路, 你只能看到周圍的環(huán)境, 你要怎么能保證下山的速度最快呢?

image

最直觀的想法便是 —— 向坡度向下的地方走便是了!既然不認(rèn)識(shí)路。我們只要朝坡度向下的地方行進(jìn),自然而然的就能朝山下去了。機(jī)器學(xué)習(xí)也同理。我們只要朝向下斜率的地方前進(jìn)便是了。

但是一個(gè)問題隨之出現(xiàn)。山體是凹凸不平的。我們這樣走很容易只是到了一個(gè)山溝溝里,而不能真正的找到下山的路。這也是這種算法的弊端,梯度下降法到達(dá)的只能是一個(gè)局部最優(yōu)點(diǎn)。

image

正如上圖所示一般。 我們?cè)偕襟w不同的地方出發(fā),朝下走去。到達(dá)的可能是不一樣的極小值點(diǎn)。并且他到達(dá)的是哪個(gè)極小值點(diǎn)取決于他的初始位置。并且很有可能我們會(huì)錯(cuò)過最小值點(diǎn)。

原理我們知道了,我們要怎么把上面的想法映射成算法呢。便是我們的反向梯度。我們對(duì)損失函數(shù)當(dāng)前位置求導(dǎo)。如果導(dǎo)函數(shù)為正則,減去當(dāng)前的梯度。如果導(dǎo)函數(shù)為負(fù)則加上他的梯度。以達(dá)到局部最小值。如下圖所示:

image

小球在左側(cè), 梯度小于0,這時(shí)候減去他的斜率(梯度),則向右運(yùn)動(dòng)。在右側(cè)類似。經(jīng)過不斷迭代,當(dāng)斜率為0時(shí)小球停下。則得到此時(shí)的局部最優(yōu)解。

? 這時(shí)候我們就能得出神經(jīng)網(wǎng)絡(luò)權(quán)重的新公式, 權(quán)重W = 當(dāng)前值 - 損失函數(shù)L對(duì)當(dāng)前權(quán)重w求導(dǎo)

?
image.png

這樣我們所有的特征權(quán)重都會(huì)根據(jù)當(dāng)前平方誤差而變化迭代,直到到達(dá)局部最優(yōu)解。

為了能更好的控制梯度下降的速度,我們?yōu)楣教砑右粋€(gè)常量系數(shù)α, 稱之為學(xué)習(xí)率。此時(shí),公式便變成:

?
image.png

既然α是個(gè)常熟, 在公式中有什么用呢。他又該設(shè)成多大呢?α稱之為學(xué)習(xí)率。在我們上述例子中,就相當(dāng)于我們邁的步子的步長。步子邁的大,下山便下得快。但在接近最低點(diǎn)時(shí),容易因?yàn)椴阶犹蠖谧畹偷淖笥乙苿?dòng),而無法到達(dá)。而如果步子邁的太小,則下山速度過于緩慢。不能達(dá)到我們對(duì)時(shí)間的要求。因此學(xué)習(xí)率的設(shè)定沒有一個(gè)具體數(shù)值。需要具體問題具體分析。即使是同一個(gè)模型,學(xué)習(xí)率不同。最后得出的模型的識(shí)別率也會(huì)相差很大。下圖是學(xué)習(xí)率設(shè)置的不同的三個(gè)值。如果設(shè)的太大(紅線),結(jié)果一直徘徊在最低點(diǎn)附近。但設(shè)的太?。ㄋ{(lán)線),需要學(xué)習(xí)的時(shí)間就會(huì)太長。而合理的值(黃線),既能到達(dá)局部最優(yōu)處,也能快速的完成訓(xùn)練。

image.png

深度學(xué)習(xí)最基本的幾個(gè)環(huán)節(jié)都已經(jīng)進(jìn)行說明了。但如果是有相關(guān)學(xué)習(xí)的朋友是不是覺得少了什么?激勵(lì)函數(shù)到哪去了?

深度學(xué)習(xí)中的非線性因素——激勵(lì)函數(shù)

其實(shí)激勵(lì)函數(shù)又稱激活函數(shù)。上文的深度學(xué)習(xí)雖已經(jīng)有了最基本的組成。但是要到達(dá)高學(xué)習(xí)率這些僅僅是不夠的。上述的模型中有一個(gè)很大的缺點(diǎn):就是所有函數(shù)都是線性的,他不能很好的擬合某些邊界場(chǎng)景。什么意思呢?

其實(shí)就如下圖所示,添加激活函數(shù)后,邊界從直線變成了圓滑曲線,不再那么分明。

image
image

其實(shí)激活函數(shù)的作用就是用來加入非線性因素的,因?yàn)榫€性模型的表達(dá)能力不夠。

我們用線性的線段去逼近一條曲線的時(shí)候,邊角過于規(guī)則。有一種“躍遷”的感覺。因此,我們必須引入非線性的元素。讓他的邊界不那么棱角分明,而能適用于更多情況。我就不進(jìn)行公式推導(dǎo)了??梢詤⒖?a target="_blank" rel="nofollow">知乎回答

文章參考:
什么是無監(jiān)督學(xué)習(xí)?
神經(jīng)網(wǎng)絡(luò)激勵(lì)函數(shù)的作用是什么?有沒有形象的解釋?
網(wǎng)易公開課 - 斯坦福大學(xué)公開課 :機(jī)器學(xué)習(xí)課程
谷歌機(jī)器學(xué)習(xí)課程
Deep Learning Tutorial-李宏毅

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第二個(gè)Topic講深度學(xué)習(xí),承接前面的《淺談機(jī)器學(xué)習(xí)基礎(chǔ)》。 深度學(xué)習(xí)簡介 前面也提到過,機(jī)器學(xué)習(xí)的本質(zhì)就是尋找最...
    我偏笑_NSNirvana閱讀 16,248評(píng)論 7 49
  • 并不是每個(gè)人都有勇氣面對(duì)死亡,但更不是每個(gè)人都有勇氣面對(duì)活著。 事實(shí)上,任何人都不可能真正樂觀的面對(duì)死亡。所以這部...
    方建閱讀 823評(píng)論 0 2
  • 楊絮在春風(fēng)里肆無忌憚地翻著筋斗云,突然啪的一聲給了我一個(gè)耳光,然后面露邪笑的說:小樣兒,生病了吧! 我捂著慘白...
    東方愚閱讀 340評(píng)論 0 0
  • Cookie Cookie 的翻譯是“小甜餅”,可想而知,Cookie 是一個(gè)非常小的數(shù)據(jù)(4K 左右),主要用來...
    輝夜乀閱讀 604評(píng)論 0 0
  • 1.推薦算法工程師 1. 參與各個(gè)產(chǎn)品線的個(gè)性化推薦系統(tǒng)的研發(fā); 2. 分析用戶行為數(shù)據(jù),并設(shè)計(jì)合理的推薦算法模型...
    TonyLan閱讀 595評(píng)論 0 0

友情鏈接更多精彩內(nèi)容