Sigmod Loss 相關(guān)總結(jié)

一、sigmoid 函數(shù)的應(yīng)用背景:

f  = w.x +b?是起初用于分類的線性模型(是個(gè)通過(guò)屬性的線性組合來(lái)預(yù)測(cè)的函數(shù)[每個(gè)樣本都包含多個(gè)屬性],w權(quán)重表達(dá)了樣本中各個(gè)屬性在預(yù)測(cè)中的重要性,b偏置表達(dá)了從物理世界到數(shù)據(jù)表達(dá)中存在的不確定性,比如某些噪聲無(wú)法通過(guò)數(shù)據(jù)表征出來(lái)),模型的最終目的是為了找到這樣的一條直線(平面)將空間中的樣本點(diǎn)進(jìn)行分類。但是獲得的直線(平面)上的取值是連續(xù)的,并不能對(duì)離散的值進(jìn)行擬合。為解決這個(gè)問(wèn)題就引入了條件概率的使用:p(y=1|x):當(dāng)x取某值時(shí),y=1的概率,概率取值范圍是[0,1],概率值是個(gè)連續(xù)值。 所以可以用線性模型來(lái)擬合概率值,但是,概率值的范圍是[0,1],而線性模型的結(jié)果值是負(fù)無(wú)窮到正無(wú)窮。所以,就需要有函數(shù)將模型的輸出值映射在[0,1]范圍內(nèi)。首先,想到的是利用階躍函數(shù)(分段函數(shù)),

但該類函數(shù)不滿足單調(diào)可微性質(zhì),也就是無(wú)法對(duì)其求梯度。

所以,就有了sigmoid函數(shù)的使用。 其數(shù)學(xué)表達(dá)式是:\sigma (z) = \frac{1}{1+e^-z } ,【這里就表明了sigmoid函數(shù)是直接以模型的輸出作為輸入變量的】。該函數(shù)的曲線圖為:

橫軸為模型的輸出值,縱軸為對(duì)應(yīng)的概率值

所以,模型的表達(dá)式為:p(y=1|x) = \sigma (z) = \frac{1}{1+e^-z } , z= w.x+b。

存在關(guān)系式:\ln \frac{p(y=1|x)}{p(y=0|x)} = z = wx+b,該比值稱為對(duì)數(shù)幾率(log odds,logit)該幾率反映了樣本為正例的相對(duì)可能性。從該關(guān)系式可以看出,邏輯回歸的本質(zhì)是用線性回歸的預(yù)測(cè)結(jié)果去逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率。

所以,起初是假設(shè)模型為h(θ) = w.x+b,后來(lái)因?yàn)閷⑵浔硎緸楦怕市问?,所以模型變?yōu)椋?img class="math-inline" src="https://math.jianshu.com/math?formula=h(%CE%B8)%20%3D%20p" alt="h(θ) = p" mathimg="1">,概率公式p再根據(jù)任務(wù)類型進(jìn)行變換。(模型也就由線性回歸轉(zhuǎn)為邏輯回歸,線性代表了連續(xù),邏輯也就代表了離散)?

好處:不僅預(yù)測(cè)出了類別 ,也表示出來(lái)屬于該類別的概率,有利于利用概率來(lái)輔助決策。


二、sigmoid 損失函數(shù)的使用:

sigmoid 屬于邏輯損失函數(shù)的一種,適用于二分類任務(wù)中,需要滿足假設(shè)之一:數(shù)據(jù)滿足伯努利分布。

logical 函數(shù) 也叫作 sigmoid 函數(shù)

h_{θ}(x) 表示將樣本預(yù)測(cè)為正類的概率,1-h_{θ} (x)將樣本預(yù)測(cè)為負(fù)類的概率,整個(gè)模型可以表示為:h_{θ}(x,θ) =  p ,其中,?p = \frac{1}{1+e^-\theta ^T x  } ,(θ是權(quán)重,x是輸入變量,該指數(shù)代表模型的輸出),最后得到邏輯回歸的最終表達(dá)式。

邏輯回歸的損失函數(shù),是其極大似然函數(shù):

由一可知:p(y=1|x) = \sigma (z)
,則p(y=0|x) = 1-\sigma (z),所以似然函數(shù)為:\prod\nolimits_{i=1}^n  [\sigma (z)]^(y_{i})[1-\sigma (z)]^(1-y_{i} ),使用負(fù)對(duì)數(shù)似然函數(shù)作為模型的損失函數(shù)(為了好計(jì)算但式子性質(zhì)不變):Loss =- \sum_{i=1}^n [y_{i}\lg \sigma (x) +(1- y_{i})\lg(1- \sigma (x))] = \sum_{i=1}^n[y_{i} (w.x)-\lg x(1+e^(w.x) ]

在模型訓(xùn)練時(shí),需要對(duì)該loss函數(shù)求梯度(就是對(duì)權(quán)重W求導(dǎo)),就是按照函數(shù)求偏導(dǎo)的方法對(duì)該loss進(jìn)行求導(dǎo),最終結(jié)果為:

讓上式等于零,獲得權(quán)重w的更新方向,從而讓loss值降低,目的就是最終獲得loss的最小值,此時(shí)對(duì)應(yīng)的w參數(shù)就是網(wǎng)絡(luò)所需的最優(yōu)參數(shù)。(當(dāng)然,實(shí)際網(wǎng)絡(luò)中并非是單一的參數(shù),而是很復(fù)雜的參數(shù)結(jié)構(gòu))

接著就使用梯度下降法,對(duì)網(wǎng)路參數(shù)進(jìn)行更新,求得最優(yōu)參數(shù)解。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容