Logistic Regression 為什么用極大似然函數(shù)

1. 簡(jiǎn)述 Logistic Regression

Logistic regression 用來(lái)解決二分類問(wèn)題,

它假設(shè)數(shù)據(jù)服從伯努利分布,即輸出為 正 負(fù) 兩種情況,概率分別為 p 和 1-p,

目標(biāo)函數(shù) hθ(x;θ) 是對(duì) p 的模擬,p 是個(gè)概率,這里用了 p=sigmoid 函數(shù),
所以 目標(biāo)函數(shù) 為:

為什么用 sigmoid 函數(shù)?請(qǐng)看:Logistic regression 為什么用 sigmoid ?

損失函數(shù)是由極大似然得到,

記:

則可統(tǒng)一寫成:

寫出似然函數(shù):

取對(duì)數(shù):

求解參數(shù)可以用梯度上升:

先求偏導(dǎo):

再梯度更新:

常用的是梯度下降最小化負(fù)的似然函數(shù)。


2. 先來(lái)看常用的幾種損失函數(shù):

損失函數(shù) 舉例 定義
0-1損失 用于分類,例如感知機(jī)
預(yù)測(cè)值和目標(biāo)值不相等為1,否則為0
絕對(duì)值損失
平方損失 Linear Regression
使得所有點(diǎn)到回歸直線的距離和最小
對(duì)數(shù)損失 Logistic Regression
常用于模型輸出為每一類概率的分類器
Hinge損失 SVM
用于最大間隔分類
指數(shù)損失 AdaBoost

幾種損失函數(shù)的曲線:

黑色:Gold Stantard
綠色:Hinge Loss中,當(dāng) yf(x)>1 時(shí),其損失=0,當(dāng) yf(x)<1時(shí),其損失呈線性增長(zhǎng)(正好符合svm的需求)
紅色 Log、藍(lán)色 Exponential: 在 Hinge的左側(cè)都是凸函數(shù),并且Gold Stantard損失為它們的下界

要求最大似然時(shí)(即概率最大化),使用Log Loss最合適,一般會(huì)加上負(fù)號(hào),變?yōu)榍笞钚?br> 損失函數(shù)的凸性及有界很重要,有時(shí)需要使用代理函數(shù)來(lái)滿足這兩個(gè)條件。


3. LR 損失函數(shù)為什么用極大似然函數(shù)?

  1. 因?yàn)槲覀兿胍?每一個(gè) 樣本的預(yù)測(cè)都要得到最大的概率,
    即將所有的樣本預(yù)測(cè)后的概率進(jìn)行相乘都最大,也就是極大似然函數(shù).

  2. 對(duì)極大似然函數(shù)取對(duì)數(shù)以后相當(dāng)于對(duì)數(shù)損失函數(shù),
    由上面 梯度更新 的公式可以看出,
    對(duì)數(shù)損失函數(shù)的訓(xùn)練求解參數(shù)的速度是比較快的,
    而且更新速度只和x,y有關(guān),比較的穩(wěn)定,

  3. 為什么不用平方損失函數(shù)
    如果使用平方損失函數(shù),梯度更新的速度會(huì)和 sigmod 函數(shù)的梯度相關(guān),sigmod 函數(shù)在定義域內(nèi)的梯度都不大于0.25,導(dǎo)致訓(xùn)練速度會(huì)非常慢。
    而且平方損失會(huì)導(dǎo)致?lián)p失函數(shù)是 theta 的非凸函數(shù),不利于求解,因?yàn)榉峭购瘮?shù)存在很多局部最優(yōu)解。

什么是極大似然?請(qǐng)看簡(jiǎn)述極大似然估計(jì)


學(xué)習(xí)資料:
https://zhuanlan.zhihu.com/p/25021053
https://www.cnblogs.com/ModifyRong/p/7739955.html
https://zhuanlan.zhihu.com/p/34670728
http://www.cnblogs.com/futurehau/p/6707895.html
https://www.cnblogs.com/hejunlin1992/p/8158933.html
http://kubicode.me/2016/04/11/Machine%20Learning/Say-About-Loss-Function/


推薦閱讀 歷史技術(shù)博文鏈接匯總
http://m.itdecent.cn/p/28f02bb59fe5
也許可以找到你想要的:
[入門問(wèn)題][TensorFlow][深度學(xué)習(xí)][強(qiáng)化學(xué)習(xí)][神經(jīng)網(wǎng)絡(luò)][機(jī)器學(xué)習(xí)][自然語(yǔ)言處理][聊天機(jī)器人]

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 回歸問(wèn)題的前提: 1) 收集的數(shù)據(jù) 2) 假設(shè)的模型,即一個(gè)函數(shù),這個(gè)函數(shù)里含有未知的參數(shù),通過(guò)學(xué)習(xí),可以估計(jì)出參...
    xxyytt閱讀 3,193評(píng)論 0 10
  • 接觸機(jī)器學(xué)習(xí)時(shí)間也不短了, 趁國(guó)慶放假, 做一下深度整理. 1. 大綱 若想在企業(yè)勝任算法相關(guān)崗位知識(shí), 除了掌握...
    婉妃閱讀 3,532評(píng)論 2 92
  • 機(jī)器學(xué)習(xí)是做NLP和計(jì)算機(jī)視覺(jué)這類應(yīng)用算法的基礎(chǔ),雖然現(xiàn)在深度學(xué)習(xí)模型大行其道,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡(jiǎn)閱讀 20,944評(píng)論 4 65
  • 好多人沖不破現(xiàn)有的生活,為啥呢? 因?yàn)榕卵剑率ガF(xiàn)有的安穩(wěn),怕失去未來(lái)可能得到的。 可是,越不沖破,就越啥也沒(méi)有...
    百合小姐姐呀閱讀 309評(píng)論 0 1
  • 這段時(shí)間特別想寫東西,特別想有一個(gè)平臺(tái)像公眾號(hào)一樣可以將我的文章在上面發(fā)布,于是就遇見(jiàn)了簡(jiǎn)書。任何一場(chǎng)遇見(jiàn)都是相互...
    橙柿閱讀 303評(píng)論 5 3

友情鏈接更多精彩內(nèi)容