基礎(chǔ):常見的參數(shù)估計方法

抽樣、樣本數(shù)據(jù) -->觀察數(shù)據(jù)趨勢 -->選擇模型 -->模型參數(shù)估計 -->假設(shè)檢驗


類別 名稱 核心函數(shù) 求解目標(biāo)
點(diǎn)估計 最小二乘法 模型參數(shù)的誤差平方和函數(shù) 求偏導(dǎo)數(shù),使誤差平方和最小
點(diǎn)估計 最大似然法 似然函數(shù)→平均對數(shù)似然函數(shù) 求偏導(dǎo)數(shù),使似然函數(shù)最大,即樣本出現(xiàn)的概率達(dá)到最大
點(diǎn)估計 最大后驗估計 模型參數(shù)的后驗概率函數(shù) 求偏導(dǎo)數(shù),使模型參數(shù)的后驗概率

誤差、殘差

  • 與測量有關(guān),誤差=觀測值與真實值的偏離
    模型:y=θx+隨機(jī)擾動項
    誤差相關(guān)影響因素:
    ①隨機(jī)擾動項:包含所有未知因素,以及應(yīng)該考慮但沒有考慮到的次要因素的影響;
    ②模型的準(zhǔn)確性,決定于模型參數(shù)θ
  • 與預(yù)測有關(guān),殘差=觀測值與擬合值的偏離。有時,也說偏差。

關(guān)于隨機(jī)擾動項:隨機(jī)誤差是模型的組成部分,也是數(shù)理統(tǒng)計的緣由,因為數(shù)理統(tǒng)計就是對帶有隨機(jī)性數(shù)據(jù)的分析。

點(diǎn)估計:
區(qū)間估計:

1. 最小二乘法

最小二乘法是數(shù)學(xué)家高斯在預(yù)測行星軌道時提出的。
它的核心思想是:構(gòu)造誤差平方和函數(shù),對其求偏導(dǎo),讓誤差平方和函數(shù)取得最小值的參數(shù)就是模型參數(shù)。
注意:最小二乘法本質(zhì)上是一種參數(shù)估計方法,它既可以用于線性回歸模型的參數(shù)估計,也可以用于非線性回歸模型(如曲線模型)的參數(shù)估計中??梢哉f最小二乘法=最小誤差平方和參數(shù)估計方法,但最小二乘法≠線性回歸。

2. 頻率學(xué)派:最大似然估計法MLE

最大似然估計MLE:maximum likelihood estimation

引用《大嘴巴漫談數(shù)據(jù)挖掘》中的解釋:

一個女生和一個獵人一起打獵,一聲槍響,打中一只兔子,請問這一槍是誰打的?

-- 你肯定會認(rèn)為是獵人打的!這就用到了最大似然法的思想

---- 最大似然法認(rèn)為當(dāng)前出現(xiàn)的樣本正好對應(yīng)著總體中概率最大的那個事件;
---- 因為,總體中概率最大的事件實際出現(xiàn)(即被抽樣選中)的概率是最大的。

因此,最大似然參數(shù)求解的核心思想就是構(gòu)造當(dāng)前樣本出現(xiàn)的聯(lián)合概率函數(shù),對其求偏導(dǎo),讓當(dāng)前樣本的概率最大的就是模型參數(shù)。

細(xì)說似然函數(shù):
假定條件:所有的采樣都是獨(dú)立同分布。
-- 獨(dú)立,則P(x1,x2) = P(x1)*P(x2);同分布,則針對每次采樣,模型相同。

推導(dǎo)過程:
假設(shè)x1, x2, x3, ...是獨(dú)立、同分布的抽樣。f為我們所使用的模型,θ為模型參數(shù)。

根據(jù)最大似然法的思路:當(dāng)前樣本數(shù)據(jù)出現(xiàn)的聯(lián)合概率最大。因此,我們計算出:

當(dāng)前樣本數(shù)據(jù)出現(xiàn)的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數(shù)模型f(x)的每次抽樣的輸入變量依次為x1,x2,x3,..,且它的參數(shù)是θ,計算結(jié)果(值)等于概率。本身不是條件概率!不是條件概率??!

因為x1,x2,x3,..獨(dú)立,則:
f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
同理,f(x1|θ)表示x1次抽樣時函數(shù)模型的參數(shù)為θ,本身不是條件概率??!

為了使f(x1,x2,x3,..|θ) 最大,我們對其求偏導(dǎo)數(shù):
但是,需要注意的是該式中x1,x2,x3,..為已知條件,后者θ為未知項。因此,我們定義一個關(guān)于未知項θ的函數(shù)——似然函數(shù) L(θ):

L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函數(shù)的自變量為θ,參數(shù)為x1,x2,x3,..,本身不是條件概率!!

繼續(xù)對L(θ|x1,x2,x3,..) 求偏導(dǎo)……

通常是兩邊取對數(shù),再求導(dǎo):

注釋:
-- 這里取對數(shù)不改變函數(shù)本身的單調(diào)性,因此對于求導(dǎo)結(jié)果沒有影響;
-- 另外,取對數(shù)的直接好處就是將連乘變?yōu)槔奂?,求?dǎo)方便多了!

原式

兩邊對數(shù)后,對數(shù)似然

這里有兩個重要定義:
對數(shù)似然:ln L(θ|x1,x2,x3,..),即似然函數(shù)L(θ|x1,x2,x3,..) 取對數(shù);
平均對數(shù)似然:1/n * ln L(θ|x1,x2,x3,..),即對數(shù)似然除以樣本總量n

至此,問題出現(xiàn)了如下的逐步替換:
①求解樣本數(shù)據(jù)的最大聯(lián)合分布概率

②求解使得似然函數(shù)L(θ|x1,x2,x3,..)最大的未知參數(shù)θ

③求解使得平均對數(shù)似然函數(shù)1/n * ln L(θ|x1,x2,x3,..)最大的未知參數(shù)θ

為什么是對平均對數(shù)似然函數(shù)的最大值,而不是對數(shù)似然函數(shù)的最大值?
-- 因為,平均對數(shù)似然函數(shù)中有 1/n 項,消除了樣本數(shù)量的影響。
-- 同時,在其他參數(shù)估計方法(如最小二乘法)中也同樣需要做同樣的均值消除樣本數(shù)量影響處理。

由上可知最大似然估計的一般求解過程:
(1) 寫出似然函數(shù)L(θ|x1,x2,x3,..);
(2) 對似然函數(shù)取對數(shù),再平均,求得 平均對數(shù)似然函數(shù);
(3) 求導(dǎo)數(shù) ;
(4) 解似然方程

先判斷似然函數(shù)的單調(diào)性,再通過導(dǎo)數(shù)=0求得似然函數(shù)取最大值時的模型參數(shù)θ。但是,需注意的是,求導(dǎo)后,導(dǎo)數(shù)=0得到的θ為一個確定的值,也符合假設(shè)條件:x1,x2,x3,..每次獨(dú)立抽樣的概率模型相同。
但是,需要明白在很多實際情況下,當(dāng)前獲取樣本數(shù)據(jù)并不一定就是真實模型(假如存在的話)中概率最大的那個?;谂c大數(shù)定律相似的原因,只有在樣本數(shù)量較多時,這種假設(shè)才會成立;在樣本數(shù)量較小時,當(dāng)前樣本概率最大的假設(shè)不成立的機(jī)會很大。這也就是最大似然估計的局限所在。

參考:
最大似然估計 博客
深入淺出最大似然估計
wikiwand里“最大似然估計”的解釋


3. 貝葉斯學(xué)派:最大后驗估計

最大后驗概率估計(Maximum a posteriori estimation, 簡稱MAP)

背景:正如最大似然估計中假定x1,x2,x3,..每次獨(dú)立抽樣的概率模型相同,現(xiàn)在我們?nèi)サ暨@個假設(shè),將問題復(fù)雜化。假如x1,x2,x3,..每次獨(dú)立抽樣的概率模型中的參數(shù)θ不是一個固定值,而是一個符合g(θ)概率分布(先驗概率)的隨機(jī)變量。這時,我們就需要用到最大后驗估計。
Ps:假定條件變了,問題的復(fù)雜度方法變了,模型參數(shù)的估計方法也要隨之改變。

最大后驗估計的核心思想:是以當(dāng)前樣本數(shù)據(jù)條件下由貝葉斯公式計算出的整個后驗概率最大模型參數(shù)θ為最終的模型參數(shù)。后驗=后驗概率,最大后驗=最大后驗概率。
Ps:最大似然估計以讓當(dāng)前樣本的概率最大的模型參數(shù)θ為最終的模型參數(shù)。

再說,“似然” (likelihood)指已經(jīng)出現(xiàn)事件的發(fā)生概率,它并不是“最大似然參數(shù)估計方法”的專屬名詞。在這里,最大后驗估計方法中也會涉及似然函數(shù)。

先說似然函數(shù):
假設(shè)x1, x2, x3, ...是獨(dú)立抽樣,f為我們所使用的模型,θ為模型參數(shù),但是θ不是固定常數(shù),而是具有一定概率分布(先驗分布)的隨機(jī)變量。模型參數(shù)θ的先驗分布中的參數(shù)則被稱為超參數(shù)(hyperparameter)。

樣本數(shù)據(jù)出現(xiàn)的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數(shù)模型f(x)的每次抽樣的輸入變量依次為x1,x2,x3,..,且它的參數(shù)是θ,計算結(jié)果(值)等于概率。本身不是條件概率!不是條件概率??!

似然函數(shù): L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函數(shù)的自變量為θ,參數(shù)為x1,x2,x3,..。本身是函數(shù),不是條件概率!

根據(jù)貝葉斯公式:
若A、B不完全獨(dú)立,有相關(guān)關(guān)系,則P(AB) = P(A|B)*P(B) = P(B|A)*P(A)
→ P(A|B)=P(B|A)*P(A)/P(B)

本問題中,假如每次獨(dú)立抽樣x的概率模型中參數(shù)θ不是常數(shù)固定項,而是一個隨機(jī)變量,且參數(shù)θ的先驗分布為g(θ)。同樣的,我們就可以對其用貝葉斯公式:

P(θ|x1, x2, x3, ...) = P(x1, x2, x3, ...|θ) * P(θ) / P(x1, x2, x3, ...) =
其中,P(θ|x1, x2, x3, ...)是條件概率,P(x1, x2, x3, ...|θ) 也是條件概率

P(θ|x1, x2, x3, ...) = f(x1, x2, x3, ...|θ) * g(θ) / f(x1, x2, x3, ...) =
其中,f(x1, x2, x3, ...|θ)表示函數(shù)模型的值,θ為模型參數(shù),本身不是條件概率。f(x1, x2, x3, ...) 表示函數(shù)模型的值。

繼續(xù),將f(x)按照每條抽樣數(shù)據(jù)x1, x2, x3,..的展開,P(θ|x1, x2, x3, ...) =


在現(xiàn)有樣本數(shù)據(jù)條件下參數(shù)θ的后驗概率
在現(xiàn)有樣本數(shù)據(jù)條件下參數(shù)θ的后驗概率

其中,
g(θ) 是模型參數(shù)θ的先驗分布;
f(x1, x2, x3, ...|θ)表示函數(shù)模型的值,等于似然函數(shù)。θ為模型參數(shù),本身不是條件概率。

臨時插播:從上式可以看出后驗概率P(θ|x1, x2, x3, ...) 和似然函數(shù)f(x1, x2, x3, ...|θ)的差異!二者分別MAP和MLE兩種參數(shù)估計方法的核心函數(shù),也就是這兩種方法計算過程的差異。后驗概率在似然函數(shù)的基礎(chǔ)上還考慮了先驗概率的影響。

接下來,最大后驗估計的核心就是:求出使整個后驗概率P(θ|x1, x2, x3, ...) 最大的模型參數(shù)θ為最終的模型參數(shù)。

計算略……

結(jié)果:與最大似然估計的結(jié)果不同,最大后驗估計的結(jié)果中多了許多超參數(shù),這就是先驗在起作用。模型參數(shù)θ的先驗分布中的參數(shù)則被稱為超參數(shù)(hyperparameter)。

參考:
最大似然估計和最大后驗估計
wikiwand 最大后驗概率
菜鳥學(xué)概率統(tǒng)計——最大后驗概率(MAP)
詳解最大似然估計(MLE)、最大后驗概率估計(MAP),以及貝葉斯公式的理解


小結(jié):

MAP與MLE最大區(qū)別是MAP中加入了模型參數(shù)本身的概率分布,或者說,MLE中認(rèn)為模型參數(shù)本身的概率的是均勻的,即該概率為一個固定值。當(dāng)MAP中模型參數(shù)θ的先驗概率為常數(shù)(固定值)時,問題就回到了MLE。

MAP允許我們把先驗知識加入到估計模型中,這在樣本很少的時候是很有用的,因為樣本很少的時候我們的觀測結(jié)果很可能出現(xiàn)偏差,此時先驗知識會把估計的結(jié)果“拉”向先驗,實際的預(yù)估結(jié)果將會在先驗結(jié)果的兩側(cè)形成一個頂峰。通過調(diào)節(jié)先驗分布的參數(shù),我們還可以調(diào)節(jié)把估計的結(jié)果“拉”向先驗的幅度。這樣的參數(shù),我們叫做預(yù)估模型的“超參數(shù)”。

MLE與MAP兩種方法體現(xiàn)了頻率學(xué)派、貝葉斯學(xué)派的觀點(diǎn)不同。最大似然估計體現(xiàn)是的頻率學(xué)派的觀點(diǎn),而最大后驗估計體現(xiàn)的是貝葉斯學(xué)派的觀點(diǎn)。

  • 頻率學(xué)派認(rèn)為模型參數(shù)θ存在唯一真值。當(dāng)數(shù)據(jù)量趨于無窮時,這種方法能給出精準(zhǔn)的估計;然而缺乏數(shù)據(jù)時則可能產(chǎn)生嚴(yán)重的偏差。例如,對于一枚均勻硬幣,即θ= 0.5,拋擲5次,出現(xiàn)5次正面 (這種情況出現(xiàn)的概率是1/2^5=3.125%),頻率學(xué)派會直接估計這枚硬幣θ= 1,出現(xiàn)嚴(yán)重錯誤。
  • 貝葉斯學(xué)派認(rèn)為模型參數(shù) θ是一個隨機(jī)變量,符合一定的概率分布。在貝葉斯學(xué)派里有兩大輸入和一大輸出,輸入是先驗 (prior)和似然 (likelihood),輸出是后驗 (posterior)。結(jié)合貝葉斯公式理解。
    貝葉斯公式

    P(θ),即先驗,指的是在沒有觀測到任何數(shù)據(jù)時對θ的預(yù)先判斷;
    P(X|θ),即似然,是假設(shè)θ已知后我們觀察到的數(shù)據(jù)應(yīng)該是什么樣子的;
    P(θ|X),即后驗,是最終的參數(shù)分布。

這里有兩點(diǎn)值得注意的地方:
1)隨著樣本數(shù)據(jù)量的增加,參數(shù)分布會越來越向數(shù)據(jù)靠攏,先驗P(θ)的影響力會越來越??;
2)如果先驗是uniform distribution(即P(θ)=常數(shù),模型參數(shù)θ為常數(shù)),則貝葉斯方法等價于頻率方法。因為直觀上來講,先驗P(θ)=常數(shù)本質(zhì)上表示對事物沒有任何預(yù)判。
參考:頻率學(xué)派還是貝葉斯學(xué)派?聊一聊機(jī)器學(xué)習(xí)中的MLE和MAP

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 來源: http://www.douban.com/group/topic/14820131/ 調(diào)整變量格式: f...
    MC1229閱讀 7,141評論 0 5
  • (轉(zhuǎn)自http://www.douban.com/group/topic/14820131/,轉(zhuǎn)自人大論壇) 調(diào)整...
    f382b3d9bdb3閱讀 10,997評論 0 8
  • 碧空鵝毛碧空開 蜉蝣撼地震仙班 疑是春來冬去快 卻道春風(fēng)送雪來
    雨恬恬兮閱讀 191評論 0 0
  • 1 知識改變命運(yùn),這句話不知道激勵了多少人,讓很多人下功夫?qū)W習(xí)知識,用心讀書收獲智慧。而知識究竟是如何改變命運(yùn)的?...
    耕耘生活閱讀 3,093評論 90 182
  • 朋友們,我們一定要理解那些在異鄉(xiāng)奔波勞碌的親戚朋友們,因為當(dāng)我看到這份朋友寫給我的感言后,我真正體會到了心...
    孟令杰閱讀 637評論 0 1

友情鏈接更多精彩內(nèi)容