抽樣、樣本數(shù)據(jù) -->觀察數(shù)據(jù)趨勢 -->選擇模型 -->模型參數(shù)估計 -->假設(shè)檢驗
| 類別 | 名稱 | 核心函數(shù) | 求解目標(biāo) |
|---|---|---|---|
| 點(diǎn)估計 | 最小二乘法 | 模型參數(shù)的誤差平方和函數(shù) | 求偏導(dǎo)數(shù),使誤差平方和最小 |
| 點(diǎn)估計 | 最大似然法 | 似然函數(shù)→平均對數(shù)似然函數(shù) | 求偏導(dǎo)數(shù),使似然函數(shù)最大,即樣本出現(xiàn)的概率達(dá)到最大 |
| 點(diǎn)估計 | 最大后驗估計 | 模型參數(shù)的后驗概率函數(shù) | 求偏導(dǎo)數(shù),使模型參數(shù)的后驗概率 |
誤差、殘差
- 與測量有關(guān),誤差=觀測值與真實值的偏離
模型:y=θx+隨機(jī)擾動項
誤差相關(guān)影響因素:
①隨機(jī)擾動項:包含所有未知因素,以及應(yīng)該考慮但沒有考慮到的次要因素的影響;
②模型的準(zhǔn)確性,決定于模型參數(shù)θ - 與預(yù)測有關(guān),殘差=觀測值與擬合值的偏離。有時,也說偏差。
關(guān)于隨機(jī)擾動項:隨機(jī)誤差是模型的組成部分,也是數(shù)理統(tǒng)計的緣由,因為數(shù)理統(tǒng)計就是對帶有隨機(jī)性數(shù)據(jù)的分析。
點(diǎn)估計:
區(qū)間估計:
1. 最小二乘法
最小二乘法是數(shù)學(xué)家高斯在預(yù)測行星軌道時提出的。
它的核心思想是:構(gòu)造誤差平方和函數(shù),對其求偏導(dǎo),讓誤差平方和函數(shù)取得最小值的參數(shù)就是模型參數(shù)。
注意:最小二乘法本質(zhì)上是一種參數(shù)估計方法,它既可以用于線性回歸模型的參數(shù)估計,也可以用于非線性回歸模型(如曲線模型)的參數(shù)估計中??梢哉f最小二乘法=最小誤差平方和參數(shù)估計方法,但最小二乘法≠線性回歸。
2. 頻率學(xué)派:最大似然估計法MLE
最大似然估計MLE:maximum likelihood estimation
引用《大嘴巴漫談數(shù)據(jù)挖掘》中的解釋:
一個女生和一個獵人一起打獵,一聲槍響,打中一只兔子,請問這一槍是誰打的?
-- 你肯定會認(rèn)為是獵人打的!這就用到了最大似然法的思想
---- 最大似然法認(rèn)為當(dāng)前出現(xiàn)的樣本正好對應(yīng)著總體中概率最大的那個事件;
---- 因為,總體中概率最大的事件實際出現(xiàn)(即被抽樣選中)的概率是最大的。
因此,最大似然參數(shù)求解的核心思想就是構(gòu)造當(dāng)前樣本出現(xiàn)的聯(lián)合概率函數(shù),對其求偏導(dǎo),讓當(dāng)前樣本的概率最大的就是模型參數(shù)。
細(xì)說似然函數(shù):
假定條件:所有的采樣都是獨(dú)立同分布。
-- 獨(dú)立,則P(x1,x2) = P(x1)*P(x2);同分布,則針對每次采樣,模型相同。
推導(dǎo)過程:
假設(shè)x1, x2, x3, ...是獨(dú)立、同分布的抽樣。f為我們所使用的模型,θ為模型參數(shù)。
根據(jù)最大似然法的思路:當(dāng)前樣本數(shù)據(jù)出現(xiàn)的聯(lián)合概率最大。因此,我們計算出:
當(dāng)前樣本數(shù)據(jù)出現(xiàn)的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數(shù)模型f(x)的每次抽樣的輸入變量依次為x1,x2,x3,..,且它的參數(shù)是θ,計算結(jié)果(值)等于概率。本身不是條件概率!不是條件概率??!
因為x1,x2,x3,..獨(dú)立,則:
f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
同理,f(x1|θ)表示x1次抽樣時函數(shù)模型的參數(shù)為θ,本身不是條件概率??!
為了使f(x1,x2,x3,..|θ) 最大,我們對其求偏導(dǎo)數(shù):
但是,需要注意的是該式中x1,x2,x3,..為已知條件,后者θ為未知項。因此,我們定義一個關(guān)于未知項θ的函數(shù)——似然函數(shù) L(θ):
L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函數(shù)的自變量為θ,參數(shù)為x1,x2,x3,..,本身不是條件概率!!
繼續(xù)對L(θ|x1,x2,x3,..) 求偏導(dǎo)……
通常是兩邊取對數(shù),再求導(dǎo):
注釋:
-- 這里取對數(shù)不改變函數(shù)本身的單調(diào)性,因此對于求導(dǎo)結(jié)果沒有影響;
-- 另外,取對數(shù)的直接好處就是將連乘變?yōu)槔奂?,求?dǎo)方便多了!


這里有兩個重要定義:
對數(shù)似然:ln L(θ|x1,x2,x3,..),即似然函數(shù)L(θ|x1,x2,x3,..) 取對數(shù);
平均對數(shù)似然:1/n * ln L(θ|x1,x2,x3,..),即對數(shù)似然除以樣本總量n
至此,問題出現(xiàn)了如下的逐步替換:
①求解樣本數(shù)據(jù)的最大聯(lián)合分布概率
↓
②求解使得似然函數(shù)L(θ|x1,x2,x3,..)最大的未知參數(shù)θ
↓
③求解使得平均對數(shù)似然函數(shù)1/n * ln L(θ|x1,x2,x3,..)最大的未知參數(shù)θ
為什么是對平均對數(shù)似然函數(shù)的最大值,而不是對數(shù)似然函數(shù)的最大值?
-- 因為,平均對數(shù)似然函數(shù)中有 1/n 項,消除了樣本數(shù)量的影響。
-- 同時,在其他參數(shù)估計方法(如最小二乘法)中也同樣需要做同樣的均值消除樣本數(shù)量影響處理。
由上可知最大似然估計的一般求解過程:
(1) 寫出似然函數(shù)L(θ|x1,x2,x3,..);
(2) 對似然函數(shù)取對數(shù),再平均,求得 平均對數(shù)似然函數(shù);
(3) 求導(dǎo)數(shù) ;
(4) 解似然方程
先判斷似然函數(shù)的單調(diào)性,再通過導(dǎo)數(shù)=0求得似然函數(shù)取最大值時的模型參數(shù)θ。但是,需注意的是,求導(dǎo)后,導(dǎo)數(shù)=0得到的θ為一個確定的值,也符合假設(shè)條件:x1,x2,x3,..每次獨(dú)立抽樣的概率模型相同。
但是,需要明白在很多實際情況下,當(dāng)前獲取樣本數(shù)據(jù)并不一定就是真實模型(假如存在的話)中概率最大的那個?;谂c大數(shù)定律相似的原因,只有在樣本數(shù)量較多時,這種假設(shè)才會成立;在樣本數(shù)量較小時,當(dāng)前樣本概率最大的假設(shè)不成立的機(jī)會很大。這也就是最大似然估計的局限所在。
參考:
最大似然估計 博客
深入淺出最大似然估計
wikiwand里“最大似然估計”的解釋
3. 貝葉斯學(xué)派:最大后驗估計
最大后驗概率估計(Maximum a posteriori estimation, 簡稱MAP)
背景:正如最大似然估計中假定x1,x2,x3,..每次獨(dú)立抽樣的概率模型相同,現(xiàn)在我們?nèi)サ暨@個假設(shè),將問題復(fù)雜化。假如x1,x2,x3,..每次獨(dú)立抽樣的概率模型中的參數(shù)θ不是一個固定值,而是一個符合g(θ)概率分布(先驗概率)的隨機(jī)變量。這時,我們就需要用到最大后驗估計。
Ps:假定條件變了,問題的復(fù)雜度方法變了,模型參數(shù)的估計方法也要隨之改變。
最大后驗估計的核心思想:是以當(dāng)前樣本數(shù)據(jù)條件下由貝葉斯公式計算出的整個后驗概率最大的模型參數(shù)θ為最終的模型參數(shù)。后驗=后驗概率,最大后驗=最大后驗概率。
Ps:最大似然估計以讓當(dāng)前樣本的概率最大的模型參數(shù)θ為最終的模型參數(shù)。
再說,“似然” (likelihood)指已經(jīng)出現(xiàn)事件的發(fā)生概率,它并不是“最大似然參數(shù)估計方法”的專屬名詞。在這里,最大后驗估計方法中也會涉及似然函數(shù)。
先說似然函數(shù):
假設(shè)x1, x2, x3, ...是獨(dú)立抽樣,f為我們所使用的模型,θ為模型參數(shù),但是θ不是固定常數(shù),而是具有一定概率分布(先驗分布)的隨機(jī)變量。模型參數(shù)θ的先驗分布中的參數(shù)則被稱為超參數(shù)(hyperparameter)。
樣本數(shù)據(jù)出現(xiàn)的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中:
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數(shù)模型f(x)的每次抽樣的輸入變量依次為x1,x2,x3,..,且它的參數(shù)是θ,計算結(jié)果(值)等于概率。本身不是條件概率!不是條件概率??!
似然函數(shù): L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中,L(θ|x1,x2,x3,..) 表示似然函數(shù)的自變量為θ,參數(shù)為x1,x2,x3,..。本身是函數(shù),不是條件概率!
根據(jù)貝葉斯公式:
若A、B不完全獨(dú)立,有相關(guān)關(guān)系,則P(AB) = P(A|B)*P(B) = P(B|A)*P(A)
→ P(A|B)=P(B|A)*P(A)/P(B)
本問題中,假如每次獨(dú)立抽樣x的概率模型中參數(shù)θ不是常數(shù)固定項,而是一個隨機(jī)變量,且參數(shù)θ的先驗分布為g(θ)。同樣的,我們就可以對其用貝葉斯公式:
P(θ|x1, x2, x3, ...) = P(x1, x2, x3, ...|θ) * P(θ) / P(x1, x2, x3, ...) =
其中,P(θ|x1, x2, x3, ...)是條件概率,P(x1, x2, x3, ...|θ) 也是條件概率
↓
P(θ|x1, x2, x3, ...) = f(x1, x2, x3, ...|θ) * g(θ) / f(x1, x2, x3, ...) =
其中,f(x1, x2, x3, ...|θ)表示函數(shù)模型的值,θ為模型參數(shù),本身不是條件概率。f(x1, x2, x3, ...) 表示函數(shù)模型的值。
↓
繼續(xù),將f(x)按照每條抽樣數(shù)據(jù)x1, x2, x3,..的展開,P(θ|x1, x2, x3, ...) =
其中,
g(θ) 是模型參數(shù)θ的先驗分布;
f(x1, x2, x3, ...|θ)表示函數(shù)模型的值,等于似然函數(shù)。θ為模型參數(shù),本身不是條件概率。
臨時插播:從上式可以看出后驗概率P(θ|x1, x2, x3, ...) 和似然函數(shù)f(x1, x2, x3, ...|θ)的差異!二者分別MAP和MLE兩種參數(shù)估計方法的核心函數(shù),也就是這兩種方法計算過程的差異。后驗概率在似然函數(shù)的基礎(chǔ)上還考慮了先驗概率的影響。
接下來,最大后驗估計的核心就是:求出使整個后驗概率P(θ|x1, x2, x3, ...) 最大的模型參數(shù)θ為最終的模型參數(shù)。
計算略……
結(jié)果:與最大似然估計的結(jié)果不同,最大后驗估計的結(jié)果中多了許多超參數(shù),這就是先驗在起作用。模型參數(shù)θ的先驗分布中的參數(shù)則被稱為超參數(shù)(hyperparameter)。
參考:
最大似然估計和最大后驗估計
wikiwand 最大后驗概率
菜鳥學(xué)概率統(tǒng)計——最大后驗概率(MAP)
詳解最大似然估計(MLE)、最大后驗概率估計(MAP),以及貝葉斯公式的理解
小結(jié):
MAP與MLE最大區(qū)別是MAP中加入了模型參數(shù)本身的概率分布,或者說,MLE中認(rèn)為模型參數(shù)本身的概率的是均勻的,即該概率為一個固定值。當(dāng)MAP中模型參數(shù)θ的先驗概率為常數(shù)(固定值)時,問題就回到了MLE。
MAP允許我們把先驗知識加入到估計模型中,這在樣本很少的時候是很有用的,因為樣本很少的時候我們的觀測結(jié)果很可能出現(xiàn)偏差,此時先驗知識會把估計的結(jié)果“拉”向先驗,實際的預(yù)估結(jié)果將會在先驗結(jié)果的兩側(cè)形成一個頂峰。通過調(diào)節(jié)先驗分布的參數(shù),我們還可以調(diào)節(jié)把估計的結(jié)果“拉”向先驗的幅度。這樣的參數(shù),我們叫做預(yù)估模型的“超參數(shù)”。
MLE與MAP兩種方法體現(xiàn)了頻率學(xué)派、貝葉斯學(xué)派的觀點(diǎn)不同。最大似然估計體現(xiàn)是的頻率學(xué)派的觀點(diǎn),而最大后驗估計體現(xiàn)的是貝葉斯學(xué)派的觀點(diǎn)。
- 頻率學(xué)派認(rèn)為模型參數(shù)θ存在唯一真值。當(dāng)數(shù)據(jù)量趨于無窮時,這種方法能給出精準(zhǔn)的估計;然而缺乏數(shù)據(jù)時則可能產(chǎn)生嚴(yán)重的偏差。例如,對于一枚均勻硬幣,即θ= 0.5,拋擲5次,出現(xiàn)5次正面 (這種情況出現(xiàn)的概率是1/2^5=3.125%),頻率學(xué)派會直接估計這枚硬幣θ= 1,出現(xiàn)嚴(yán)重錯誤。
-
貝葉斯學(xué)派認(rèn)為模型參數(shù) θ是一個隨機(jī)變量,符合一定的概率分布。在貝葉斯學(xué)派里有兩大輸入和一大輸出,輸入是先驗 (prior)和似然 (likelihood),輸出是后驗 (posterior)。結(jié)合貝葉斯公式理解。
貝葉斯公式
P(θ),即先驗,指的是在沒有觀測到任何數(shù)據(jù)時對θ的預(yù)先判斷;
P(X|θ),即似然,是假設(shè)θ已知后我們觀察到的數(shù)據(jù)應(yīng)該是什么樣子的;
P(θ|X),即后驗,是最終的參數(shù)分布。
這里有兩點(diǎn)值得注意的地方:
1)隨著樣本數(shù)據(jù)量的增加,參數(shù)分布會越來越向數(shù)據(jù)靠攏,先驗P(θ)的影響力會越來越??;
2)如果先驗是uniform distribution(即P(θ)=常數(shù),模型參數(shù)θ為常數(shù)),則貝葉斯方法等價于頻率方法。因為直觀上來講,先驗P(θ)=常數(shù)本質(zhì)上表示對事物沒有任何預(yù)判。
參考:頻率學(xué)派還是貝葉斯學(xué)派?聊一聊機(jī)器學(xué)習(xí)中的MLE和MAP
