抽樣、樣本數(shù)據(jù) -->觀察數(shù)據(jù)趨勢 -->選擇模型 -->模型參數(shù)估計 -->假設(shè)檢驗

類別	名稱	核心函數(shù)	求解目標(biāo)
點(diǎn)估計	最小二乘法	模型參數(shù)的誤差平方和函數(shù)	求偏導(dǎo)數(shù)，使誤差平方和最小
點(diǎn)估計	最大似然法	似然函數(shù)→平均對數(shù)似然函數(shù)	求偏導(dǎo)數(shù)，使似然函數(shù)最大，即樣本出現(xiàn)的概率達(dá)到最大
點(diǎn)估計	最大后驗估計	模型參數(shù)的后驗概率函數(shù)	求偏導(dǎo)數(shù)，使模型參數(shù)的后驗概率

誤差、殘差

與測量有關(guān)，誤差=觀測值與真實值的偏離
模型：y=θx+隨機(jī)擾動項
誤差相關(guān)影響因素：
①隨機(jī)擾動項：包含所有未知因素，以及應(yīng)該考慮但沒有考慮到的次要因素的影響；
②模型的準(zhǔn)確性，決定于模型參數(shù)θ
與預(yù)測有關(guān)，殘差=觀測值與擬合值的偏離。有時，也說偏差。

關(guān)于隨機(jī)擾動項：隨機(jī)誤差是模型的組成部分，也是數(shù)理統(tǒng)計的緣由，因為數(shù)理統(tǒng)計就是對帶有隨機(jī)性數(shù)據(jù)的分析。

點(diǎn)估計：
區(qū)間估計：

1. 最小二乘法

最小二乘法是數(shù)學(xué)家高斯在預(yù)測行星軌道時提出的。
它的核心思想是：構(gòu)造誤差平方和函數(shù)，對其求偏導(dǎo)，讓誤差平方和函數(shù)取得最小值的參數(shù)就是模型參數(shù)。
注意：最小二乘法本質(zhì)上是一種參數(shù)估計方法，它既可以用于線性回歸模型的參數(shù)估計，也可以用于非線性回歸模型(如曲線模型)的參數(shù)估計中?？梢哉f最小二乘法=最小誤差平方和參數(shù)估計方法，但最小二乘法≠線性回歸。

2. 頻率學(xué)派：最大似然估計法MLE

最大似然估計MLE：maximum likelihood estimation

引用《大嘴巴漫談數(shù)據(jù)挖掘》中的解釋：

一個女生和一個獵人一起打獵，一聲槍響，打中一只兔子，請問這一槍是誰打的？

-- 你肯定會認(rèn)為是獵人打的！這就用到了最大似然法的思想

---- 最大似然法認(rèn)為當(dāng)前出現(xiàn)的樣本正好對應(yīng)著總體中概率最大的那個事件；
---- 因為，總體中概率最大的事件實際出現(xiàn)（即被抽樣選中）的概率是最大的。

因此，最大似然參數(shù)求解的核心思想就是構(gòu)造當(dāng)前樣本出現(xiàn)的聯(lián)合概率函數(shù)，對其求偏導(dǎo)，讓當(dāng)前樣本的概率最大的就是模型參數(shù)。

細(xì)說似然函數(shù)：
假定條件：所有的采樣都是獨(dú)立同分布。
-- 獨(dú)立，則P(x1,x2) = P(x1)*P(x2)；同分布，則針對每次采樣，模型相同。

推導(dǎo)過程：
假設(shè)x1, x2, x3, ...是獨(dú)立、同分布的抽樣。f為我們所使用的模型，θ為模型參數(shù)。

根據(jù)最大似然法的思路：當(dāng)前樣本數(shù)據(jù)出現(xiàn)的聯(lián)合概率最大。因此，我們計算出：

當(dāng)前樣本數(shù)據(jù)出現(xiàn)的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中：
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數(shù)模型f(x)的每次抽樣的輸入變量依次為x1,x2,x3,..，且它的參數(shù)是θ，計算結(jié)果（值）等于概率。本身不是條件概率！不是條件概率??！

因為x1,x2,x3,..獨(dú)立，則：
f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
同理，f(x1|θ)表示x1次抽樣時函數(shù)模型的參數(shù)為θ，本身不是條件概率??！

為了使f(x1,x2,x3,..|θ) 最大，我們對其求偏導(dǎo)數(shù)：
但是，需要注意的是該式中x1,x2,x3,..為已知條件，后者θ為未知項。因此，我們定義一個關(guān)于未知項θ的函數(shù)——似然函數(shù) L(θ):

L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中，L(θ|x1,x2,x3,..) 表示似然函數(shù)的自變量為θ，參數(shù)為x1,x2,x3,..，本身不是條件概率！！

繼續(xù)對L(θ|x1,x2,x3,..) 求偏導(dǎo)……

通常是兩邊取對數(shù)，再求導(dǎo)：

注釋：
-- 這里取對數(shù)不改變函數(shù)本身的單調(diào)性，因此對于求導(dǎo)結(jié)果沒有影響；
-- 另外，取對數(shù)的直接好處就是將連乘變?yōu)槔奂?，求?dǎo)方便多了！

原式

兩邊對數(shù)后，對數(shù)似然

這里有兩個重要定義：
對數(shù)似然：ln L(θ|x1,x2,x3,..)，即似然函數(shù)L(θ|x1,x2,x3,..) 取對數(shù)；
平均對數(shù)似然：1/n * ln L(θ|x1,x2,x3,..)，即對數(shù)似然除以樣本總量n

至此，問題出現(xiàn)了如下的逐步替換：
①求解樣本數(shù)據(jù)的最大聯(lián)合分布概率
↓
②求解使得似然函數(shù)L(θ|x1,x2,x3,..)最大的未知參數(shù)θ
↓
③求解使得平均對數(shù)似然函數(shù)1/n * ln L(θ|x1,x2,x3,..)最大的未知參數(shù)θ

為什么是對平均對數(shù)似然函數(shù)的最大值，而不是對數(shù)似然函數(shù)的最大值？
-- 因為，平均對數(shù)似然函數(shù)中有 1/n 項，消除了樣本數(shù)量的影響。
-- 同時，在其他參數(shù)估計方法（如最小二乘法）中也同樣需要做同樣的均值消除樣本數(shù)量影響處理。

由上可知最大似然估計的一般求解過程：
（1）寫出似然函數(shù)L(θ|x1,x2,x3,..)；
（2）對似然函數(shù)取對數(shù)，再平均，求得平均對數(shù)似然函數(shù)；
（3）求導(dǎo)數(shù) ；
（4）解似然方程

先判斷似然函數(shù)的單調(diào)性，再通過導(dǎo)數(shù)=0求得似然函數(shù)取最大值時的模型參數(shù)θ。但是，需注意的是，求導(dǎo)后，導(dǎo)數(shù)=0得到的θ為一個確定的值，也符合假設(shè)條件：x1,x2,x3,..每次獨(dú)立抽樣的概率模型相同。
但是，需要明白在很多實際情況下，當(dāng)前獲取樣本數(shù)據(jù)并不一定就是真實模型(假如存在的話)中概率最大的那個?；谂c大數(shù)定律相似的原因，只有在樣本數(shù)量較多時，這種假設(shè)才會成立；在樣本數(shù)量較小時，當(dāng)前樣本概率最大的假設(shè)不成立的機(jī)會很大。這也就是最大似然估計的局限所在。

參考：
最大似然估計博客
 深入淺出最大似然估計
 wikiwand里“最大似然估計”的解釋

3. 貝葉斯學(xué)派：最大后驗估計

最大后驗概率估計（Maximum a posteriori estimation, 簡稱MAP）

背景：正如最大似然估計中假定x1,x2,x3,..每次獨(dú)立抽樣的概率模型相同，現(xiàn)在我們?nèi)サ暨@個假設(shè)，將問題復(fù)雜化。假如x1,x2,x3,..每次獨(dú)立抽樣的概率模型中的參數(shù)θ不是一個固定值，而是一個符合g(θ)概率分布（先驗概率）的隨機(jī)變量。這時，我們就需要用到最大后驗估計。
Ps：假定條件變了，問題的復(fù)雜度方法變了，模型參數(shù)的估計方法也要隨之改變。

最大后驗估計的核心思想：是以當(dāng)前樣本數(shù)據(jù)條件下由貝葉斯公式計算出的整個后驗概率最大的模型參數(shù)θ為最終的模型參數(shù)。后驗=后驗概率，最大后驗=最大后驗概率。
Ps：最大似然估計以讓當(dāng)前樣本的概率最大的模型參數(shù)θ為最終的模型參數(shù)。

再說，“似然” (likelihood)指已經(jīng)出現(xiàn)事件的發(fā)生概率，它并不是“最大似然參數(shù)估計方法”的專屬名詞。在這里，最大后驗估計方法中也會涉及似然函數(shù)。

先說似然函數(shù)：
假設(shè)x1, x2, x3, ...是獨(dú)立抽樣，f為我們所使用的模型，θ為模型參數(shù)，但是θ不是固定常數(shù)，而是具有一定概率分布（先驗分布）的隨機(jī)變量。模型參數(shù)θ的先驗分布中的參數(shù)則被稱為超參數(shù)(hyperparameter)。

樣本數(shù)據(jù)出現(xiàn)的概率 = P(x1,x2,x3,..) = f(x1,x2,x3,..|θ)
其中：
P(x1,x2,x3,..)是概率
f(x1,x2,x3,..|θ)表示函數(shù)模型f(x)的每次抽樣的輸入變量依次為x1,x2,x3,..，且它的參數(shù)是θ，計算結(jié)果（值）等于概率。本身不是條件概率！不是條件概率??！

似然函數(shù): L(θ|x1,x2,x3,..) = f(x1,x2,x3,..|θ) = f(x1|θ)*f(x2|θ)*f(x3|θ)*...
其中，L(θ|x1,x2,x3,..) 表示似然函數(shù)的自變量為θ，參數(shù)為x1,x2,x3,..。本身是函數(shù)，不是條件概率！

根據(jù)貝葉斯公式：
若A、B不完全獨(dú)立，有相關(guān)關(guān)系，則P(AB) = P(A|B)*P(B) = P(B|A)*P(A)
→ P(A|B)＝P(B|A)*P(A)／P(B)

本問題中，假如每次獨(dú)立抽樣x的概率模型中參數(shù)θ不是常數(shù)固定項，而是一個隨機(jī)變量，且參數(shù)θ的先驗分布為g(θ)。同樣的，我們就可以對其用貝葉斯公式：

P(θ|x1, x2, x3, ...) = P(x1, x2, x3, ...|θ) * P(θ) ／ P(x1, x2, x3, ...) =
其中，P(θ|x1, x2, x3, ...)是條件概率，P(x1, x2, x3, ...|θ) 也是條件概率
↓
P(θ|x1, x2, x3, ...) = f(x1, x2, x3, ...|θ) * g(θ) ／ f(x1, x2, x3, ...) =
其中，f(x1, x2, x3, ...|θ)表示函數(shù)模型的值，θ為模型參數(shù)，本身不是條件概率。f(x1, x2, x3, ...) 表示函數(shù)模型的值。
↓
繼續(xù)，將f(x)按照每條抽樣數(shù)據(jù)x1, x2, x3,..的展開，P(θ|x1, x2, x3, ...) =

$在現(xiàn)有樣本數(shù)據(jù)條件下參數(shù)θ的后驗概率$

在現(xiàn)有樣本數(shù)據(jù)條件下參數(shù)θ的后驗概率

其中，
g(θ) 是模型參數(shù)θ的先驗分布;
f(x1, x2, x3, ...|θ)表示函數(shù)模型的值，等于似然函數(shù)。θ為模型參數(shù)，本身不是條件概率。

臨時插播：從上式可以看出后驗概率P(θ|x1, x2, x3, ...) 和似然函數(shù)f(x1, x2, x3, ...|θ)的差異！二者分別MAP和MLE兩種參數(shù)估計方法的核心函數(shù)，也就是這兩種方法計算過程的差異。后驗概率在似然函數(shù)的基礎(chǔ)上還考慮了先驗概率的影響。

接下來，最大后驗估計的核心就是：求出使整個后驗概率P(θ|x1, x2, x3, ...) 最大的模型參數(shù)θ為最終的模型參數(shù)。

計算略……

結(jié)果：與最大似然估計的結(jié)果不同，最大后驗估計的結(jié)果中多了許多超參數(shù)，這就是先驗在起作用。模型參數(shù)θ的先驗分布中的參數(shù)則被稱為超參數(shù)(hyperparameter)。

參考：
最大似然估計和最大后驗估計
 wikiwand 最大后驗概率
 菜鳥學(xué)概率統(tǒng)計——最大后驗概率（MAP)
詳解最大似然估計（MLE）、最大后驗概率估計（MAP），以及貝葉斯公式的理解

小結(jié)：

MAP與MLE最大區(qū)別是MAP中加入了模型參數(shù)本身的概率分布，或者說，MLE中認(rèn)為模型參數(shù)本身的概率的是均勻的，即該概率為一個固定值。當(dāng)MAP中模型參數(shù)θ的先驗概率為常數(shù)（固定值）時，問題就回到了MLE。

MAP允許我們把先驗知識加入到估計模型中，這在樣本很少的時候是很有用的，因為樣本很少的時候我們的觀測結(jié)果很可能出現(xiàn)偏差，此時先驗知識會把估計的結(jié)果“拉”向先驗，實際的預(yù)估結(jié)果將會在先驗結(jié)果的兩側(cè)形成一個頂峰。通過調(diào)節(jié)先驗分布的參數(shù)，我們還可以調(diào)節(jié)把估計的結(jié)果“拉”向先驗的幅度。這樣的參數(shù)，我們叫做預(yù)估模型的“超參數(shù)”。

MLE與MAP兩種方法體現(xiàn)了頻率學(xué)派、貝葉斯學(xué)派的觀點(diǎn)不同。最大似然估計體現(xiàn)是的頻率學(xué)派的觀點(diǎn)，而最大后驗估計體現(xiàn)的是貝葉斯學(xué)派的觀點(diǎn)。

頻率學(xué)派認(rèn)為模型參數(shù)θ存在唯一真值。當(dāng)數(shù)據(jù)量趨于無窮時，這種方法能給出精準(zhǔn)的估計；然而缺乏數(shù)據(jù)時則可能產(chǎn)生嚴(yán)重的偏差。例如，對于一枚均勻硬幣，即θ= 0.5，拋擲5次，出現(xiàn)5次正面 (這種情況出現(xiàn)的概率是1/2^5=3.125%)，頻率學(xué)派會直接估計這枚硬幣θ= 1，出現(xiàn)嚴(yán)重錯誤。
貝葉斯學(xué)派認(rèn)為模型參數(shù) θ是一個隨機(jī)變量，符合一定的概率分布。在貝葉斯學(xué)派里有兩大輸入和一大輸出，輸入是先驗 (prior)和似然 (likelihood)，輸出是后驗 (posterior)。結(jié)合貝葉斯公式理解。

貝葉斯公式

P(θ)，即先驗，指的是在沒有觀測到任何數(shù)據(jù)時對θ的預(yù)先判斷；
P(X|θ)，即似然，是假設(shè)θ已知后我們觀察到的數(shù)據(jù)應(yīng)該是什么樣子的；
P(θ|X)，即后驗，是最終的參數(shù)分布。

這里有兩點(diǎn)值得注意的地方：
1）隨著樣本數(shù)據(jù)量的增加，參數(shù)分布會越來越向數(shù)據(jù)靠攏，先驗P(θ)的影響力會越來越??；
2）如果先驗是uniform distribution(即P(θ)=常數(shù)，模型參數(shù)θ為常數(shù))，則貝葉斯方法等價于頻率方法。因為直觀上來講，先驗P(θ)=常數(shù)本質(zhì)上表示對事物沒有任何預(yù)判。
參考：頻率學(xué)派還是貝葉斯學(xué)派？聊一聊機(jī)器學(xué)習(xí)中的MLE和MAP

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基礎(chǔ)：常見的參數(shù)估計方法

基礎(chǔ)：常見的參數(shù)估計方法

1. 最小二乘法

2. 頻率學(xué)派：最大似然估計法MLE

3. 貝葉斯學(xué)派：最大后驗估計

小結(jié)：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

基礎(chǔ)：常見的參數(shù)估計方法

1. 最小二乘法

2. 頻率學(xué)派：最大似然估計法MLE

3. 貝葉斯學(xué)派：最大后驗估計

小結(jié)：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av