操碰在线视频97av,国产限制级在线观看

本筆記是筆者課程學(xué)習(xí)中所做筆記(絕對原創(chuàng))，轉(zhuǎn)載請附本文鏈接及作者信息。
有問題歡迎在交流區(qū)探討學(xué)習(xí)，QQ：761322725
碼字不易，好心人隨手點個贊??
個人認(rèn)為課程所用PPT是對模式識別原理講解最為透徹且容易理解的ppt
本文基礎(chǔ)是貝葉斯決策http://m.itdecent.cn/p/6f5273c09359
基礎(chǔ)數(shù)理統(tǒng)計知識：概率分布、概率密度函數(shù)、貝葉斯公式https://blog.csdn.net/anshuai_aw1/article/details/82626468
貝葉斯決策知識 http://m.itdecent.cn/p/6f5273c09359
背景：
實際分類中概率結(jié)構(gòu)的完整信息很難獲知，通常只知道總體分布的模糊信息和訓(xùn)練樣本
- 需要利用訓(xùn)練樣本 $\color{red}{估計先驗概率和類條件概率密度}$
- 1.估計先驗概率 $P(\hat{w_i})=\frac{N_i}{N}$ , $N_i$ 是訓(xùn)練集中N個樣本中 $w_i$ 類的樣本數(shù)量
- 2.估計樣本中的類條件概率密度
  
  參數(shù)估計即針對類條件概率密度進(jìn)行估計，主要有兩大類方法：

0. 基本概念

相關(guān)概念定義如下：

1.最大似然估計(Maximum-Likelihood Estimation,ML)

1.1基本假設(shè)

類條件概率密度 $??(??|??_??)$ 函數(shù)形式已知 , 參數(shù)未知但確定 , 記作 ????, 因此可以將 $??(??|??_??)$ 改寫為 $??(??|??_??,??_??)$ 或 $??(??|??_??), j=1,2,…,c$ c為類別數(shù)量。
同時有以下重要性質(zhì)：
每類樣本集 $??_??$ 中的樣本都是從密度為 $??(??|??_??)$ 的總體中獨立抽出，即 $??_??$ 中的 $\color{red}{樣本是獨立同分布的}$ 。
各類樣本只包含本類的分布信息，即不同類別的參數(shù) $??_??$ 是各自獨立的
在獨立性假設(shè)下，可將原問題看作 c 個獨立的問題。即，每一類
獨立地按照概率密度 $??(??|??)$ 抽取樣本集 ??，用 ??估計出參數(shù) ?? (分而治之)

將分類問題分解為各類的子問題后，我們來關(guān)注具體的參數(shù) $\theta$ 的估計過程

1.2基本原理

??={??1,…,????}，設(shè)各樣本按條件概率密度 $??(??|??)$ 從總體中獨立抽取，有
$\color{red}{P(\mathit{D}|\theta)=p(\mathbf{X}_1,...,\mathbf{X}_n|\theta)=\prod_{k=1}^{n}p(\mathbf{X}_k|\theta)}$
我們將 $P(\mathit{D}|\theta)$ 稱為參數(shù) $\theta$ 對于樣本集D的似然函數(shù)

所以最終的目的就是對似然函數(shù)求最大值，最大似然估計的方法也因此而來

1.3微分求解

當(dāng)似然函數(shù)為可微函數(shù)，可以通過求導(dǎo)計算出最大值，得出估計值

注意：并不是所有似然函數(shù)都可微分?。?！

1.4示例

2. 貝葉斯估計

2.1基本思想

貝葉斯估計方法與最大似然估計方法有本質(zhì)不同，它把參數(shù)向量 θ 本身看成一個隨機(jī)變量 ，根據(jù)觀測數(shù)據(jù)對參數(shù)的分布進(jìn)行估計，即后驗概率密度 ??(??|??)。
貝葉斯學(xué)習(xí)，則是把貝葉斯估計的原理用于直接從數(shù)據(jù)對概率密度函數(shù)進(jìn)行迭代估計。
原問題：估計概率密度。假設(shè) $??(??|??)$ 函數(shù)形式已知，參數(shù)??未知且不固定；
目標(biāo)：根據(jù)給定的樣本集 ??={??1,…,????}，找到未知參數(shù) ??的一個估計量，使得由此帶來的風(fēng)險最小。

因此貝葉斯估計將利用這一點對后驗分布進(jìn)行估計

2.2 貝葉斯估計

基本前提： $??(??|??)$ 函數(shù)形式已知，參數(shù)??未知且不固定；??取值的參數(shù)空間 ??是一個連續(xù)空間
用類似于最小風(fēng)險判決的方法來估計未知隨機(jī)參數(shù)
$??(\hat{\theta}|\theta)$ 標(biāo)記真實參數(shù)為 ??, 得到的估計量為 $\hat{\theta}$ 時承擔(dān)的損失。

??的貝葉斯估計是使得貝葉斯風(fēng)險最小化的估計 $\hat{??}$ 。
最常用的損失函數(shù)為平方誤差損失，

根據(jù)該定理，就可以得到估計參數(shù)的方法：

具體的貝葉斯估計過程如下圖所示：

2.3 貝葉斯學(xué)習(xí)

通過上一節(jié)對貝葉斯估計的過程的分析，可以知道貝葉斯估計為了得到最終的概率分布情況（估計概率密度），采用貝葉斯公式計算參數(shù)的后驗概率，進(jìn)行了問題的轉(zhuǎn)換。
而貝葉斯學(xué)習(xí)，則不經(jīng)過中間的參數(shù)估計步驟, $\color{red}{直接由樣本集推斷總體的概率分布}$

注意與的差別，前者表示數(shù)據(jù)分布情況的參數(shù)，后者則是數(shù)據(jù)具體的分布情況，得到后可以得到具體的數(shù)據(jù)分布函數(shù)，從而知道數(shù)據(jù)的分布情況即

具體求解過程

至此我們得到了可以用于貝葉斯學(xué)習(xí)的公式，參數(shù)學(xué)習(xí)的迭代過程如下：

隨著n 值的增加， ??的相應(yīng)后驗概率密度一般會變得越來越尖銳。
若上述概率密度函數(shù)序列在??→∞時 , 收斂于以真值參數(shù) ??為中心的狄拉克 ??函數(shù)，則稱相應(yīng)的學(xué)習(xí)過程為貝葉斯學(xué)習(xí)過程

上述式子中為樣本集數(shù)據(jù)，可以看出貝葉斯學(xué)習(xí)實現(xiàn)了從樣本到總體分布的推導(dǎo)學(xué)習(xí)

2.4 貝葉斯學(xué)習(xí)示例

注意上面的結(jié)果，先得到了參數(shù)的估計值，所以第一個圖反映的是參數(shù)的情況，第二圖才是概率密度的估計情況，貝葉斯學(xué)習(xí)的結(jié)果是在0到8間是均勻分布，而8到10存在其他分布，所以概率密度圖中函數(shù)直線部分的值小于0.125(1/8)。

2.5 貝葉斯估計總結(jié)

主要的問題就是上述的兩步：
1 計算參數(shù)后驗密度函數(shù)
2 計算類條件密度
兩類估計方法的差別

聯(lián)系：最大似然估計可解釋為具有均勻先驗的最大后驗概率估計。當(dāng)訓(xùn)練樣本數(shù)趨于無窮大時，兩者效果一致。
貝葉斯估計方法有很強的理論和算法基礎(chǔ)。但在實際應(yīng)用中，最大似然估計更簡便，且設(shè)計出的分類器的性能幾乎與貝葉斯方法得到的結(jié)果相差無幾。

2.6 參數(shù)估計方法總結(jié)

最大似然估計：將參數(shù)視為未知固定值， $\color{red}{參數(shù)點的估計}$
貝葉斯估計：將參數(shù)視為隨機(jī)變量， $\color{red}{參數(shù)分布的估計}$

3. 無監(jiān)督參數(shù)估計

3.1 問題

樣本類別未知（無監(jiān)督）情況下的類條件概密參數(shù)估計問題，被稱為無監(jiān)督參數(shù)估計
把參數(shù)估計方法推廣到概率模型中含有隱變量如 樣本的未知類別或允許樣本存在缺失特征 的情況
問題描述：給定混合樣本集 ??=??1,??2,?,????，其類別數(shù)已知(c)， $\color{red}{樣本的標(biāo)簽未知}$ 。每個類別的類條件概率密度 $??(??|??_??,??_??)$ 函數(shù)形式已知 , $??(??_??)$ 未知。
目標(biāo)：1) 估計各類的分布參數(shù) $??_??$ 和類先驗分布 $??(??_??) i =1,…,c$ 。令 $??=??_1,?,??_??$ , $??=(??(??_1),?,??(??_??))$ $\Theta=(??,??)$
混合概率密度函數(shù)為 $\color{red}{p(X)=\sum^c_{i=1}p(X|w_i,\theta_i)P(w_i)}$

3.2 求解方法

混合概率密度函數(shù)的最大似然估計求法：
其中情況一：混合參數(shù)已知，方法同第1節(jié)中最大似然估計所述，差別在于這個地方是所有類在一起計算，沒有分而治之
情況二：需要用條件極值法進(jìn)行求解

主要運用拉格朗日乘數(shù)方法進(jìn)行推導(dǎo)求解

原則上，可通過
（2）(3) 式聯(lián)立求解得到參數(shù)的最大似然估計。但得到閉式解困難，通常通過迭代算法，如 EM 算法，進(jìn)行求解。下面將學(xué)習(xí)EM算法

4. 最大期望算法(Expectation Maximization)

4.1 基本概念

解決在概率模型中含有無法觀測的隱含變量情況下的參數(shù)估計問題。
場景：數(shù)據(jù)不完整，有缺失特征；存在隱變量，如樣本的類別未知。
核心思想：根據(jù)已有的、不完整數(shù)據(jù)，利用對數(shù)似然函數(shù)期望迭
代地估計分布函數(shù)的未知參數(shù)
基本知識凸函數(shù)(Convex Functions)
詹森/琴生不等式(Jensen's inequality)
完全數(shù)據(jù)與不完全數(shù)據(jù)

利用不完全數(shù)據(jù)Y去獲取完全數(shù)據(jù)的分布

4.2 EM原理

目標(biāo)是極大化觀測數(shù)據(jù) Y 關(guān)于參數(shù) ??的對數(shù)似然函數(shù)

image.png

通過迭代逐步近似極大化 $L(\theta)$ ,第i次迭代后 $\theta$ 的估計值為 $\theta^{(i)}$

EM算法是通過不斷地使下界極大化，去逼近求解“對數(shù)似然函數(shù)極大化”

EM具體流程

注意點：
參數(shù)初值：EM算法對初值敏感
迭代終止條件：當(dāng)Q函數(shù)值變化小于一定值或者參數(shù)估計值變化小于一定值