在一般的模式識別問題中,人們往往希望盡量減少分類的錯誤,即目標(biāo)是追求最小的錯誤率。其中利用概率論中貝葉斯公式得到的分類決策被稱之為最小錯誤率貝葉斯決策。
問題引入
在某個地區(qū)中人們常對細胞中某一種物質(zhì)(特征觀察值)進行檢測,來判定它是否是正常細胞。通常情況下這種細胞是正常(w1 類)的可能性是0.9,是異常(w2 類)的可能性是0.1。現(xiàn)在有一種待觀察的細胞,其特征觀察值是 x。根據(jù)以往的結(jié)果,正常(w1 類)細胞中其特征觀察值是 x 的可能性是0.2;異常(w2 類)細胞中其特征觀察值是 x 的可能性是0.4。試判斷該細胞是正常還是異常。
分析
我們的目標(biāo)是讓我們出現(xiàn)錯誤的概率盡可能的低,也就是所謂的最小錯誤率[1]準(zhǔn)則。
那么我們?nèi)绾尾拍軐崿F(xiàn)最小錯誤率?試想一下如果我們只知道這個細胞是正常的可能性有0.9,異常的可能性有0.1。那么我們會認為這是正常細胞,因為我們判斷失誤的概率只有0.1。相對于其他判斷結(jié)果(認為這是異常細胞),我們實現(xiàn)了最小錯誤率。
事實上,上面說的 0.1 和 0.9 是在沒有對樣本進行任何觀察情況下得到的概率,因此我們稱它為先驗概率。
現(xiàn)在我們觀察細胞,知道它的特征值為 x,我們需要求在已知 x 的情況下細胞屬于各類的概率,用 P(wi|x)表示,相信學(xué)過條件概率的都清楚這個意思。這種概率也稱為后驗概率。
所以對于兩類問題,我們的決策思想是誰的后驗概率大,我們就認為它屬于哪類。

那么怎么求后驗概率呢?我們知道后驗概率 P(wi|x) 換一種求法是先求特征值是 x 且 屬于 wi類的概率 p(x|wi),也稱為聯(lián)合概率密度。再除以特征值是 x 的概率 p(x),稱為總體密度。而聯(lián)合概率密度則是由類條件密度 p(wi|x) 乘以先驗概率 P(wi|x) 得到。所以我們就得到經(jīng)典的貝葉斯公式:

所以在問題引入中,我們只需求出 w1 和 w2 的后驗概率,比較它們的大小即可[2]。
未完待續(xù)
接下來還會介紹似然比,并用圖形進一步解釋貝葉斯決策,但最近學(xué)業(yè)繁忙,可能最近一段時間不會更新了。