貝葉斯公式/貝葉斯法則/貝葉斯定理

介紹

貝葉斯法則

貝葉斯定理是用來(lái)做什么的?簡(jiǎn)單說(shuō),概率預(yù)測(cè):某個(gè)條件下,一件事發(fā)生的概率是多大?

wiki 把為什么要做這個(gè)定理談的很清楚,是為了覆蓋逆概的場(chǎng)景:

在貝葉斯寫這篇文章之前,人們已經(jīng)能夠計(jì)算“正向概率”,如“假設(shè)袋子里面有N個(gè)白球,M個(gè)黑球,你伸手進(jìn)去摸一把,摸出黑球的概率是多大”。

而一個(gè)自然而然的問(wèn)題是反過(guò)來(lái):“如果我們事先并不知道袋子里面黑白球的比例,而是閉著眼睛摸出一個(gè)(或好幾個(gè))球,觀察這些取出來(lái)的球的顏色之后,那么我們可以就此對(duì)袋子里面的黑白球的比例作出什么樣的推測(cè)”。這個(gè)問(wèn)題,就是所謂的逆概問(wèn)題。

了解一下公式

事件B發(fā)生的條件下,事件A發(fā)生的概率為:

同理可得,事件A發(fā)生的條件下,事件B發(fā)生的概率為:

很容易推導(dǎo)得到:

假設(shè)若P(A)≠0,那么就可以得到用來(lái)預(yù)測(cè)概率的貝葉斯定理了:

這個(gè)定理顯然是可以推導(dǎo)到多個(gè)條件的,比如在2個(gè)條件的情況下:

經(jīng)典案例

信某宗教的人是恐怖分子的概率是多少?

假設(shè) 100% 的恐怖分子都相信某宗教,而某人相信某宗教,并不代表此人 100% 是恐怖分子,還需要考慮先驗(yàn)概率,假設(shè)全球有 7萬(wàn) 恐怖分子(全球人口 70億 ),假設(shè)全球有 1/3 的人口相信某宗教,那么這個(gè)人是恐怖分子的概率是多少?

解:

我們要求解的是這個(gè)概率: P(恐怖分子|信某教)

套用公式,得到 :

P(恐怖分子|信某教)

= P(信某教|恐怖分子) P(恐怖分子) / P(信某教)

= 100% * (7萬(wàn)人/70億人) / (1/3)

= 0.003%

也即十萬(wàn)分之三的概率。

延展開(kāi)去,從數(shù)學(xué)理論上講,民主黨不針對(duì)某個(gè)信教人群是對(duì)的,但是題目中設(shè)定 100% 的恐怖分子信某教,這個(gè)假設(shè)就比較...

檢測(cè)呈陽(yáng)性的雇員吸毒概率是多少?

假設(shè)一個(gè)常規(guī)的檢測(cè)結(jié)果的敏感度與可靠度均為 99% ,即吸毒者每次檢測(cè)呈陽(yáng)性 (+) 的概率為 99% 。而不吸毒者每次檢測(cè)呈陰性 (-) 的概率為 99% 。假設(shè)某公司對(duì)全體雇員進(jìn)行吸毒檢測(cè),已知 0.5% 的雇員吸毒。請(qǐng)問(wèn)每位檢測(cè)結(jié)果呈陽(yáng)性的雇員吸毒的概率有多高?

解:

我們要求解的是這個(gè)概率: P(吸毒|檢測(cè)呈陽(yáng)性的雇員)

套用公式,得到 :

P(吸毒|檢測(cè)呈陽(yáng)性雇員)

= P(檢測(cè)呈陽(yáng)性雇員|吸毒) P(吸毒) / P(檢測(cè)呈陽(yáng)性雇員)

= 99% * 0.5% / [P(檢測(cè)呈陽(yáng)性雇員∩吸毒) + P(檢測(cè)呈陽(yáng)性∩不吸毒)]

= 99% * 0.5% / [P(檢測(cè)呈陽(yáng)性雇員|吸毒) * P(吸毒) + P(檢測(cè)呈陽(yáng)性|不吸毒) * P(不吸毒)]

= 99% * 0.5% / [99% * 0.5% + 1% * 99.5%]

= 0.3322

也就是說(shuō),盡管吸毒檢測(cè)的準(zhǔn)確率高達(dá) 99% ,但貝葉斯定理告訴我們:如果某人檢測(cè)呈陽(yáng)性,其吸毒的概率只有大約 33% ,不吸毒的可能性比較大。

不過(guò)也要注意,檢測(cè)的準(zhǔn)確率高低,十分影響結(jié)果的概率,如果檢測(cè)精度達(dá)到 99.9% ,那么檢測(cè)呈陽(yáng)性的雇員吸毒的概率就上升到了 83.39% 。

垃圾郵件的過(guò)濾

這是 Paul Graham《黑客與畫家》 中提到的辦法。這個(gè)問(wèn)題其實(shí)可以倒推,我們要求解的是這個(gè)概率: P(垃圾郵件|檢測(cè)到某種特征) 。

這個(gè)某種特征可以是 關(guān)鍵詞,可以是 時(shí)間,可以是 頻次,可以是 郵件附件類型 ...包括以上各種特征 混合 的特征等等。

我們先用最簡(jiǎn)單的 關(guān)鍵詞 來(lái)做推測(cè),根據(jù)我個(gè)人的經(jīng)驗(yàn),一個(gè)中國(guó)式垃圾郵件很可能會(huì)包含兩個(gè)字:發(fā)票 。好,那么我們要求解的一封郵件是不是垃圾郵件的概率就變成 P(垃圾郵件|檢測(cè)到“發(fā)票”關(guān)鍵詞),根據(jù)貝葉斯定理

P(垃圾郵件|檢測(cè)到“發(fā)票”關(guān)鍵詞)

= P(檢測(cè)到“發(fā)票”關(guān)鍵詞|垃圾郵件) / P(檢測(cè)到“發(fā)票”關(guān)鍵詞)

好,這里遇到了一個(gè)問(wèn)題,我們?cè)趺粗览]件里出現(xiàn) 發(fā)票 關(guān)鍵詞的概率?

怎么知道在所有郵件里出現(xiàn) 發(fā)票 關(guān)鍵詞的概率?理論上,除非我們統(tǒng)計(jì)所有郵件,否則我們是得不出的。這時(shí)候,就得做個(gè)妥協(xié),在工程上做個(gè)近似,我們自己找到一定數(shù)量的真實(shí)郵件,并分為兩組,一組正常郵件,一組垃圾郵件,然后進(jìn)行計(jì)算,看 發(fā)票 這個(gè)詞,在垃圾郵件中出現(xiàn)的概率是多少,在正常郵件里出現(xiàn)的概率是多少。

顯然,這里的訓(xùn)練數(shù)量大一些的話,計(jì)算得到的概率會(huì)更逼近真實(shí)值。 Paul Graham 使用的郵件規(guī)模,是正常郵件和垃圾郵件各 4000封 。如果某個(gè)詞只出現(xiàn)在垃圾郵件中, Paul Graham 就假定,它在正常郵件的出現(xiàn)頻率是 1% ,反之亦然,這樣做是為了避免概率為 0 。隨著郵件數(shù)量的增加,計(jì)算結(jié)果會(huì)自動(dòng)調(diào)整。

這樣的話,將公式繼續(xù)分解為如下:

P(垃圾郵件|檢測(cè)到“發(fā)票”關(guān)鍵詞)

= P(檢測(cè)到“發(fā)票”關(guān)鍵詞|垃圾郵件) / P(檢測(cè)到“發(fā)票”關(guān)鍵詞)

= P(檢測(cè)到“發(fā)票”關(guān)鍵詞|垃圾郵件) / [P(檢測(cè)到“發(fā)票”關(guān)鍵詞∩垃圾郵件) + P(檢測(cè)到“發(fā)票”關(guān)鍵詞∩正常郵件)]

= P(檢測(cè)到“發(fā)票”關(guān)鍵詞|垃圾郵件) / [P(檢測(cè)到“發(fā)票”關(guān)鍵詞|垃圾郵件) / P(垃圾郵件) + P(檢測(cè)到“發(fā)票”關(guān)鍵詞|正常郵件) / P(正常郵件)]

就又可以根據(jù)訓(xùn)練模型得到的概率,進(jìn)行初始值計(jì)算了。此后,可以通過(guò)大量用戶將垃圾郵件標(biāo)注為正常郵件,正常郵件挪到垃圾郵件的動(dòng)作,進(jìn)行反復(fù)訓(xùn)練糾正,直至逼近一個(gè)合理值了。

不過(guò)這里還涉及到一個(gè)問(wèn)題,就是單個(gè)關(guān)鍵詞的概率(單個(gè)條件)無(wú)論如何再高,這封郵件仍然有可能不是垃圾郵件,所以在此處應(yīng)用貝葉斯定理時(shí),我們顯然要用到多個(gè)條件,也就是計(jì)算這個(gè)概率:

P(垃圾郵件|檢測(cè)到“A”關(guān)鍵詞,檢測(cè)到“B”關(guān)鍵詞,檢測(cè)到"C",...)

Paul Graham 的做法是,選出郵件中 P(垃圾郵件|檢測(cè)到“X”關(guān)鍵詞) 最高的 15個(gè)詞 ,計(jì)算它們的聯(lián)合概率。(如果關(guān)鍵詞是第一次出現(xiàn),Paul Graham 就假定這個(gè)值等于 0.4 ,也即認(rèn)為是negative normal)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容