1、自信息
??定義:由克勞德·香農(nóng)提出,是與概率空間中的單一事件或離散隨機變量的值相關(guān)的信息量的量度。用信息的單位表示,例如bit(以2為底)、nat(以e為底)或者hart(以10為底),使用哪個單位取決于在計算中使用的對數(shù)的底。(信息的編碼長度)
??假設(shè)一個隨機變量X取值為x的幾率為p(x),則它的自信息公式為:[圖片上傳失敗...(image-3c2241-1527671842491)]&space;=&space;log&space;(\frac{1}{P(x)}))
??特性:可加性
??
2、熵
??定義:在信息論中,熵(entropy)是接收的每條消息中包含的信息的平均量。
??假設(shè)隨機變量X值域為{x1, ..., xn},該隨機變量X的熵值定義如下:[圖片上傳失敗...(image-da1d21-1527671842491)]&space;=&space;\mathrm{E}[\mathrm{I}(X)]&space;=&space;\mathrm{E}[-\ln(\mathrm{P}(X))])
??其中,P為X的概率質(zhì)量函數(shù),E為期望函數(shù),I(X)為X的自信息。當取自有限的樣本時,熵的計算公式為:[圖片上傳失敗...(image-26338d-1527671842491)]=\sum&space;{{i}}{{\mathrm&space;{P}}(x{i}),{\mathrm&space;{I}}(x_{i})}=-\sum&space;{{i}}{{\mathrm&space;{P}}(x{i})\log&space;{\mathrm&space;{P}}(x{i})})
??熵的特性:連續(xù)性、對稱性、極值性和可加性
??
3、條件熵
??定義:描述了在已知第二個隨機變量X的值的前提下,隨機變量Y的信息熵還有多少。

??條件熵的鏈式法則:

??條件熵的貝葉斯規(guī)則:H(Y|X) = H(X|Y) - H(X) + H(Y)
??
4、互信息
??
5、聯(lián)合熵
??定義:是一集變量之間不確定性的衡量手段
??兩個變量X和Y的聯(lián)合信息熵公式為:[圖片上傳失敗...(image-1afda5-1527671842491)]=-\sum&space;{{x}}\sum&space;{{y}}P(x,y)\log&space;{2}[P(x,y)]!)
??對于兩個以上的變量X1,X2, ... , Xn,該式的一般形式為:[圖片上傳失敗...(image-527b62-1527671842491)]=-\sum&space;{{x_{1}}}...\sum&space;{{x{n}}}P(x_{1},...,x_{n})\log&space;{2}[P(x{1},...,x_{n})]!)
??特點:大于每個獨立的熵;少于獨立熵的和
??與條件熵的關(guān)系:[圖片上傳失敗...(image-fd5c0a-1527671842491)]=\mathrm{H}&space;(X,Y)-\mathrm{H}&space;(Y),)
??與互信息的關(guān)系:[圖片上傳失敗...(image-5003ba-1527671842491)]=\mathrm{H}&space;(X)+\mathrm{H}&space;(Y)-\mathrm{H}&space;(X,Y),)
??
6、相對熵(KL散度,KL距離,Kullback–Leibler divergence)
??定義:是兩個概率分布P和Q差別的非對稱性度量。是用來度量使用基于Q的編碼來編碼來自P的樣本平均所需的額外位元數(shù)(額外所需的編碼長度)。典型情況下,P表示數(shù)據(jù)的真實分布,Q表示數(shù)據(jù)的理論分布,模型分布或者P的近似分布。

??等價于:

??也可以寫成:

??即按概率P求P和Q的對數(shù)差的平均值P * (I(Q) - I(P)),其中P*I(Q)就是交叉熵。
??特點:非負、不對稱
??非負的證明:吉布斯不等式???
??
7、交叉熵:
??定義:基于相同時間測度的兩個概率分布P和Q的交叉熵是指,當基于一個“非自然”(相對于“真實分布”P而言)的概率分布Q進行編碼時,在時間集合中唯一標識一個事件所需要的平均比特數(shù)(使用非真實分布Q所指定的策略消除系統(tǒng)不確定性所需要付出的努力大?。?br>
??基于概率分布P和Q的交叉熵定義為:

??概率分布是離散時:

??概率分布是連續(xù)時:

??再解釋:交叉熵可以看做每個信息片段在錯誤分布Q下的期望編碼位長度,而信息實際分布為P。這就是期望Ep是基于P而不是Q的原因。
??交叉熵與KL散度的關(guān)系:交叉熵 = KL散度 + 熵,因為熵是不變的,所以交叉熵和KL散度在特定環(huán)境下是等價的(比如最優(yōu)化條件)。
??
8、代價函數(shù):交叉熵
??KL散度可以用來估計模型分布和訓練數(shù)據(jù)分布的差異,我們假設(shè)訓練數(shù)據(jù)分布和真實分布一致,則通過最小化KL散度可以使得模型分布于訓練分布盡可能近似,同時也與真實數(shù)據(jù)盡可能相似。訓練數(shù)據(jù)的分布是已知的,所以訓練數(shù)據(jù)的熵也是已知,那么最小化KL散度等價于最小化交叉熵,所以通過最小化交叉熵可以訓練模型。
9、樸素貝葉斯中的應(yīng)用
??
10、神經(jīng)網(wǎng)絡(luò)中的應(yīng)用
??