Entropy
信息量:值域
發(fā)生概率越小,信息量越大。
不確定性越高,信息量越大。信息熵:值域
,更確切為:
,
為類別數(shù)量:
Skewed Probability Distribution (unsurprising): Low entropy.
Balanced Probability Distribution (surprising): High entropy.
即衡量不確定性的大小
不確定性越高,數(shù)據(jù)越不純,越混亂,信息熵越大。(比如二分類中概率p=0.5,entropy最大)
確定性越高,數(shù)據(jù)純度越大,信息熵越小。(比如二分類中概率p=0.01,entropy很小)
在二分類中,信息熵值域,即
在N分類中,信息熵值域,最大為所有類別概率相等時
(最混亂)
GINI impurity
Gini impurity可以理解為熵模型的一階泰勒展開。所以也叫GINI不純度。越“純”即越確定,gini數(shù)值越小。這點與entropy是一致的。
對其中l(wèi)og的部分在
處做一階段泰勒展開:
【一階展開】
帶入即可得到
【帶入數(shù)據(jù)點】
得到
【概率sum to 1】
- 1、Gini在決策樹中的運用:
決策樹會選擇gini最小的劃分。(即劃分后節(jié)點得到最大的確定性【純度】)
Gini Index(Coefficient)
注意,gini 系數(shù)與gini 不純度是不一樣的概念。
1、Gini Index與AUC的關(guān)系:特定情況下Gini=2AUC-1
gini:measure how often a randomly chosen element from the set would be incorrectly labeled。
https://blog.csdn.net/u012735708/article/details/860028582、Gini Index與KS的關(guān)系:
https://blog.csdn.net/buptdavid/article/details/84308900
"單一"變量Entropy
研究單一變量。下述p,q等概率分布(密度函數(shù)),描述的都是對同一個變量 的密度,譬如
對應(yīng)的是同一個
,這里單一是帶引號的,因為多個變量編碼組成的變量,也可以算作“單一”變量,譬如32位整數(shù)可以當(dāng)作32個2維0,1變量編碼組成的“單一”變量。
交叉熵:值域
當(dāng)且僅當(dāng)時最小,此時
衡量兩個事件不確定性的關(guān)聯(lián)性,完全一致時,取得最小值。
PS:
注意,實際在我們優(yōu)化模型的時候,理論最小交叉熵是0,如果特征可以直接編碼單條樣本,則data本身沒有不確定性,(?。?!其實,其交叉熵計算的維度是單條樣本,單條樣本上,用empirical distribution來表示,真實的類別概率為1,另一個概率為0。!?。。?。而理論上界是全體概率作為估計的熵(如果模型logloss高于這個上界,說明還不如統(tǒng)計估計。譬如,如果正樣本率5%,那么統(tǒng)計值的交叉熵logloss為
,這個loss值可以視作baseline)
KL散度,
,相對熵:值域
(交叉熵 - 熵)
當(dāng)且僅當(dāng)時最小取得0,此時
注意:Dkl雖然非負,但是由于其不對稱性,嚴格意義無法作為距離指標。(距離指標需要滿足對稱,非負,三角不等式,例如cosine距離即非嚴格measure)關(guān)于KL散度的值域,由Gibbs' inequality
證明如下:
https://en.wikipedia.org/wiki/Gibbs'_inequality
多變量 entropy,information gain
這里Y,X對應(yīng)的是不同的變量(事件),條件熵,聯(lián)合熵基本也對應(yīng)條件概率,聯(lián)合概率
- 條件熵:值域
已知X情況下,Y的熵的期望。
【雙重求和,外層
確定時,
為常數(shù),可以直接移入內(nèi)層sum。然后貝葉斯即可】
即當(dāng)已知X的情況下,Y的不確定性為多少。如果X與Y無關(guān),此時取得最大值。當(dāng)條件熵等于0時,意味著已知X就能確定Y,即不存在不確定性。
聯(lián)合熵:值域
當(dāng)兩變量無關(guān)時,等于兩者各自熵的和。信息增益:值域
,即:熵 - 條件熵
【加入sum,反邊緣化x變量】
【sum項合并】
【貝葉斯】
【反向還原為KL離散度】
即:信息增益可以解釋為x,y聯(lián)合分布(真實分布)與假設(shè)x,y互相獨立
的情況下的KL散度:
代表在某種條件下,信息熵的減少(混亂程度的減少)
往往前者原始熵是固定的,所以最大化信息增益時,即在最小化條件熵。
即,在條件X下劃分的數(shù)據(jù)Y,其熵最?。〝?shù)據(jù)純度大,譬如都是1或都是0)
所以當(dāng)時,取得最大值,即消除不確定性
互信息(數(shù)值上與information gain 相同)
在數(shù)值上與信息增益是相同的。只是說互信息中兩變量的地位是相同的。而信息增益邏輯上是知道后者以后,前者不確定性的減少。信息增益率
ID3用信息增益,ID4.5用信息增益率。
Jensen's inequality
Refer:
Entropy,Gini,
https://zhuanlan.zhihu.com/p/74930310
and mutual information
[https://en.wikipedia.org/wiki/Mutual_information#Relation_to_conditional_and_joint_entropy]
Taylor Expansion of Entropy
https://www.programmersought.com/article/85613955092/
互信息,圖示,類似概率
https://www.zhihu.com/question/39436574
DKL,Information Gain
https://blog.csdn.net/tiandiwoxin92/article/details/78244739