怡红院国产,aaaa女人视频在线,一本一道久久

Entropy

信息量：值域 $[0,+{\inf} ]$
$\mathbb I(x) = -log(p(x))$
發(fā)生概率越小，信息量越大。
不確定性越高，信息量越大。
信息熵：值域 $[0,+{\inf} ]$ ,更確切為： $[0,log(n)]$ ， $n$ 為類別數(shù)量：
$H(X) = -\sum_i p(x_i)log(p(x_i))$
Skewed Probability Distribution (unsurprising): Low entropy.
Balanced Probability Distribution (surprising): High entropy.
即衡量不確定性的大小
不確定性越高，數(shù)據(jù)越不純，越混亂，信息熵越大。（比如二分類中概率p=0.5，entropy最大）
確定性越高，數(shù)據(jù)純度越大，信息熵越小。（比如二分類中概率p=0.01，entropy很小）
在二分類中，信息熵值域 $[0,1]$ ，即 $- 0.5 *log_2 \frac 1 2 - 0.5 *log_2 \frac 1 2 = 1$
在N分類中，信息熵值域 $[0, - log_2 \frac 1 n]$ ，最大為所有類別概率相等時 $-n* \frac 1 n log_2 \frac 1 n= -log_2 \frac 1 n = log_2 n$ （最混亂）

GINI impurity

Gini impurity可以理解為熵模型的一階泰勒展開。所以也叫GINI不純度。越“純”即越確定，gini數(shù)值越小。這點與entropy是一致的。
$Gini(X) = \sum_i^k p(x_i)(1-p(x_i)) = 1 - \sum_i^k p(x_i)^2$
$H(X) = - \sum_i^k p(x_i) log(p(x_i))$ 對其中l(wèi)og的部分在 $x_0=1$ 處做一階段泰勒展開：
$log(x) = log(x_0) + log'(x_0) (x - x_0)$ 【一階展開】
帶入 $x_0=1$ 即可得到 $log(x) = x - 1$ 【帶入數(shù)據(jù)點】
得到 $Gini(X)=- \sum_i^k p(x_i) (p(x_i) - 1)$
$= \sum_i^k p(x_i)- \sum_i^k p(x_i)^2$
$= 1 - \sum_i^k p(x_i)^2$ 【概率sum to 1】

1、Gini在決策樹中的運用：
決策樹會選擇gini最小的劃分。（即劃分后節(jié)點得到最大的確定性【純度】）

Gini Index（Coefficient）

注意，gini 系數(shù)與gini 不純度是不一樣的概念。

1、Gini Index與AUC的關(guān)系：特定情況下Gini=2AUC-1
gini：measure how often a randomly chosen element from the set would be incorrectly labeled。
https://blog.csdn.net/u012735708/article/details/86002858
2、Gini Index與KS的關(guān)系：
https://blog.csdn.net/buptdavid/article/details/84308900

"單一"變量Entropy

研究單一變量。下述p，q等概率分布（密度函數(shù)），描述的都是對同一個變量 $x$ 的密度，譬如 $p(x_i),q(x_i)$ 對應(yīng)的是同一個 $x_i$ ，這里單一是帶引號的，因為多個變量編碼組成的變量，也可以算作“單一”變量，譬如32位整數(shù)可以當(dāng)作32個2維0，1變量編碼組成的“單一”變量。

交叉熵：值域 $[H(p),+{\inf} ]$
$H(p,q) = -\sum_i p(x_i)log(q(x_i))$
當(dāng)且僅當(dāng) $p=q$ 時最小，此時 $H(p,q) = H(p)$
衡量兩個事件不確定性的關(guān)聯(lián)性，完全一致時，取得最小值。
PS：
注意，實際在我們優(yōu)化模型的時候，理論最小交叉熵是0，如果特征可以直接編碼單條樣本，則data本身沒有不確定性，(?。?！其實，其交叉熵計算的維度是單條樣本，單條樣本上，用empirical distribution來表示 $p(x)$ ，真實的類別概率為1，另一個概率為0。！?。。?。而理論上界是全體概率作為估計的熵（如果模型logloss高于這個上界，說明還不如統(tǒng)計估計。譬如，如果正樣本率5%，那么統(tǒng)計值的交叉熵logloss為 $H(p,q) = -0.05*log(0.05) - 0.95*log(0.95) = 0.19$ ，這個loss值可以視作baseline）
KL散度， $D_{KL}$ ，相對熵：值域 $[0,+{\inf} ]$
$D_{KL}(p,q) = H(p,q) - H(p)$ （交叉熵 - 熵）
$= -\sum_i p(x_i)log(q(x_i)) + \sum_i p(x_i)log(p(x_i))$
$=\sum_i p(x_i)log(\frac {p(x_i)}{q(x_i)})$
當(dāng)且僅當(dāng) $p=q$ 時最小取得0，此時 $H(p,q) = H(p)$
注意：Dkl雖然非負，但是由于其不對稱性，嚴格意義無法作為距離指標。（距離指標需要滿足對稱，非負，三角不等式，例如cosine距離即非嚴格measure）
關(guān)于KL散度的值域，由Gibbs' inequality
證明如下：
https://en.wikipedia.org/wiki/Gibbs'_inequality

多變量 entropy，information gain

這里Y，X對應(yīng)的是不同的變量（事件），條件熵，聯(lián)合熵基本也對應(yīng)條件概率，聯(lián)合概率

條件熵：值域 $[0,H(Y)]$
已知X情況下，Y的熵的期望。
$H(Y|X) = \sum_i p(x_i)H(Y|X=x_i)$
$= - \sum_i p(x_i) \sum_j p(y_j| x_i) log(p(y_j|x_i))$
$= - \sum_i \sum_j p(y_j , x_i) log(p(y_j|x_i))$ 【雙重求和，外層 $i$ 確定時， $p(x_i)$ 為常數(shù)，可以直接移入內(nèi)層sum。然后貝葉斯即可】
即當(dāng)已知X的情況下，Y的不確定性為多少。如果X與Y無關(guān)，此時取得最大值 $H(Y|X) = H(Y)$ 。當(dāng)條件熵等于0時，意味著已知X就能確定Y，即不存在不確定性。

聯(lián)合熵：值域 $[0,H(X) + H(Y)]$
$H(X,Y) = H(X|Y) + H(Y) = H(Y|X) + H(X)$
$= -\sum_{i} \sum_{j} p(y_j , x_i) log(p(y_j, x_i))$
當(dāng)兩變量無關(guān)時，等于兩者各自熵的和。
信息增益：值域 $[0,H(Y)]$
$IG(Y,X) = H(Y) - H(Y|X)$ ，即：熵 - 條件熵
$= - \sum_j p(y_j) log(p(y_j)) + \sum_i \sum_j p(x_i,y_j)log(p(y_j|x_i))$
$= - \sum_i \sum_j p(x_i, y_j) log(p(y_j)) + \sum_i \sum_j p(x_i,y_j)log(p(y_j|x_i))$ 【加入sum，反邊緣化x變量】
$= \sum_i \sum_j p(x_i, y_j) log(\frac {p(y_j| x_i)}{p(y_j)})$ 【sum項合并】
$= \sum_i \sum_j p(x_i, y_j) log(\frac {p(y_j, x_i)}{p(y_j)p(x_i)})$ 【貝葉斯】
$=D_{KL}(p(x,y) ||p(x)p(y))$ 【反向還原為KL離散度】
即：信息增益可以解釋為x，y聯(lián)合分布（真實分布 $p(x,y)$ ）與假設(shè)x，y互相獨立 $p(x)p(y)$ 的情況下的KL散度: $D_{KL}(p(x,y) ||p(x)p(y))$
代表在某種條件下，信息熵的減少（混亂程度的減少）
往往前者原始熵是固定的，所以最大化信息增益時，即在最小化條件熵。
即，在條件X下劃分的數(shù)據(jù)Y，其熵最?。〝?shù)據(jù)純度大，譬如都是1或都是0）
所以當(dāng) $H(Y|X) = 0$ 時，取得最大值，即消除不確定性
互信息（數(shù)值上與information gain 相同）
$MI(X;Y) =H(X,Y) - H(Y|X) - H(X|Y)= H(Y) - H(Y|X) = H(X) - H(X|Y)$
在數(shù)值上與信息增益是相同的。只是說互信息中兩變量的地位是相同的。而信息增益邏輯上是知道后者以后，前者不確定性的減少。
信息增益率
$Ratio(Y,X) = \frac {H(Y) - H(Y|X)} {H(X)}$
ID3用信息增益，ID4.5用信息增益率。