為什么信息熵要定義成-segmma(p*log(p))

大牛解釋

  • 選用log的原因
    一條信息的可能性數(shù)量隨著位數(shù)的增加是指數(shù)的。如果用二進制bit表示,1bit有2個狀態(tài),2bit有4個狀態(tài),Nbit有2^N個可能狀態(tài)??赡苄缘臄?shù)量隨指數(shù)上升,指數(shù)那么變回線性的形式就是log咯~
  • log的底
    至于對數(shù)的底是e還是2無所謂,只是一個比例因子而已。
  • segmma
    一條信息是log,N條信息就是Nlog咯。
  • 負號
    最后,熵表示混亂度,考慮到符合物理意義理解的話,加上負號。

最后就是形如-segmma(p*log(p))

個人理解

信息熵代表編碼長度,編碼越長,信息量越大,信息熵也就越大。所以有這樣一個等式:
p=1/a^n
p表示取到某個值的概率,a表示存儲單元能夠存儲的數(shù)量,如果是bit那就是2,n表示編碼長度,可以用信息熵來理解,所以總的可能性應該是a^n,那取到單個值的概率就是p=1/a^n。反推信息熵的公式就是:
n=-loga(p)
信息量是可以疊加的,所以總的信息熵應該是所有信息之和,還是以所有存儲單元都是bit為例,且每個bit都是等概率分布,也就是說每個bit代表的信息量完全相同,那最終信息熵的公式應該為:
-segmma((1/a^n)*loga(p))也就是-segmma(p*log(p))
寫成第一種形式,只是想展示所謂的信息熵,就是表示在一段確定編碼長度的數(shù)據(jù)里面,所截取數(shù)據(jù)的長度,長度越長,信息量就越大。如果說計算機內(nèi)存是以bit來劃分,那一個word的信息熵就比一個byte的信息熵大。擴展一下,如果取到每個值的概率不相等,那就應該用第二種形式了,為了方便理解,個人稱呼p為瞬時概率,log(p)為瞬時信息量,積分求和之后就是總的信息量。如果第一次就看到第二種形式,那真是非常的不解。

以上的表述非常不嚴謹,不過能夠理解意思就行,發(fā)現(xiàn)問題的朋友也幫忙指點一下,thx~

參考資源

作者:清雨影
鏈接:https://www.zhihu.com/question/30828247/answer/61047733
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容