信息熵對某件事件的不確定性叫做熵,熵值單位為bit,計算公式為: 。它是統(tǒng)計平均意義下的不確定性,包括熵,條件熵,聯(lián)合熵。 例如對于一道選擇題A、B、C、D四個選項,后面的百分數(shù)為選該選項的概率,假設如下我們來分析熵值: A:25% B:25% C:25% D:25% 四種等可能,log4=2bit,可以理解為需要兩個比特位來表示ABCD分別為00、01、10、11;當然也可以理解為要選出任意一個選項,需要拋兩次硬幣來確定,先后順序為:正反、正正、反正,反反; A:100% B:0% C:0% D:0% log1=0,熵值為0,可以理解為無需拋硬幣就知道答案。 個人理解:熵越大,越不確定,我們越懵逼,但是蘊含的信息量也越大,我們可以更加求知進步探索文明;相反:熵越小,事件越確定,我們對事物更加可知甚至完全認識,所蘊含的信息量更小。舉個栗子,小明說明天太陽從東方升起,這句話熵幾乎為0,沒有攜帶什么信息量;但是被告知明天太陽從西方升起,這句話所含的信息量就非常大了,若真則顛覆世界,若假至少能說明小明是個神經(jīng)??! 如果是不等概率,如何計算熵值?公式如下: 其實這個公式只是的一般化,假如 p(x) 為等概率都為 1/N 那么推導一下就為: 熵一般有兩種解釋:(1)熵是不確定性的度量;(2)熵是信息的度量 具體參考:蘇劍林. (Dec. 01, 2015). 《“熵”不起:從熵、最大熵原理到最大熵模型(一) 》[Blog post]. Retrieved from https:///archives/3534 信息:能消除熵的數(shù)據(jù)叫做信息。例如對于一道選擇題A、B、C、D四個選項,后面的百分數(shù)為選該選項的概率,假設如下有人告訴說D選項是錯誤的。 A:25% B:25% C:25% D:25% 變?yōu)?nbsp; A:33% B:33% C:33% D:0% 即計算熵值為log3=1.58,很明顯通過被告知的信息使得熵值減少了0.42的熵,那也就說明這則信息提供了0.42的數(shù)據(jù)量。 噪音:不能消除信息熵的數(shù)據(jù)叫做噪音。例如被告知ABCD中有一個是正確答案。 之間的關系熵和信息數(shù)量相等,意義相反;信息用來消除熵(不確定性); 熵在等概率時達到最大。 概率是某件事情某個可能情況的確定性,而熵是某人對某件事到底是哪種情況的不確定性。 信息是相對的,相對于觀察者對該事物的了解程度而言。若會這道題ABCD,則別人提供的正確答案提供的信息量為0bit。若不會,則提供了2bit。 先講一個例子下面以一個例子進行說明,假設一個暗箱有3個紅球,2個黑球,5個白球,假設取到紅球的記為事件X,取到黑球記為事件Y,要求我們在箱子中無放回取出三個球; 在概率論中我們明白:表示取到一個紅球的概率(先驗概率),表示條件概率(后驗概率),在取到兩個黑球的條件下取到一個紅球的概率。類似于這個,后面會涉及到先驗和后驗兩個詞。 自信息未經(jīng)統(tǒng)計平均的不確定性,包括自信息量、條件自信息量、聯(lián)合自信息量;自信息的概念有點像熵,都是表示不確定性的一個量,自信息不是信息,互信息量才是信息,而是先驗不確定性,另外注意與熵的聯(lián)系與區(qū)別。 : 表示的先驗不確定性,也稱為的自信息量。公式為: ,即概率得倒數(shù)取對數(shù)。由此看出概率越大,自信息(不確定性)越小 。其實信息熵說到底就是自信息的期望?。?!如下圖告知了明天的天氣概率求自信息: 自信息即概率得倒數(shù)求對數(shù),分別為 1bit,2bit,3bit,3bit ; 一般以2為底數(shù),當然也可以以其他數(shù)為底數(shù),單位相應變化如下: 互信息互信息(Mutual Information)是度量兩個事件集合之間的相關性(mutual dependence); 上面我們談到自信息,即對某件事情的不確定性。表示取到i個紅球的不確定性,即取到i個紅球的自信息。也常常稱為先驗不確定性, 稱為后驗不確定性。結(jié)合以上例子基礎知識,接下來我們需要說明如何計算互信息量?;バ畔⑹菑囊患挛镏蝎@取關于另外一件事的信息量,單位也是bit。公式如下: 假設一個暗箱有3個紅球,2個黑球,5個白球,假設取到紅球的記為事件X,取到黑球記為事件Y,要求我們在箱子中無放回取出三個球; 那么X可取0、1、2、3,Y可取0、1、2,求可通過最上面第一個公式求和得出。 特性當互信息量為正則意味不確定性更小,互信息量為負不確定性更大。 例題(1):(2): |
|
來自: 喜子hizih14ckj > 《工作相關》