網(wǎng)絡(luò)上,在遇到很有內(nèi)涵的內(nèi)容的時候,人們往往會說“這條微博信息量真大”。從古至今,人們一直在試圖找到一種衡量消息中“信息濃度”的方法。例如,我們很容易得出結(jié)論,對于一名 NBA 球迷來說“總冠軍是小牛隊”所蘊含的信息量比“總冠軍是一支西部球隊”大,但是要比較“本文作者是男生”和“本文作者是單身”這兩條信息所蘊含的內(nèi)容多少可就有點強人所難。在大多數(shù)語言中,“信息”一詞往往以不可數(shù)的形式出現(xiàn),這也從另一方面印證了這一問題的困難程度。
到了信息時代,對信號的處理與分析又需要一個適當(dāng)?shù)膶π畔⒘康暮饬繕?biāo)準(zhǔn),所以數(shù)學(xué)家們也被這一問題困擾著。直到1948年,這個問題被香農(nóng)在論文《通信的數(shù)學(xué)理論》中首次解決,這才讓數(shù)學(xué)家們松了一口氣。
香農(nóng)公理和信息熵
信息就是使我們了解到的事物未知的性質(zhì),如果換成物理學(xué)家慣用的說法就是信息是對事件進行觀測的結(jié)果。對于未知的事物,我們的觀測存在著很多種可能的結(jié)果,而得到這些結(jié)果的可能性是不同的。換句話說,信息的作用就體現(xiàn)在使得某事件發(fā)生的概率從之前的某個概率變?yōu)?。所以信息量是與概率有關(guān)的?;诖耍戕r(nóng)提出了他的第一條假設(shè):信息量是關(guān)于事件發(fā)生概率的函數(shù)。同時為了方便起見,香農(nóng)還規(guī)定這一函數(shù)連續(xù)。
除此之外,香農(nóng)還提出其他 3 條假設(shè),綜合起來就是有名香農(nóng)公理:
- 信息量是關(guān)于事件發(fā)生概率的連續(xù)函數(shù);
- 如果兩事件A與B,B是A的必要條件,那么獲知事件A要發(fā)生所對應(yīng)的信息所含的信息量要大于或等于獲知事件B要發(fā)生所對應(yīng)的信息所含的信息量;
- 獲知獨立事件將同時發(fā)生的信息量應(yīng)為單獨獲知兩事件發(fā)生的信息量之和;
- 任何信息的信息量都是有界的。
基于公理1,我們定義獲知時間 A 發(fā)生這條信息的信息量為I(A)=f(p(A))。又由公理2,在這一情況下p(A)
我們先做代換取q=lnp,則:
那么:
而由于f(p)連續(xù),則g(q)也連續(xù),可以證明,在連續(xù)的條件下惟一的解是g(q)=cq,代入最初的方程有:
這就是信息量的數(shù)學(xué)定義,在使用中我們常取c=-log2e,則f(p)=-log2p,這就是著名的“比特”。當(dāng)然在某一次試驗之前我們并不能確知試驗的結(jié)果,那么這一試驗可能獲得的信息量的期望是:
由于這一公式的形式非常類似物理中“熵”的定義,香農(nóng)把這一平均信息量稱為“信息熵”。由函數(shù)的性質(zhì)可知,當(dāng)各種結(jié)果出現(xiàn)的概率均等時,此次試驗?zāi)塬@得的信息量的期望最大。
信息熵的應(yīng)用
信息熵的應(yīng)用很廣,即便是在智力題里也有體現(xiàn):有 100 個外表相同的球,已知其中有一個與其他球的質(zhì)量不同?,F(xiàn)要求用沒有砝碼的天平在最少次數(shù)中找出這個球,問怎樣的稱法才是最佳的?
我們把每次稱量都視為一次試驗,試驗結(jié)果有三種:天平偏向左邊、天平偏向右邊重或者相等,那么為獲得最大的信息量,我們應(yīng)該使三種情況出現(xiàn)的概率相等,即把小球平均分成 3 份進行稱量,也就是一般答案中給出的最佳稱量方法。使用信息論還可以計算出最少所需要的稱量次數(shù),因為100個小球中知道某球是假球且偏重或者偏輕這一信息所包含的信息量是 log 2 200,每次測量所能獲得的信息是 log 2 3,那么需要測量的最小次數(shù)就是 5 次。然而具體到每次測量,由于不能保證將球平均分為 3 份,并不一定能有 log 2 3 的信息熵,所以這個 5 次只是測量的下界,具體能否達到還要看實際的步驟。
也有學(xué)者把信息熵的理論應(yīng)用在語言學(xué)上,他們統(tǒng)計了不同語言中各字母的頻率,英語的平均信息熵是 4.03 比特,法語的平均信息熵是 3.98,西班牙語是 4.01 比特,德語的是 4.10 比特,俄文的是 4.8 比特,都略低于相應(yīng)字符集的最大信息熵。這也是很容易理解的,自然語言中存在許多詞首詞尾與固定搭配,不同字母的出現(xiàn)頻率是不同的。但是信息學(xué)家們并不滿意這個結(jié)果,因為在傳輸中更大的平均信息熵就意味著更高的效率,所以他們一直在試圖追尋能使信息熵更高的壓縮編碼方式,像我們常用的WinRAR等軟件就是他們工作的結(jié)果。當(dāng)然,這樣的“理想語言“在人類眼中看來是毫無文采、索然無趣的。我們使用的自然語言中正是由于那么一點多余的低效率,才造出了豐富多彩的效果。另外值得一提的是,中文的信息熵高達 9.65 比特,也許這也是漢語中各種文字游戲比較多的根源吧。有的家長會給孩子起個帶生僻字的名字,其實也在無形中稍微提高了漢語的效率呢。