在這篇文章中,我將簡單解釋:信息論中的“信息”到底是什么? 信息論中的一個基本術(shù)語是熵。熵代表了一個系統(tǒng)的無序程度。在信息論中,熵告訴我們觀察到的事件x中包含的信息量。事件的概率為p(x)。 那么,我們所說的信息是什么意思呢?其實直觀地理解這個詞并不容易?!靶畔ⅰ钡臄?shù)量實際上都與存儲有關(guān)。信息以位為單位進行存儲。在信息論中,我們考慮有噪聲的通信通道,該通道用于將某些事件從一側(cè)傳遞到另一側(cè)。這些事件需要以某種方式進行編碼,更具體地說,它們需要被編碼成比特(正如計算機科學(xué)理論中所看到的那樣)。理想情況下,我們不希望使用太多的位來通過通信通道傳遞這些事件,因為位會消耗能量。我們希望將大部分比特花在罕見事件上,因為它們將通過通道發(fā)送的頻率降低,因此產(chǎn)生的成本也更少。 什么是罕見事件?是一個概率很小的p(x)。我們希望事件的信息更大,而事件的概率更低。我們將此函數(shù)稱為h(x),它應(yīng)返回事件x中包含的信息量,該信息量對于低概率而言較高,而對于高概率事件而言較低?,F(xiàn)在,讓我們看一下下面的h(x): 這似乎是正確的做法:概率越低,信息就越高。它具有另一個不錯的屬性:如果我們獲取兩個同時發(fā)生的獨立事件的信息,我們將得出以下信息: 這是從簡單的對數(shù)運算中得出的結(jié)論,因為在x和y是獨立的情況下,下面的結(jié)論是成立的: 這是h函數(shù)的一個不錯的特性,它意味著我們可以累加獨立事件的信息,但是這也意味著我們不能累加相關(guān)事件的信息。對數(shù)本身是機器學(xué)習(xí),數(shù)學(xué)和物理學(xué)中經(jīng)常出現(xiàn)的函數(shù)。它在計算上如此出色的原因在于,它使我們能夠?qū)⒊朔e寫為和,得出函數(shù)的良好界限等。 現(xiàn)在,如果我們想要度量隨機變量的信息,我們需要查看它的所有實現(xiàn)(事件)的預(yù)期信息。我們?nèi)(x)的期望,如果我們假設(shè)我們處理的是一個離散隨機變量,它看起來就像下面這樣: 而這正是熵的定義!讓我們假設(shè)p(x)是伯努利分布,這意味著可以發(fā)生兩個事件(x和y),根據(jù)它們各自的概率,我們可以寫出p(x)= 1-p(y),因為事件空間上的概率合計為1。在那種情況下,我們可以將熵繪制為p(x)的函數(shù),然后我們會注意到: 我們可以看到,當(dāng)p(x)取值為0.5 時,它是最大值。這意味著所有事件均具有同等概率,因此在伯努利分布中包含了相同數(shù)量的信息。反過來,假設(shè)說我們有另一個系統(tǒng),考慮兩個隨機變量X和Y及其各自的分布p和q。我們可以看看他們的互信息。這是機器學(xué)習(xí)中經(jīng)常使用的量,我們想要學(xué)習(xí)包含獨立因素的潛在表示(即,最小化獨立因素之間的互信息)。最終,它可以歸結(jié)為以下等式: 我們知道,在隨機變量x和y相互獨立的情況下,我們可以寫出聯(lián)合分布p(x,y)=p(x)p(y)。如果它們不是獨立的,我們必須遵循貝葉斯規(guī)則,p(x,y)=p(x)p(y|x)。如果獨立性成立,則對數(shù)比率為1,因此表達式等于0,互信息為0。這是有道理的,因為根據(jù)獨立性,我們知道一個事件的發(fā)生不會影響另一個事件的發(fā)生。在另一種情況下,我們會得到非零的互信息。 信息理論對于機器學(xué)習(xí)從業(yè)者來說是一個非常有用的概念,因為它使他們可以從信息理論的角度看待學(xué)習(xí)算法。 |
|
來自: taotao_2016 > 《物理》