首先說明啊:logistic分類器是以Bernoulli(伯努利) 分布為模型建模的,它可以用來分兩種類別;而softmax分類器以多項式分布(Multinomial Distribution)為模型建模的,它可以分多種互斥的類別。
補充:
什么是伯努利分布?伯努利分布[2] 是一種離散分布,有兩種可能的結果。1表示成功,出現的概率為p(其中0<p<1)。0表示失敗,出現的概率為q=1-p。
什么是二項分布?二項分布即重復多次的伯努利分布哦;
什么是多項式分布?即它把兩種狀態(tài)推廣到了多種狀態(tài),是二項分布的推廣;
Logistic 分類器
要解決什么樣的問題呢??假設有一訓練樣本集合X = {x1, x2, x3, ……},其中樣本 xi 由一系列的屬性表示即,xi = (a1, a2, a3,……),并且對于樣本集合X中的樣本要么屬于類別0, 要么屬于類別1.
現在呢,我們有一個測試樣本x, 我們根椐上面的知識來推斷: 樣本x 屬于類別0 還是類別1呢??
下面來解決這個問題哦:
1,首先引入參數θ=(θ1,θ2,θ3,……),對于樣本中的屬性進行加權,得到:θTx
2,引入logistic函數(sigmoid函數):g(z) = 1 / (1 + e-z), 該函數常作為神經網絡里的激活函數的;構建這么一個式子(待會就會明白它的含義):
logistic函數的圖像為:
我們發(fā)現呢,它總是介于0-1之間呢,所以呢,我們可以讓 hθ(x) 函數作為一種概率估計哦,如,我們可以讓它表示樣本 x 屬于類別1的概率,即 P(y = 1 | x; θ) = hθ(x) 。 其實一開始可能不那么容易理解,不過你這么想想,給定了樣本 x , 當θTx的值大于0時,則hθ(x)大于0.5,表示樣本為類別1的概率超過了50%,而如果當θTx的值小于0時,則hθ(x)大、小于0.5,表示樣本為類別1的概率不會超過50%,那么它屬于類別0的概率超過了50%了啊,所以呢,hθ(x) 函數作為樣本 x 屬于哪種類別的概率估計很好啊,關鍵問題就是根椐訓練樣本求出合適的參數θ。
3. 現在我們有: P(y = 1 | x; θ) = hθ(x) , 與 P(y = 0 | x; θ) = 1 - hθ(x), 那么呢,我們把它倆聯(lián)合起來, 得到:P(y | x; θ) = {hθ(x)}y{(1-hθ(x)}1-y.
4. 現在,我們有了 P(y | x; θ) ,它的含義就是在給定樣本 x 與參數 θ 時,標簽為y 的概率; 然后我們還有一個訓練樣本集合(已經每個樣本的標簽)?,F在我們假設每一個訓練樣本是獨立的,我們寫出它們聯(lián)合概率密度:
注意:上式中,對應的 y(i) 是已經知道的了哦。其實上式中未知的參數就是 θ 。
其實呢,我們寫的上面的公式就是似然函數啦,我們現在要把它最大化。(什么意思呢?這里就要看你對擬然函數的理解了。就是說,隨機事件已經發(fā)生了,即把每一個樣本對應的標簽作為隨機事件的話,我們已經知道了它們的具體標簽,我們就就認為已經發(fā)生的事件即是概率最大的事件,所以呢,公式中唯一確定的就是參數 θ 了,我們要需要選擇合適的參數θ 使似然函數最大化)
4,最大化似然函數,求出合適的參數θ。
把上面的式子變形為:
然后,我們利用梯度下降法來求參數 θ 。
過程大致是這樣的,先對參數θ的求導,即得到梯度,然后呢,再利用梯度下降法的更新原則來更新參數θ就可以了。
求的梯度(注意哦,參數θ=(θ1,θ2,θ3,……)):
更新法則:
5.現在我們已經得到了參θ了,我們就相當于得到了hθ(x) ,然后呢,我們就可以用它進行對測試樣本進行分類啦。
softmax分類器
它要解決的問題和上面的差不多,唯一的區(qū)別就是類別不局限于兩類,而是多類了。
要解決什么樣的問題呢??假設有一訓練樣本集合X = {x1, x2, x3, ……},其中樣本 xi 由一系列的屬性表示即,xi = (a1, a2, a3,……),并且對于樣本集合X中的樣本屬于類別C = {c1, c2, c3, ……}中的一種。
現在呢,我們有一個測試樣本x, 我們根椐上面的知識來推斷: 樣本x 屬于哪種類別呢?
現在開始:
首先說一下指數布族,我也沒有花太多的精力放上面哦。
一種形如如下公式的分布即為指數分布族:
第二提一下,一個廣義線性模型,其實很多時候,我們很多常見的各種分布都可以用廣義線性模型來概括。在一個分布為指數族分布時,我們如何來定義出一個廣義線性模型呢?作出三個假設:
1,在給定 x 與 參數θ時,y|x 服從以 η 為變量的指數族的分布:
2, 給定x 時,我們的目標是來預測 T(y)的值。不過在很多時候,T(y) = y;
3, 參數 η =θTx; (為什么呢? 它就是這么設計的,廣義線性模型哦)
下面正式推一下softmax回歸 (可以用它用分類器的哦)
上面已經說了,對于給定的測試樣本 x , 它的輸出 有k種可能 (即可以分為k類),我們分別φ1,φ2,φ3,φ4,……,然后呢,我們定義T(y)如下:
并且定義一個運算 I{真} = 1, I{假} = 0; 所以呢,有:
1,上面的(T(y))i = I{y = i} ,其中(T(y))i 表示T(y)的第i 個元素);
2,E[(T(y))i] = P(y = i) = φi.
下面為推導過程:假設以已經φ的情況,把 p(y; φ)寫出指數分布族的形式,如下 所示:
注意上面的η是K-1 維的哦,我們現在規(guī)定ηk = log(φk/φk) = 0。所以呢, ηi = log(φi / φk),其中i =1,2,……,k)
然后呢,
所以呢,推出:
上面我們假設的φi 已經知道了,其實我們不知道哦,現在我們就推出了怎么去求φi 了。上面的式子表示了怎么由ηi去求θi,這就是softmax函數。對于上式的 ηi = θiT x.(應用上面的第三個假設)。 還因為ηk =0,所以呢,我們又規(guī)定了θk = 0。(所以,這里一定注意,θk還是未知數哈,待會用得到這一點)。
其實到這里基本已經完了,因為我們所關心的φi 已經知道怎么去求了。
接下來呢,我們來預測T(y)的值哈(看假設的廣義線性模型中的第二點哦)
到這里就剩下最后一步了,求擬合參數 θ1,θ2,……,θk-1。 可能會問什么沒有θk呢,因為我們上面規(guī)定了θk=0. 追根到底是因為:φk =1-(φ1+φ2+ ……+φk-1).
如何求呢,我們寫出它的似然函數,然后就可以轉變?yōu)椋河锰葜飨陆祷蚺nD法等求最值的問題了。它的擬然函數為:
現在呢,我們把參數已經求出來了,可以解決我們的問題了,即給定了一個測試樣本,我們估計它屬于哪一類。方法是我們分別求出對應的φi, 哪個最大,它就屬于哪一類了。
注意:
最后針對這里我們推出的softmax函數中的公式為:
要說明一點,這里的未知數的個數為θ1,θ2,……,θk-1, 而 θk = 0,因為我們只需要求出φ1,φ2, ……,φk-1的值來,我們就能求出φk的值。
而在很多用于分類的神經網絡中,最后加的softmax的分類器,它是這樣:公式是相同的,但是呢,把θ1,θ2,……,θk-1,θk作為參數,這樣有一個什么問題呢,那就是過度參數化了(根本用不著這么多參數嘛),過度參數化會怎樣??? 假如我們對每一個參數θi 減去一個相同的數,變?yōu)棣萯-ψ,然后呢,
發(fā)現了,完全不影響假設函數的預測結果哦。
什么意思呢???
所以,在現實中,我們需要對代價函數做一個改動:加入權重衰減。權重衰減可以解決 softmax 回歸的參數冗余所帶來的數值問題。
.
|