Logistic 分類器與 softmax分類器

Rainbow_Heaven 2018-04-04

展開全文

首先說明啊：logistic分類器是以Bernoulli（伯努利）分布為模型建模的，它可以用來分兩種類別；而softmax分類器以多項式分布（Multinomial Distribution）為模型建模的，它可以分多種互斥的類別。

補充：

什么是伯努利分布？伯努利分布^[2] 是一種離散分布,有兩種可能的結果。1表示成功，出現的概率為p(其中0<p<1)。0表示失敗，出現的概率為q=1-p。

什么是二項分布？二項分布即重復多次的伯努利分布哦；

什么是多項式分布？即它把兩種狀態(tài)推廣到了多種狀態(tài)，是二項分布的推廣；

Logistic 分類器

要解決什么樣的問題呢？?假設有一訓練樣本集合X ＝ {x1, x2, x3, ……}，其中樣本 xi 由一系列的屬性表示即，xi = (a1, a2, a3,……），并且對于樣本集合X中的樣本要么屬于類別0，要么屬于類別1.

現在呢，我們有一個測試樣本x, 我們根椐上面的知識來推斷：樣本x 屬于類別0 還是類別1呢？？

下面來解決這個問題哦：

1，首先引入參數θ＝（θ1，θ2，θ3，……），對于樣本中的屬性進行加權，得到：θ^Tx

2，引入logistic函數（sigmoid函數）:g(z) = 1 / (1 + e^-z), 該函數常作為神經網絡里的激活函數的；構建這么一個式子（待會就會明白它的含義）：

logistic函數的圖像為：

我們發(fā)現呢，它總是介于0－1之間呢，所以呢，我們可以讓 h_θ(x) 函數作為一種概率估計哦，如，我們可以讓它表示樣本 x 屬于類別1的概率，即 P(y = 1 | x; θ) = h_θ(x) 。其實一開始可能不那么容易理解，不過你這么想想，給定了樣本 x , 當θ^Tx的值大于0時，則h_θ(x)大于0.5，表示樣本為類別1的概率超過了50%，而如果當θ^Tx的值小于0時，則h_θ(x)大、小于0.5，表示樣本為類別1的概率不會超過50%，那么它屬于類別0的概率超過了50%了啊，所以呢，h_θ(x) 函數作為樣本 x 屬于哪種類別的概率估計很好啊，關鍵問題就是根椐訓練樣本求出合適的參數θ。

3. 現在我們有： P(y = 1 | x; θ) = h_θ(x) ，與 P(y = 0 | x; θ) = 1 － h_θ(x)，那么呢，我們把它倆聯(lián)合起來，得到：P(y | x; θ) = {h_θ(x)}^y{(1-h_θ(x)}^1-y.

4. 現在，我們有了 P(y | x; θ) ，它的含義就是在給定樣本 x 與參數 θ 時，標簽為y 的概率；然后我們還有一個訓練樣本集合（已經每個樣本的標簽）?，F在我們假設每一個訓練樣本是獨立的，我們寫出它們聯(lián)合概率密度：

注意：上式中，對應的 y⁽ⁱ⁾是已經知道的了哦。其實上式中未知的參數就是 θ 。

其實呢，我們寫的上面的公式就是似然函數啦，我們現在要把它最大化。（什么意思呢？這里就要看你對擬然函數的理解了。就是說，隨機事件已經發(fā)生了，即把每一個樣本對應的標簽作為隨機事件的話，我們已經知道了它們的具體標簽，我們就就認為已經發(fā)生的事件即是概率最大的事件，所以呢，公式中唯一確定的就是參數 θ 了，我們要需要選擇合適的參數θ 使似然函數最大化）

4，最大化似然函數，求出合適的參數θ。

把上面的式子變形為：

然后，我們利用梯度下降法來求參數 θ 。

過程大致是這樣的，先對參數θ的求導，即得到梯度，然后呢，再利用梯度下降法的更新原則來更新參數θ就可以了。

求的梯度（注意哦，參數θ＝（θ1，θ2，θ3，……））：

更新法則：

5.現在我們已經得到了參θ了，我們就相當于得到了h_θ(x) ，然后呢，我們就可以用它進行對測試樣本進行分類啦。

softmax分類器

它要解決的問題和上面的差不多，唯一的區(qū)別就是類別不局限于兩類，而是多類了。

要解決什么樣的問題呢？?假設有一訓練樣本集合X ＝ {x1, x2, x3, ……}，其中樣本 xi 由一系列的屬性表示即，xi = (a1, a2, a3,……），并且對于樣本集合X中的樣本屬于類別C ＝ {c1, c2, c3, ……}中的一種。

現在呢，我們有一個測試樣本x, 我們根椐上面的知識來推斷：樣本x 屬于哪種類別呢？

現在開始：

首先說一下指數布族，我也沒有花太多的精力放上面哦。

一種形如如下公式的分布即為指數分布族：

第二提一下，一個廣義線性模型，其實很多時候，我們很多常見的各種分布都可以用廣義線性模型來概括。在一個分布為指數族分布時，我們如何來定義出一個廣義線性模型呢？作出三個假設：

1，在給定 x 與參數θ時，y|x 服從以 η 為變量的指數族的分布：

2，給定x 時，我們的目標是來預測 T（y)的值。不過在很多時候，T（y) = y;

3，參數 η ＝θ^Tx; (為什么呢？它就是這么設計的，廣義線性模型哦）

下面正式推一下softmax回歸（可以用它用分類器的哦）

上面已經說了，對于給定的測試樣本 x , 它的輸出有k種可能（即可以分為k類），我們分別φ1，φ2，φ3，φ4，……，然后呢，我們定義T（y)如下：

并且定義一個運算 I{真} ＝ 1， I{假} ＝ 0; 所以呢，有：

1，上面的(T（y))_i = I{y = i} ，其中(T（y))_i 表示T（y)的第i 個元素）；

2，E[(T(y))i] = P(y = i) = φi.

下面為推導過程：假設以已經φ的情況，把 p(y; φ)寫出指數分布族的形式，如下所示：

注意上面的η是K－1 維的哦，我們現在規(guī)定ηk = log(φk/φk) = 0。所以呢， ηi = log（φi / φk),其中i =1,2,……,k)

然后呢，

所以呢，推出：

上面我們假設的φi 已經知道了，其實我們不知道哦，現在我們就推出了怎么去求φi 了。上面的式子表示了怎么由ηi去求θi，這就是softmax函數。對于上式的 ηi = θi^Tx.(應用上面的第三個假設）。還因為ηk ＝0，所以呢，我們又規(guī)定了θk = 0。（所以，這里一定注意，θk還是未知數哈，待會用得到這一點）。

其實到這里基本已經完了，因為我們所關心的φi 已經知道怎么去求了。

接下來呢，我們來預測T(y)的值哈（看假設的廣義線性模型中的第二點哦）

到這里就剩下最后一步了，求擬合參數 θ1,θ2,……，θk-1。可能會問什么沒有θk呢，因為我們上面規(guī)定了θk＝0. 追根到底是因為：φk =1-(φ1+φ2+ ……+φk-1).

如何求呢，我們寫出它的似然函數，然后就可以轉變?yōu)椋河锰葜飨陆祷蚺ｎD法等求最值的問題了。它的擬然函數為：

現在呢，我們把參數已經求出來了，可以解決我們的問題了，即給定了一個測試樣本，我們估計它屬于哪一類。方法是我們分別求出對應的φi, 哪個最大，它就屬于哪一類了。

注意：

最后針對這里我們推出的softmax函數中的公式為：

要說明一點，這里的未知數的個數為θ1,θ2,……，θk-1，而 θk ＝ 0，因為我們只需要求出φ1，φ2， ……，φk-1的值來，我們就能求出φk的值。

而在很多用于分類的神經網絡中，最后加的softmax的分類器，它是這樣：公式是相同的，但是呢，把θ1,θ2,……，θk-1，θk作為參數，這樣有一個什么問題呢，那就是過度參數化了（根本用不著這么多參數嘛），過度參數化會怎樣??？假如我們對每一個參數θi 減去一個相同的數，變?yōu)棣萯－ψ，然后呢，

發(fā)現了，完全不影響假設函數的預測結果哦。

什么意思呢？？？

所以，在現實中，我們需要對代價函數做一個改動：加入權重衰減。權重衰減可以解決 softmax 回歸的參數冗余所帶來的數值問題。