SoftMax回歸詳解

cjcsu 2017-02-09

展開(kāi)全文

Contents

1 關(guān)鍵詞

2 引言

3 代價(jià)函數(shù)

4 softmax回歸模型參數(shù)化的特點(diǎn)

5 權(quán)重衰減

6 softmax與logistics回歸的關(guān)系

1. 關(guān)鍵詞

Softmax回歸 Softmax Regression

有監(jiān)督學(xué)習(xí) supervised learning

無(wú)監(jiān)督學(xué)習(xí) unsupervised learning

深度學(xué)習(xí) deep learning

logistic回歸 logistic regression

截距項(xiàng) intercept term

二元分類(lèi) binary classification

類(lèi)型標(biāo)記 class labels

估值函數(shù)/估計(jì)值 hypothesis

代價(jià)函數(shù) cost function

多元分類(lèi) multi-class classification

權(quán)重衰減 weight decay

2. 引言

本篇文章，我們介紹Softmax回歸模型，該模型是logistic回歸模型在多分類(lèi)問(wèn)題上的推廣，在多分類(lèi)問(wèn)題中，類(lèi)標(biāo)簽 y 可以取兩個(gè)以上的值。 Softmax回歸模型對(duì)于諸如MNIST(MNIST 是一個(gè)手寫(xiě)數(shù)字識(shí)別庫(kù)，由NYU 的Yann LeCun 等人維護(hù)。http://yann./exdb/mnist/)手寫(xiě)數(shù)字分類(lèi)等問(wèn)題是很有用的，該問(wèn)題的目的是辨識(shí)10個(gè)不同的單個(gè)數(shù)字。Softmax回歸是有監(jiān)督的，不郭在將來(lái)的文章中也會(huì)介紹它與深度學(xué)習(xí)/無(wú)監(jiān)督學(xué)習(xí)方法的結(jié)合。

首先回歸一下之前的logistics回歸，在logistics回歸中，訓(xùn)練數(shù)據(jù)集由 m 個(gè)已標(biāo)記的樣本構(gòu)成，即：{（x[^1], y[^1]）,（x[^2], y[^2]）,...,（x[^m], y[^m]）}，其中輸入特征 x[^i]----->R[^(n+1)]。由于logistics針對(duì)的是二分類(lèi)問(wèn)題，因此標(biāo)簽y[^i]的取值只有{0， 1}。假設(shè)函數(shù)如下所示：

為了求取權(quán)值參數(shù)，我們需要優(yōu)化如下的代價(jià)損失函數(shù)：

在 softmax回歸中，我們解決的是多分類(lèi)問(wèn)題，類(lèi)標(biāo) y 可以取 k 個(gè)不同的值（而不是 2 個(gè)）。因此，對(duì)于訓(xùn)練集{（x[^1], y[^1]）,（x[^2], y[^2]）,...,（x[^m], y[^m]）}，類(lèi)別標(biāo)簽y[^i]取值為{1,2,3，....,k} 。例如，在 MNIST 數(shù)字識(shí)別任務(wù)中，我們有 k=10 個(gè)不同的類(lèi)別。

對(duì)于給定的測(cè)試輸入 x ，我們想用假設(shè)函數(shù)針對(duì)每一個(gè)類(lèi)別 j 估算出概率值 p(y=j|x) 。也就是說(shuō)，我們想估計(jì) 的每一種分類(lèi)結(jié)果出現(xiàn)的概率。因此，我們的假設(shè)函數(shù)將要輸出一個(gè) k 維的向量來(lái)表示這 k 個(gè)估計(jì)的概率值。具體地說(shuō)，我們的假設(shè)函數(shù)形式如下：

為了方便起見(jiàn)，我們同樣使用符號(hào) θ 來(lái)表示全部的模型參數(shù)。在實(shí)現(xiàn)Softmax回歸時(shí)，將 θ 用一個(gè) k *(n+1) 的矩陣來(lái)表示，該矩陣是將θ1, θ2,....,θk 按行排列，如下所示：

3. 代價(jià)函數(shù)

現(xiàn)在我們來(lái)看看softmax回歸算法(在下面的公式中：1{.}表示示性函數(shù))。定義代廣義價(jià)函數(shù)如下：

logistics回歸代價(jià)函數(shù)為：

可以看到，Softmax 代價(jià)函數(shù)與 logistic 代價(jià)函數(shù)在形式上非常類(lèi)似，只是在Softmax損失函數(shù)中對(duì)類(lèi)標(biāo)記的 k 個(gè)可能值進(jìn)行了累加。在Softmax 回歸中將 x 分類(lèi)為類(lèi)別 j 的概率為：

對(duì)于 J(θ) 的最小化問(wèn)題，目前還沒(méi)有閉式解法。因此，我們使用迭代的優(yōu)化算法（例如梯度下降法，或 L-BFGS）。經(jīng)過(guò)求導(dǎo)，我們得到梯度公式如下：

有了上面的偏導(dǎo)數(shù)公式以后，我們就可以將它代入到梯度下降法等算法中，來(lái)最小化 J(θ) 。

4. softmax回歸模型參數(shù)化的特點(diǎn)

Softmax 回歸有一個(gè)不尋常的特點(diǎn)：它有一個(gè)“冗余”的參數(shù)集。為了便于解釋?zhuān)僭O(shè)從參數(shù)向量θ[j] 中減去了向量 φ ，這時(shí)，每一個(gè) θ[j] 都變成了 θ[j]- φ (j = 1,2,3....,k)。此時(shí)的假設(shè)函數(shù)如下所示：

換句話(huà)說(shuō)，從 θ[j] 中減去 φ 完全不影響假設(shè)函數(shù)的預(yù)測(cè)結(jié)果！這表明前面的 softmax 回歸模型中存在冗余的參數(shù)。更正式一點(diǎn)來(lái)說(shuō)， Softmax 模型被過(guò)度參數(shù)化了。對(duì)于任意一個(gè)用于擬合數(shù)據(jù)的假設(shè)函數(shù)，可以求出多組參數(shù)值，這些參數(shù)得到的是完全相同的假設(shè)函數(shù) h[θ]。進(jìn)一步而言，如果參數(shù) (θ[1], θ[2],...,θ[k])是代價(jià)函數(shù) J(θ) 的極小值點(diǎn)，那么(θ[1]-φ ,θ[2]-φ ,...,θ[k]-φ ) 同樣也是它的極小值點(diǎn)，其中 φ 可以為任意向量(由于 J(θ) 仍然是一個(gè)凸函數(shù)，因此梯度下降時(shí)不會(huì)遇到局部最優(yōu)解的問(wèn)題。但是 Hessian 矩陣是奇異的/不可逆的，這會(huì)直接導(dǎo)致采用牛頓法優(yōu)化就遇到數(shù)值計(jì)算的問(wèn)題)。

在實(shí)際應(yīng)用中，為了使算法實(shí)現(xiàn)更簡(jiǎn)單清楚，往往保留所有參數(shù) (θ[1], θ[2],...,θ[n])，而不任意地將某一參數(shù)設(shè)置為 0。但此時(shí)我們需要對(duì)代價(jià)函數(shù)做一個(gè)改動(dòng)：加入權(quán)重衰減。權(quán)重衰減可以解決 softmax 回歸的參數(shù)冗余所帶來(lái)的數(shù)值問(wèn)題。

5. 權(quán)重衰減

通過(guò)添加一個(gè)權(quán)值衰減項(xiàng)來(lái)懲罰過(guò)大的參數(shù)值，其代價(jià)函數(shù)如下所示：

有了這個(gè)權(quán)重衰減項(xiàng)以后 ( λ>0 )，代價(jià)函數(shù)就變成了嚴(yán)格的凸函數(shù)，這樣就可以保證得到唯一的解。此時(shí)的 Hessian矩陣變?yōu)榭赡婢仃?，并且因?yàn)槭峭购瘮?shù)，梯度下降法和 LBFGS等算法可以保證收斂到全局最優(yōu)解。為了使用優(yōu)化算法，我們需要求得這個(gè)新函數(shù) J(θ) 的導(dǎo)數(shù)，如下：

6. softmax回歸與logistics回歸的關(guān)系

當(dāng)類(lèi)別數(shù) k=2 時(shí)，softmax 回歸退化為 logistic 回歸。這表明 softmax 回歸是 logistic回歸的一般形式。具體地說(shuō)，當(dāng) k=2 時(shí)，softmax 回歸的假設(shè)函數(shù)為：

利用softmax回歸參數(shù)冗余的特點(diǎn)，我們令 θ[1] = φ ，并且從兩個(gè)參數(shù)向量中都減去向量 θ[1]，得

到:

有了這個(gè)權(quán)重衰減項(xiàng)以后 ( λ>0 )，代價(jià)函數(shù)就變成了嚴(yán)格的凸函數(shù)，這樣就可以保證得到唯一的解。此時(shí)的 Hessian矩陣變?yōu)榭赡婢仃?，并且因?yàn)槭峭购瘮?shù)，梯度下降法和 LBFGS等算法可以保證收斂到全局最優(yōu)解。為了使用優(yōu)化算法，我們需要求得這個(gè)新函數(shù) J(θ) 的導(dǎo)數(shù)，如下：

參考文獻(xiàn)：http://cs229.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶(hù)發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

SoftMax回歸詳解