小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

SoftMax回歸詳解

 cjcsu 2017-02-09

Contents

1 關(guān)鍵詞

2 引言

3 代價(jià)函數(shù)

4 softmax回歸模型參數(shù)化的特點(diǎn)

5 權(quán)重衰減

6 softmax與logistics回歸的關(guān)系


1. 關(guān)鍵詞

Softmax回歸     Softmax Regression

有監(jiān)督學(xué)習(xí)       supervised learning

無(wú)監(jiān)督學(xué)習(xí)       unsupervised learning

深度學(xué)習(xí)          deep learning

logistic回歸      logistic regression

截距項(xiàng)             intercept term

二元分類(lèi)          binary classification

類(lèi)型標(biāo)記          class labels

估值函數(shù)/估計(jì)值 hypothesis

代價(jià)函數(shù)         cost function

多元分類(lèi)         multi-class classification

權(quán)重衰減         weight decay



2. 引言

本篇文章,我們介紹Softmax回歸模型,該模型是logistic回歸模型在多分類(lèi)問(wèn)題上的推廣,在多分類(lèi)問(wèn)題中,類(lèi)標(biāo)簽 y 可以取兩個(gè)以上的值。 Softmax回歸模型對(duì)于諸如MNIST(MNIST 是一個(gè)手寫(xiě)數(shù)字識(shí)別庫(kù),由NYU 的Yann LeCun 等人維護(hù)。http://yann./exdb/mnist/)手寫(xiě)數(shù)字分類(lèi)等問(wèn)題是很有用的,該問(wèn)題的目的是辨識(shí)10個(gè)不同的單個(gè)數(shù)字。Softmax回歸是有監(jiān)督的,不郭在將來(lái)的文章中也會(huì)介紹它與深度學(xué)習(xí)/無(wú)監(jiān)督學(xué)習(xí)方法的結(jié)合。

首先回歸一下之前的logistics回歸,在logistics回歸中,訓(xùn)練數(shù)據(jù)集由 m 個(gè)已標(biāo)記的樣本構(gòu)成,即:{(x[^1], y[^1]),(x[^2], y[^2]),...,(x[^m], y[^m])},其中輸入特征 x[^i]----->R[^(n+1)]。由于logistics針對(duì)的是二分類(lèi)問(wèn)題,因此標(biāo)簽y[^i]的取值只有{0, 1}。假設(shè)函數(shù)如下所示:

為了求取權(quán)值參數(shù),我們需要優(yōu)化如下的代價(jià)損失函數(shù):

在 softmax回歸中,我們解決的是多分類(lèi)問(wèn)題,類(lèi)標(biāo) y 可以取 k 個(gè)不同的值(而不是 2 個(gè))。因此,對(duì)于訓(xùn)練集{(x[^1], y[^1]),(x[^2], y[^2]),...,(x[^m], y[^m])},類(lèi)別標(biāo)簽y[^i]取值為{1,2,3,....,k} 。例如,在 MNIST 數(shù)字識(shí)別任務(wù)中,我們有 k=10 個(gè)不同的類(lèi)別。

對(duì)于給定的測(cè)試輸入 x ,我們想用假設(shè)函數(shù)針對(duì)每一個(gè)類(lèi)別 j 估算出概率值 p(y=j|x) 。也就是說(shuō),我們想估計(jì) 的每一種分類(lèi)結(jié)果出現(xiàn)的概率。因此,我們的假設(shè)函數(shù)將要輸出一個(gè) k 維的向量來(lái)表示這 k 個(gè)估計(jì)的概率值。 具體地說(shuō),我們的假設(shè)函數(shù)形式如下:

為了方便起見(jiàn),我們同樣使用符號(hào) θ 來(lái)表示全部的模型參數(shù)。在實(shí)現(xiàn)Softmax回歸時(shí),將 θ 用一個(gè) k *(n+1) 的矩陣來(lái)表示,該矩陣是將θ1, θ2,....,θk 按行排列,如下所示:


3. 代價(jià)函數(shù)

現(xiàn)在我們來(lái)看看softmax回歸算法(在下面的公式中:1{.}表示示性函數(shù))。定義代廣義價(jià)函數(shù)如下:

logistics回歸代價(jià)函數(shù)為:

可以看到,Softmax 代價(jià)函數(shù)與 logistic 代價(jià)函數(shù)在形式上非常類(lèi)似,只是在Softmax損失函數(shù)中對(duì)類(lèi)標(biāo)記的 k 個(gè)可能值進(jìn)行了累加。在Softmax 回歸中將  x 分類(lèi)為類(lèi)別 j 的概率為:

對(duì)于 J(θ) 的最小化問(wèn)題,目前還沒(méi)有閉式解法。因此,我們使用迭代的優(yōu)化算法(例如梯度下降法,或 L-BFGS)。經(jīng)過(guò)求導(dǎo),我們得到梯度公式如下:

有了上面的偏導(dǎo)數(shù)公式以后,我們就可以將它代入到梯度下降法等算法中,來(lái)最小化 J(θ) 。


4. softmax回歸模型參數(shù)化的特點(diǎn)

Softmax 回歸有一個(gè)不尋常的特點(diǎn):它有一個(gè)“冗余”的參數(shù)集。為了便于解釋?zhuān)僭O(shè)從參數(shù)向量θ[j] 中減去了向量 φ ,這時(shí),每一個(gè) θ[j] 都變成了 θ[j]- φ (j = 1,2,3....,k)。此時(shí)的假設(shè)函數(shù)如下所示:

換句話(huà)說(shuō),從 θ[j] 中減去 φ 完全不影響假設(shè)函數(shù)的預(yù)測(cè)結(jié)果!這表明前面的 softmax 回歸模型中存在冗余的參數(shù)。更正式一點(diǎn)來(lái)說(shuō), Softmax 模型被過(guò)度參數(shù)化了。對(duì)于任意一個(gè)用于擬合數(shù)據(jù)的假設(shè)函數(shù),可以求出多組參數(shù)值,這些參數(shù)得到的是完全相同的假設(shè)函數(shù) h[θ]。進(jìn)一步而言,如果參數(shù) (θ[1], θ[2],...,θ[k])是代價(jià)函數(shù) J(θ) 的極小值點(diǎn),那么(θ[1]-φ ,θ[2]-φ ,...,θ[k]-φ ) 同樣也是它的極小值點(diǎn),其中 φ 可以為任意向量(由于 J(θ) 仍然是一個(gè)凸函數(shù),因此梯度下降時(shí)不會(huì)遇到局部最優(yōu)解的問(wèn)題。但是 Hessian 矩陣是奇異的/不可逆的,這會(huì)直接導(dǎo)致采用牛頓法優(yōu)化就遇到數(shù)值計(jì)算的問(wèn)題)。

在實(shí)際應(yīng)用中,為了使算法實(shí)現(xiàn)更簡(jiǎn)單清楚,往往保留所有參數(shù) (θ[1], θ[2],...,θ[n]),而不任意地將某一參數(shù)設(shè)置為 0。但此時(shí)我們需要對(duì)代價(jià)函數(shù)做一個(gè)改動(dòng):加入權(quán)重衰減。權(quán)重衰減可以解決 softmax 回歸的參數(shù)冗余所帶來(lái)的數(shù)值問(wèn)題。


5. 權(quán)重衰減

通過(guò)添加一個(gè)權(quán)值衰減項(xiàng)來(lái)懲罰過(guò)大的參數(shù)值,其代價(jià)函數(shù)如下所示:

有了這個(gè)權(quán)重衰減項(xiàng)以后 ( λ>0 ),代價(jià)函數(shù)就變成了嚴(yán)格的凸函數(shù),這樣就可以保證得到唯一的解。 此時(shí)的 Hessian矩陣變?yōu)榭赡婢仃?,并且因?yàn)槭峭购瘮?shù),梯度下降法和 LBFGS等算法可以保證收斂到全局最優(yōu)解。為了使用優(yōu)化算法,我們需要求得這個(gè)新函數(shù) J(θ) 的導(dǎo)數(shù),如下:


6. softmax回歸與logistics回歸的關(guān)系

當(dāng)類(lèi)別數(shù) k=2 時(shí),softmax 回歸退化為 logistic 回歸。這表明 softmax 回歸是 logistic回歸的一般形式。具體地說(shuō),當(dāng) k=2 時(shí),softmax 回歸的假設(shè)函數(shù)為:

利用softmax回歸參數(shù)冗余的特點(diǎn),我們令 θ[1] = φ ,并且從兩個(gè)參數(shù)向量中都減去向量 θ[1],得

到:


有了這個(gè)權(quán)重衰減項(xiàng)以后 ( λ>0 ),代價(jià)函數(shù)就變成了嚴(yán)格的凸函數(shù),這樣就可以保證得到唯一的解。 此時(shí)的 Hessian矩陣變?yōu)榭赡婢仃?,并且因?yàn)槭峭购瘮?shù),梯度下降法和 LBFGS等算法可以保證收斂到全局最優(yōu)解。為了使用優(yōu)化算法,我們需要求得這個(gè)新函數(shù) J(θ) 的導(dǎo)數(shù),如下:

參考文獻(xiàn):http://cs229.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多