Contents 1 關(guān)鍵詞 2 引言 3 代價(jià)函數(shù) 4 softmax回歸模型參數(shù)化的特點(diǎn) 5 權(quán)重衰減 6 softmax與logistics回歸的關(guān)系 1. 關(guān)鍵詞 Softmax回歸 Softmax Regression 有監(jiān)督學(xué)習(xí) supervised learning 無(wú)監(jiān)督學(xué)習(xí) unsupervised learning 深度學(xué)習(xí) deep learning logistic回歸 logistic regression 截距項(xiàng) intercept term 二元分類(lèi) binary classification 類(lèi)型標(biāo)記 class labels 估值函數(shù)/估計(jì)值 hypothesis 代價(jià)函數(shù) cost function 多元分類(lèi) multi-class classification 權(quán)重衰減 weight decay 2. 引言 本篇文章,我們介紹Softmax回歸模型,該模型是logistic回歸模型在多分類(lèi)問(wèn)題上的推廣,在多分類(lèi)問(wèn)題中,類(lèi)標(biāo)簽 y 可以取兩個(gè)以上的值。 Softmax回歸模型對(duì)于諸如MNIST(MNIST 是一個(gè)手寫(xiě)數(shù)字識(shí)別庫(kù),由NYU 的Yann LeCun 等人維護(hù)。http://yann./exdb/mnist/)手寫(xiě)數(shù)字分類(lèi)等問(wèn)題是很有用的,該問(wèn)題的目的是辨識(shí)10個(gè)不同的單個(gè)數(shù)字。Softmax回歸是有監(jiān)督的,不郭在將來(lái)的文章中也會(huì)介紹它與深度學(xué)習(xí)/無(wú)監(jiān)督學(xué)習(xí)方法的結(jié)合。 首先回歸一下之前的logistics回歸,在logistics回歸中,訓(xùn)練數(shù)據(jù)集由 m 個(gè)已標(biāo)記的樣本構(gòu)成,即:{(x[^1], y[^1]),(x[^2], y[^2]),...,(x[^m], y[^m])},其中輸入特征 x[^i]----->R[^(n+1)]。由于logistics針對(duì)的是二分類(lèi)問(wèn)題,因此標(biāo)簽y[^i]的取值只有{0, 1}。假設(shè)函數(shù)如下所示: 為了求取權(quán)值參數(shù),我們需要優(yōu)化如下的代價(jià)損失函數(shù): 在 softmax回歸中,我們解決的是多分類(lèi)問(wèn)題,類(lèi)標(biāo) y 可以取 k 個(gè)不同的值(而不是 2 個(gè))。因此,對(duì)于訓(xùn)練集{(x[^1], y[^1]),(x[^2], y[^2]),...,(x[^m], y[^m])},類(lèi)別標(biāo)簽y[^i]取值為{1,2,3,....,k} 。例如,在 MNIST 數(shù)字識(shí)別任務(wù)中,我們有 k=10 個(gè)不同的類(lèi)別。 對(duì)于給定的測(cè)試輸入 x ,我們想用假設(shè)函數(shù)針對(duì)每一個(gè)類(lèi)別 j 估算出概率值 p(y=j|x) 。也就是說(shuō),我們想估計(jì) 的每一種分類(lèi)結(jié)果出現(xiàn)的概率。因此,我們的假設(shè)函數(shù)將要輸出一個(gè) k 維的向量來(lái)表示這 k 個(gè)估計(jì)的概率值。 具體地說(shuō),我們的假設(shè)函數(shù)形式如下: 為了方便起見(jiàn),我們同樣使用符號(hào) θ 來(lái)表示全部的模型參數(shù)。在實(shí)現(xiàn)Softmax回歸時(shí),將 θ 用一個(gè) k *(n+1) 的矩陣來(lái)表示,該矩陣是將θ1, θ2,....,θk 按行排列,如下所示: 3. 代價(jià)函數(shù) 現(xiàn)在我們來(lái)看看softmax回歸算法(在下面的公式中:1{.}表示示性函數(shù))。定義代廣義價(jià)函數(shù)如下: logistics回歸代價(jià)函數(shù)為: 可以看到,Softmax 代價(jià)函數(shù)與 logistic 代價(jià)函數(shù)在形式上非常類(lèi)似,只是在Softmax損失函數(shù)中對(duì)類(lèi)標(biāo)記的 k 個(gè)可能值進(jìn)行了累加。在Softmax 回歸中將 x 分類(lèi)為類(lèi)別 j 的概率為: 對(duì)于 J(θ) 的最小化問(wèn)題,目前還沒(méi)有閉式解法。因此,我們使用迭代的優(yōu)化算法(例如梯度下降法,或 L-BFGS)。經(jīng)過(guò)求導(dǎo),我們得到梯度公式如下: 有了上面的偏導(dǎo)數(shù)公式以后,我們就可以將它代入到梯度下降法等算法中,來(lái)最小化 J(θ) 。 4. softmax回歸模型參數(shù)化的特點(diǎn) Softmax 回歸有一個(gè)不尋常的特點(diǎn):它有一個(gè)“冗余”的參數(shù)集。為了便于解釋?zhuān)僭O(shè)從參數(shù)向量θ[j] 中減去了向量 φ ,這時(shí),每一個(gè) θ[j] 都變成了 θ[j]- φ (j = 1,2,3....,k)。此時(shí)的假設(shè)函數(shù)如下所示: 換句話(huà)說(shuō),從 θ[j] 中減去 φ 完全不影響假設(shè)函數(shù)的預(yù)測(cè)結(jié)果!這表明前面的 softmax 回歸模型中存在冗余的參數(shù)。更正式一點(diǎn)來(lái)說(shuō), Softmax 模型被過(guò)度參數(shù)化了。對(duì)于任意一個(gè)用于擬合數(shù)據(jù)的假設(shè)函數(shù),可以求出多組參數(shù)值,這些參數(shù)得到的是完全相同的假設(shè)函數(shù) h[θ]。進(jìn)一步而言,如果參數(shù) (θ[1], θ[2],...,θ[k])是代價(jià)函數(shù) J(θ) 的極小值點(diǎn),那么(θ[1]-φ ,θ[2]-φ ,...,θ[k]-φ ) 同樣也是它的極小值點(diǎn),其中 φ 可以為任意向量(由于 J(θ) 仍然是一個(gè)凸函數(shù),因此梯度下降時(shí)不會(huì)遇到局部最優(yōu)解的問(wèn)題。但是 Hessian 矩陣是奇異的/不可逆的,這會(huì)直接導(dǎo)致采用牛頓法優(yōu)化就遇到數(shù)值計(jì)算的問(wèn)題)。 在實(shí)際應(yīng)用中,為了使算法實(shí)現(xiàn)更簡(jiǎn)單清楚,往往保留所有參數(shù) (θ[1], θ[2],...,θ[n]),而不任意地將某一參數(shù)設(shè)置為 0。但此時(shí)我們需要對(duì)代價(jià)函數(shù)做一個(gè)改動(dòng):加入權(quán)重衰減。權(quán)重衰減可以解決 softmax 回歸的參數(shù)冗余所帶來(lái)的數(shù)值問(wèn)題。 5. 權(quán)重衰減 通過(guò)添加一個(gè)權(quán)值衰減項(xiàng)來(lái)懲罰過(guò)大的參數(shù)值,其代價(jià)函數(shù)如下所示: 有了這個(gè)權(quán)重衰減項(xiàng)以后 ( λ>0 ),代價(jià)函數(shù)就變成了嚴(yán)格的凸函數(shù),這樣就可以保證得到唯一的解。 此時(shí)的 Hessian矩陣變?yōu)榭赡婢仃?,并且因?yàn)槭峭购瘮?shù),梯度下降法和 LBFGS等算法可以保證收斂到全局最優(yōu)解。為了使用優(yōu)化算法,我們需要求得這個(gè)新函數(shù) J(θ) 的導(dǎo)數(shù),如下: 6. softmax回歸與logistics回歸的關(guān)系 當(dāng)類(lèi)別數(shù) k=2 時(shí),softmax 回歸退化為 logistic 回歸。這表明 softmax 回歸是 logistic回歸的一般形式。具體地說(shuō),當(dāng) k=2 時(shí),softmax 回歸的假設(shè)函數(shù)為: 利用softmax回歸參數(shù)冗余的特點(diǎn),我們令 θ[1] = φ ,并且從兩個(gè)參數(shù)向量中都減去向量 θ[1],得 到: 有了這個(gè)權(quán)重衰減項(xiàng)以后 ( λ>0 ),代價(jià)函數(shù)就變成了嚴(yán)格的凸函數(shù),這樣就可以保證得到唯一的解。 此時(shí)的 Hessian矩陣變?yōu)榭赡婢仃?,并且因?yàn)槭峭购瘮?shù),梯度下降法和 LBFGS等算法可以保證收斂到全局最優(yōu)解。為了使用優(yōu)化算法,我們需要求得這個(gè)新函數(shù) J(θ) 的導(dǎo)數(shù),如下: 參考文獻(xiàn):http://cs229. |
|
來(lái)自: cjcsu > 《學(xué)習(xí)教程》