小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

機(jī)器學(xué)習(xí)中的目標(biāo)函數(shù)、損失函數(shù)、代價(jià)函數(shù)

 深柏淺覓探 2022-11-12 發(fā)布于江蘇

在監(jiān)督學(xué)習(xí)中,損失函數(shù)用來評(píng)估模型的預(yù)測(cè)值和真實(shí)值不一致的程度。簡(jiǎn)單理解損失函數(shù)、代價(jià)函數(shù)、目標(biāo)函數(shù)有這樣的聯(lián)系和區(qū)別。

文章圖片1

1.定義

損失函數(shù):一般是針對(duì)單個(gè)樣本,算的是一個(gè)樣本的誤差,參考如下計(jì)算公式,

文章圖片2

代價(jià)函數(shù):一般是針對(duì)整個(gè)訓(xùn)練集上,是所有樣本誤差的平均,也就是損失函數(shù)的平均,也被稱作 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化函數(shù),參考如下計(jì)算公式,

文章圖片3

目標(biāo)函數(shù):對(duì)于目標(biāo)函數(shù)來說在有約束條件下的最小化就是損失函數(shù)(loss function)

文章圖片4

+正則表達(dá)式

2.區(qū)別和聯(lián)系

舉個(gè)例子解釋一下:(圖片來自Andrew Ng Machine Learning公開課視頻)

文章圖片5

上面三個(gè)圖的函數(shù)依次為 f1(x) , f2(x) , f3(x) 。我們是想用這三個(gè)函數(shù)分別來擬合Price,Price的真實(shí)值記為Y 。我們給定 x ,這三個(gè)函數(shù)都會(huì)輸出一個(gè) f(X) ,這個(gè)輸出的 f(X) 與真實(shí)值 Y 可能是相同的,也可能是不同的,為了表示我們擬合的好壞,我們就用一個(gè)函數(shù)來度量擬合的程度,比如:

文章圖片6

,這個(gè)函數(shù)就稱為損失函數(shù)(loss function),或者叫代價(jià)函數(shù)(cost function)。損失函數(shù)越小,就代表模型擬合的越好

那是不是我們的目標(biāo)就只是讓loss function越小越好呢?還不是。這個(gè)時(shí)候還有一個(gè)概念叫風(fēng)險(xiǎn)函數(shù)(risk function),風(fēng)險(xiǎn)函數(shù)是損失函數(shù)的期望,這是由于我們輸入輸出的(X,Y) 遵循一個(gè)聯(lián)合分布,但是這個(gè)聯(lián)合分布是未知的,所以無法計(jì)算。但是我們是有歷史數(shù)據(jù)的,就是我們的訓(xùn)練集, f(X) 關(guān)于訓(xùn)練集的平均損失稱作經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk),即

文章圖片7

,所以我們的目標(biāo)就是最小化

文章圖片8

,稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。到這里完了嗎?還沒有。如果到這一步就完了的話,那我們看上面的圖,那肯定是最右面的f3(x) 的經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)最小了,因?yàn)樗鼘?duì)歷史的數(shù)據(jù)擬合的最好。但是我們從圖上來看f3(x) 肯定不是最好的,因?yàn)樗^度學(xué)習(xí)歷史數(shù)據(jù),導(dǎo)致它在真正預(yù)測(cè)時(shí)效果會(huì)很不好,這種情況稱為過擬合(over-fitting)。

為什么會(huì)造成這種結(jié)果?大白話說就是它的函數(shù)太復(fù)雜了,都有四次方了,這就引出了下面的概念,我們不僅要讓經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,還要讓結(jié)構(gòu)風(fēng)險(xiǎn)最小化。這個(gè)時(shí)候就定義了一個(gè)函數(shù) J(f) ,這個(gè)函數(shù)專門用來度量模型的復(fù)雜度,在機(jī)器學(xué)習(xí)中也叫正則化(regularization)。常用的有 L1 , L2 范數(shù)。到這一步我們就可以說我們最終的優(yōu)化函數(shù)是:

文章圖片9

,即最優(yōu)化經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn),而這個(gè)函數(shù)就被稱為目標(biāo)函數(shù)。

小結(jié):

結(jié)合上面的例子來分析,最左面的 f1(x) 結(jié)構(gòu)風(fēng)險(xiǎn)最?。P徒Y(jié)構(gòu)最簡(jiǎn)單),但是經(jīng)驗(yàn)風(fēng)險(xiǎn)最大(對(duì)歷史數(shù)據(jù)擬合的最差);最右面的 f3(x) 經(jīng)驗(yàn)風(fēng)險(xiǎn)最?。▽?duì)歷史數(shù)據(jù)擬合的最好),但是結(jié)構(gòu)風(fēng)險(xiǎn)最大(模型結(jié)構(gòu)最復(fù)雜);而 f2(x) 達(dá)到了二者的良好平衡,最適合用來預(yù)測(cè)未知數(shù)據(jù)集。

3.常見的損失函數(shù)

3.1 0-1損失函數(shù)

文章圖片10

一般在實(shí)際使用過程中,相等的條件過于嚴(yán)格,可適當(dāng)放寬條件

文章圖片11

3.2.絕對(duì)值損失函數(shù)

文章圖片12

3.3.平方損失函數(shù)

文章圖片13

3.4.對(duì)數(shù)損失函數(shù)

文章圖片14

p ij 表示模型或分類器預(yù)測(cè)輸入實(shí)例xi屬于j的概率。常見的邏輯回歸使用的就是對(duì)數(shù)損失函數(shù)。邏輯回歸假設(shè)樣本服從伯努利分布(0-1分布),求得滿足該分布的似然函數(shù),接著取對(duì)數(shù)求極值。邏輯回歸推導(dǎo)出的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化負(fù)的似然函數(shù),從損失函數(shù)的角度看,就是對(duì)數(shù)損失函數(shù),形式上等價(jià)于二分類的交叉熵?fù)p失函數(shù)。

3.5.Hinge損失函數(shù)

文章圖片15

統(tǒng)一的形式:在支撐向量機(jī)中的損失函數(shù)就是Hinge損失函數(shù)

文章圖片16

3.6.指數(shù)損失函數(shù)

文章圖片17

AdaBoost就是以指數(shù)損失函數(shù)為損失函數(shù)

4.常見的代價(jià)函數(shù)

4.1.二次代價(jià)函數(shù)

文章圖片18

使用梯度下降(Gradient descent)來調(diào)整權(quán)值參數(shù)的大小,權(quán)重ω \omegaω和偏置b bb的梯度:

文章圖片19

權(quán)重ω \omegaω和偏置b bb的梯度跟激活函數(shù)的梯度成正比,激活函數(shù)的梯度越大,權(quán)重和偏置的大小調(diào)整得越快,訓(xùn)練收斂得就越快。二次代價(jià)函數(shù)適合輸出神經(jīng)元是線性的情況。

4.2.交叉熵代價(jià)函數(shù)

文章圖片20

權(quán)重ω \omegaω和偏置b bb的梯度:

文章圖片21

當(dāng)誤差越大時(shí),梯度就越大,權(quán)重和偏置調(diào)整得越快,訓(xùn)練速度也就越快。交叉熵代價(jià)函數(shù)適合輸出神經(jīng)元是S型函數(shù)的情況。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多