小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

干貨|通俗易懂講解Deep Learning 最優(yōu)化方法之AdaGrad

 小王8rweu66yyc 2021-05-14
1
 總括

首先我們來看一下AdaGrad算法

我們可以看出該優(yōu)化算法與普通的sgd算法差別就在于標(biāo)黃的哪部分,采取了累積平方梯度。

簡(jiǎn)單來講,設(shè)置全局學(xué)習(xí)率之后,每次通過,全局學(xué)習(xí)率逐參數(shù)的除以歷史梯度平方和的平方根,使得每個(gè)參數(shù)的學(xué)習(xí)率不同

2
 作用

那么它起到的作用是什么呢?

起到的效果是在參數(shù)空間更為平緩的方向,會(huì)取得更大的進(jìn)步(因?yàn)槠骄?,所以歷史梯度平方和較小,對(duì)應(yīng)學(xué)習(xí)下降的幅度較?。?,并且能夠使得陡峭的方向變得平緩,從而加快訓(xùn)練速度。

下面通過例子講解一下:

假設(shè)我們現(xiàn)在采用的優(yōu)化算法是最普通的梯度下降法mini-batch。它的移動(dòng)方向如下面藍(lán)色所示:

假設(shè)我們現(xiàn)在就只有兩個(gè)參數(shù)w,b,我們從圖中可以看到在b方向走的比較陡峭,這影響了優(yōu)化速度。

而我們采取AdaGrad算法之后,我們?cè)谒惴ㄖ惺褂昧死鄯e平方梯度r=:r + g.g。

從上圖可以看出在b方向上的梯度g要大于在w方向上的梯度。

那么在下次計(jì)算更新的時(shí)候,r是作為分母出現(xiàn)的,越大的反而更新越小,越小的值反而更新越大,那么后面的更新則會(huì)像下面綠色線更新一樣,明顯就會(huì)好于藍(lán)色更新曲線。

轉(zhuǎn)自:機(jī)器學(xué)習(xí)算法與自然語言處理

完整內(nèi)容請(qǐng)點(diǎn)擊“閱讀原文”

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多