小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

ICML2021|超越SE、CBAM,中山大學開源SAM:無參Attention!

 極市平臺 2021-07-21

作者丨h(huán)appy
編輯丨極市平臺

極市導讀

 

本文提出一種概念簡單且非常有效的注意力模塊。不同于現(xiàn)有的通道/空域注意力模塊,該模塊無需額外參數(shù)為特征圖推導出3D注意力權(quán)值。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

標題&作者團隊

code: https://github.com/ZjjConan/SimAM

本文是中山大學在注意力機制方面的嘗試,從神經(jīng)科學理論出發(fā),構(gòu)建了一種能量函數(shù)挖掘神經(jīng)元重要性,并對此推導出了解析解以加速計算。通過ImageNet分類、COCO檢測與分割等任務驗證了所提SimAM的靈活性與有效性。值得一提的是,所提SimAM是一種無參數(shù)注意力模塊。

Abstract

本文提出一種概念簡單且非常有效的注意力模塊。不同于現(xiàn)有的通道/空域注意力模塊,該模塊無需額外參數(shù)為特征圖推導出3D注意力權(quán)值。具體來說,本文基于著名的神經(jīng)科學理論提出優(yōu)化能量函數(shù)以挖掘神經(jīng)元的重要性。本文進一步針對該能量函數(shù)推導出一種快速解析解并表明:該解析解僅需不超過10行代碼即可實現(xiàn)。該模塊的另一個優(yōu)勢在于:大部分操作均基于所定義的能量函數(shù)選擇,避免了過多的結(jié)構(gòu)調(diào)整。最后,本文在不同的任務上對所提注意力模塊的有效性、靈活性進行驗證。

本文主要貢獻包含以下幾點:

  • 受啟發(fā)于人腦注意力機制,本文提出一種3D注意力模塊并設計了一種能量函數(shù)用于計算注意力權(quán)值;
  • 本文推導出了能量函數(shù)的解析解加速了注意力權(quán)值的計算并得到了一種輕量型注意力模塊;
  • 將所提注意力嵌入到現(xiàn)有ConvNet中在不同任務上進行了靈活性與有效性的驗證。

Method

在正式介紹本文所提注意力模塊之前,我們先對現(xiàn)有代表性注意力模塊(比如SE、CBAM、GC)進行簡要總結(jié);然后,我們再引出本文所提完全不同架構(gòu)的注意力模塊。

Overview of Existing Attention Modules

上圖a與b列出了現(xiàn)有兩種類型的注意力模塊:

  • 通道注意力:1D注意力,它對不同通道區(qū)別對待,對所有位置同等對待;
  • 空域注意力:2D注意力,它對不同位置區(qū)別對待,對所有通道同等對待。

以下圖為例,SE缺失了關(guān)于"grey_whale"的某些重要成分。我們認為3D注意力比1D和2D更佳,進而提出了上圖c的3D注意力模塊。

現(xiàn)有注意力模塊的另一個重要影響因素:權(quán)值生成方法。現(xiàn)有注意力往往采用額外的子網(wǎng)絡生成注意力權(quán)值,比如SE的GAP+FC+ReLU+FC+Sigmoid。更多注意力模塊的操作、參數(shù)量可參考下表。總而言之,現(xiàn)有注意力的結(jié)構(gòu)設計需要大量的工程性實驗。我們認為:注意力機制的實現(xiàn)應當通過神經(jīng)科學中的某些統(tǒng)一原則引導設計

Our Attention Module

已有研究BAM、CBAM分別將空域注意力與通道注意力進行并行或串行組合。然而,人腦的兩種注意力往往是協(xié)同工作,因此,我們提出了統(tǒng)一權(quán)值的注意力模塊。

為更好的實現(xiàn)注意力,我們需要評估每個神經(jīng)元的重要性。在神經(jīng)科學中,信息豐富的神經(jīng)元通常表現(xiàn)出與周圍神經(jīng)元不同的放電模式。而且,激活神經(jīng)元通常會抑制周圍神經(jīng)元,即空域抑制。換句話說,具有空域抑制效應的神經(jīng)元應當賦予更高的重要性。最簡單的尋找重要神經(jīng)元的方法:度量神經(jīng)元之間的線性可分性。因此,我們定義了如下能量函數(shù):

其中,。最小化上述公式等價于訓練同一通道內(nèi)神經(jīng)元t與其他神經(jīng)元之間的線性可分性。為簡單起見,我們采用二值標簽,并添加正則項,最終的能量函數(shù)定義如下:

理論上,每個通道有個能量函數(shù)。幸運的是,上述公式具有如下解析解:

其中,。因此,最小能量可以通過如下公式得到:

上述公式意味著:能量越低,神經(jīng)元t與周圍神經(jīng)元的區(qū)別越大,重要性越高。因此,神經(jīng)元的重要性可以通過得到。

到目前為止,我們推導了能量函數(shù)并挖掘了神經(jīng)元的重要性。按照注意力機制的定義,我們需要對特征進行增強處理:

下圖給出了SimAM的pytorch風格實現(xiàn)code。

Experiments

image-20210721110733957

上表給出了Cifar數(shù)據(jù)集上的性能對比,從中可以看到:

  • 相比其他注意力機制,所提SimAM取得了最佳性能;
  • 在小網(wǎng)絡方面,PreResNet56在CIFAR10數(shù)據(jù)集上取得了最佳性能(92.47/69.13),顯著優(yōu)于其他注意力;
  • 在大網(wǎng)絡方面,所提SimAM同樣優(yōu)于SE與CBAM等注意力機制;
  • 上述實驗結(jié)果均表明:所提無參注意力SimAM是一種通用注意力機制,并不局限于特定網(wǎng)絡。

上表給出了ImageNet數(shù)據(jù)集上不同注意力機制的性能對比,從中可以看到:

  • 所有注意力模塊均可以提升基線模型的性能;
  • 所提SimAM在ResNet18與ResNet101基線上取得了最佳性能提升;
  • 對于ResNet34、ResNet50、ResNeXt50、MobileNetV2,所提SimAM仍可取得與其他注意力相當性能;
  • 值得一提的是,所提SimAM并不會引入額外的參數(shù);
  • 在推理速度方面,所提SimAM與SE、ECA相當,優(yōu)于CBAM、SRM。

上圖對比了不同的性能對比,從中可以看到:

  • 所提注意力機制對于超參非常魯棒;
  • 時取得了最佳的性能均衡。

上圖采用Grad-CAM對所提SimAM進行了可視化,可以看到:經(jīng)由SimAM提煉的特征可以更好的聚焦主體目標。

上表對比了COCO檢測、分割任務上的性能,可以看到:

  • SE與SimAM均可大幅提升基線模型的性能;
  • 對于檢測任務,兩種注意力模塊取得了非常相似的性能;
  • 對于實例分割任務,所提SimAM取得了稍優(yōu)性能。
  • 值得一提,SimAM不會引入額外參數(shù)量,而SE則會引入額外的參數(shù)量。比如,SE-ResNet50引入了2.5M參數(shù)量,SE-ResNet101引入了4.7M參數(shù)量。

本文亮點總結(jié)

1.現(xiàn)有注意力模塊的另一個重要影響因素:權(quán)值生成方法。現(xiàn)有注意力往往采用額外的子網(wǎng)絡生成注意力權(quán)值,比如SE的GAP+FC+ReLU+FC+Sigmoid。

2.在神經(jīng)科學中,信息豐富的神經(jīng)元通常表現(xiàn)出與周圍神經(jīng)元不同的放電模式。而且,激活神經(jīng)元通常會抑制周圍神經(jīng)元,即空域抑制。換句話說,具有空域抑制效應的神經(jīng)元應當賦予更高的重要性。最簡單的尋找重要神經(jīng)元的方法:度量神經(jīng)元之間的線性可分性。

如果覺得有用,就請分享到朋友圈吧!

△點擊卡片關(guān)注極市平臺,獲取最新CV干貨

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多