極市導讀 本文提出一種概念簡單且非常有效的注意力模塊。不同于現(xiàn)有的通道/空域注意力模塊,該模塊無需額外參數(shù)為特征圖推導出3D注意力權(quán)值。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿 code: https://github.com/ZjjConan/SimAM
Abstract本文提出一種概念簡單且非常有效的注意力模塊。不同于現(xiàn)有的通道/空域注意力模塊,該模塊無需額外參數(shù)為特征圖推導出3D注意力權(quán)值。具體來說,本文基于著名的神經(jīng)科學理論提出優(yōu)化能量函數(shù)以挖掘神經(jīng)元的重要性。本文進一步針對該能量函數(shù)推導出一種快速解析解并表明:該解析解僅需不超過10行代碼即可實現(xiàn)。該模塊的另一個優(yōu)勢在于:大部分操作均基于所定義的能量函數(shù)選擇,避免了過多的結(jié)構(gòu)調(diào)整。最后,本文在不同的任務上對所提注意力模塊的有效性、靈活性進行驗證。 本文主要貢獻包含以下幾點:
Method在正式介紹本文所提注意力模塊之前,我們先對現(xiàn)有代表性注意力模塊(比如SE、CBAM、GC)進行簡要總結(jié);然后,我們再引出本文所提完全不同架構(gòu)的注意力模塊。 Overview of Existing Attention Modules上圖a與b列出了現(xiàn)有兩種類型的注意力模塊:
以下圖為例,SE缺失了關(guān)于"grey_whale"的某些重要成分。我們認為3D注意力比1D和2D更佳,進而提出了上圖c的3D注意力模塊。 現(xiàn)有注意力模塊的另一個重要影響因素:權(quán)值生成方法。現(xiàn)有注意力往往采用額外的子網(wǎng)絡生成注意力權(quán)值,比如SE的GAP+FC+ReLU+FC+Sigmoid。更多注意力模塊的操作、參數(shù)量可參考下表。總而言之,現(xiàn)有注意力的結(jié)構(gòu)設計需要大量的工程性實驗。我們認為:注意力機制的實現(xiàn)應當通過神經(jīng)科學中的某些統(tǒng)一原則引導設計。 Our Attention Module已有研究BAM、CBAM分別將空域注意力與通道注意力進行并行或串行組合。然而,人腦的兩種注意力往往是協(xié)同工作,因此,我們提出了統(tǒng)一權(quán)值的注意力模塊。 為更好的實現(xiàn)注意力,我們需要評估每個神經(jīng)元的重要性。在神經(jīng)科學中,信息豐富的神經(jīng)元通常表現(xiàn)出與周圍神經(jīng)元不同的放電模式。而且,激活神經(jīng)元通常會抑制周圍神經(jīng)元,即空域抑制。換句話說,具有空域抑制效應的神經(jīng)元應當賦予更高的重要性。最簡單的尋找重要神經(jīng)元的方法:度量神經(jīng)元之間的線性可分性。因此,我們定義了如下能量函數(shù): 其中,。最小化上述公式等價于訓練同一通道內(nèi)神經(jīng)元t與其他神經(jīng)元之間的線性可分性。為簡單起見,我們采用二值標簽,并添加正則項,最終的能量函數(shù)定義如下: 理論上,每個通道有個能量函數(shù)。幸運的是,上述公式具有如下解析解: 其中,。因此,最小能量可以通過如下公式得到: 上述公式意味著:能量越低,神經(jīng)元t與周圍神經(jīng)元的區(qū)別越大,重要性越高。因此,神經(jīng)元的重要性可以通過得到。 到目前為止,我們推導了能量函數(shù)并挖掘了神經(jīng)元的重要性。按照注意力機制的定義,我們需要對特征進行增強處理: 下圖給出了SimAM的pytorch風格實現(xiàn)code。 Experiments上表給出了Cifar數(shù)據(jù)集上的性能對比,從中可以看到:
上表給出了ImageNet數(shù)據(jù)集上不同注意力機制的性能對比,從中可以看到:
上圖對比了不同的性能對比,從中可以看到:
上圖采用Grad-CAM對所提SimAM進行了可視化,可以看到:經(jīng)由SimAM提煉的特征可以更好的聚焦主體目標。 上表對比了COCO檢測、分割任務上的性能,可以看到:
本文亮點總結(jié) 如果覺得有用,就請分享到朋友圈吧! |
|