小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

首次擺脫對(duì)梯度的依賴,CMU等開(kāi)源Score-CAM:基于置信分?jǐn)?shù)的視覺(jué)可解釋性

 極市平臺(tái) 2021-01-26

作者丨王浩帆
編輯丨極市平臺(tái)

極市導(dǎo)讀

 

本文介紹一篇被CVPRW2020接受的論文,主要關(guān)于一種基于置信分?jǐn)?shù)的視覺(jué)可解釋性方法。本文的亮點(diǎn)在于:在CAM系列方法的基礎(chǔ)上,首次提出了一種新的gradient-free的權(quán)重表達(dá)方式。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

論文:

Score-CAM:Score-Weighted Visual Explanations for Convolutional Neural Networks

官方代碼:https://github.com/haofanwang/Score-CAM

本文是由來(lái)自于卡內(nèi)基梅隆大學(xué)、德州農(nóng)工大學(xué)、武漢大學(xué)的研究人員共同提出的一種基于置信分?jǐn)?shù)的視覺(jué)可解釋性方法,目前論文被CVPRW 2020接收,代碼已開(kāi)源。

背景介紹

1.視覺(jué)可解釋性

神經(jīng)網(wǎng)絡(luò)可解釋性是指對(duì)于神經(jīng)網(wǎng)絡(luò)所做出的決策,進(jìn)行合理的解釋。這里解釋可以是從數(shù)學(xué)理論層面進(jìn)行的先驗(yàn)解釋,比如對(duì)于激活函數(shù)的差異分析、模型的泛化能力分析,也可以是對(duì)于網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的后驗(yàn)解釋,比如我們訓(xùn)練好的模型將一張圖片分類為"貓",我們希望知道網(wǎng)絡(luò)是通過(guò)什么因素或特征將它分類為"貓"這個(gè)類別的。本文關(guān)注的是后驗(yàn)解釋,即解釋已有模型的決策。而對(duì)于卷積神經(jīng)網(wǎng)絡(luò),目前最常見(jiàn)的是通過(guò)可視化的方式來(lái)解釋模型的決策(下文中可解釋性與可視化將不再區(qū)分)。

2.主流的視覺(jué)可解釋性方法

2.1 基于梯度的可解釋性

基于梯度的可視化是通過(guò)將目標(biāo)類別上的決策分?jǐn)?shù)往原始圖像上求取梯度得到,可視化結(jié)果如上圖(左)。梯度作為一種局部信息,反映了局部位置的擾動(dòng)對(duì)于決策分?jǐn)?shù)的影響。我們常見(jiàn)的Saliency Map [6], 即通過(guò)該種方式得到。除此之外,近幾年還出現(xiàn)多種基于梯度的改進(jìn)方法,其中Smooth Gradient [2] 與Integrated Gradient [3] 最為著名,它們分別分析了原始梯度可能存在的一些問(wèn)題,然后通過(guò)平滑和路徑積分的方式,得到了更為清晰的可視化結(jié)果。值得一提的是,Guided-Backpropagation目前在可解釋性方面存在較大爭(zhēng)議,它是通過(guò)對(duì)于回傳梯度進(jìn)行一定過(guò)濾,從而得到更為干凈和聚焦的可視化結(jié)果,但在Sanity Check [9] 中,作者發(fā)現(xiàn),該方法與模型參數(shù)無(wú)關(guān),即初始化模型參數(shù)后,仍然能得到相似結(jié)果。

2.2 基于掩碼的可解釋性

梯度信息反映了局部變化對(duì)于結(jié)果的影響,基于掩碼的可視化則采用一種全局的方式來(lái)定位圖像中對(duì)于決策更重要的區(qū)域。此類方法的做法符合人類直覺(jué),通過(guò)將圖像上部分的移除或者保留,來(lái)直接衡量該區(qū)域?qū)τ诰W(wǎng)絡(luò)決策分?jǐn)?shù)的影響。比如在一張"貓"的圖片中,背景信息的移除通常不會(huì)降低"貓"類別上的置信度,而一些關(guān)鍵區(qū)域,如"貓"的耳朵,在移除后則可能造成置信度的下降。但是這類方法存在一個(gè)明顯的劣勢(shì),即如何生成掩碼(mask)。目前主要有兩種思路,一種是通過(guò)采樣的方式(比如隨機(jī)采樣或蒙特卡洛采樣 [10])生成多個(gè)掩碼,然后來(lái)計(jì)算每一個(gè)掩碼區(qū)域的重要性,這種方式往往需要生成大量掩碼,計(jì)算量很大;第二種是通過(guò)優(yōu)化的方式來(lái)生成掩碼,初始化一個(gè)隨機(jī)掩碼,通過(guò)優(yōu)化損失函數(shù)來(lái)不斷更新掩碼,這種方法的缺點(diǎn)是需要在損失函數(shù)中增加額外的正則化項(xiàng),來(lái)使得生成的掩碼面積盡可能的小,同時(shí)還能盡可能多的影響決策分?jǐn)?shù),由于存在優(yōu)化過(guò)程,即使對(duì)于同一張圖,方法每一次生成的解釋都是不完全一致的。

2.3 基于類激活地圖的可解釋性

類激活地圖(CAM)是一種通過(guò)對(duì)中間層的特征圖進(jìn)行線性加權(quán)來(lái)定位圖像中判別性的位置。2015年提出的CAM [4] ,首先對(duì)最后一層卷積結(jié)果進(jìn)行全局池化得到一維的向量,向量再輸入其后的全連接層分類得到最終預(yù)測(cè)結(jié)果。但是初代的CAM對(duì)于模型結(jié)構(gòu)有特殊要求(全局池化層),并且需


要通過(guò)重新訓(xùn)練模型才能得到全連接層上對(duì)應(yīng)的權(quán)重,借此來(lái)表示每一張?zhí)卣鲌D的重要性。為了解決CAM的不便性,隨后的工作Grad-CAM [7] 以及Grad-CAM++ [8] 都采用了局部回傳的梯度信息來(lái)近似代表每一張激活圖或特征圖的線性權(quán)重,使得CAM可以應(yīng)用到大部分卷積神經(jīng)網(wǎng)絡(luò)中。目前Grad-CAM也是最常見(jiàn)的可視化方式之一。

研究動(dòng)機(jī)

作者在實(shí)驗(yàn)中發(fā)現(xiàn),基于梯度的CAM方法(Grad-CAM [7]、Grad-CAM++[8])生成的可視化結(jié)果在視覺(jué)上不夠干凈,即除了目標(biāo)物體被標(biāo)記以外,大量背景信息也被標(biāo)記。考慮到背景信息在訓(xùn)練過(guò)程中有可能作為上下文信息輔助模型決策(例如"草地"可能與"狗"存在一定相關(guān)性),為了驗(yàn)證背景區(qū)域的重要性,作者在原始圖像(隨機(jī)挑選的測(cè)試用例)中移除部分背景信息后發(fā)現(xiàn),對(duì)于多數(shù)樣本,在移除背景信息后,置信度不會(huì)有明顯變化,因此作者認(rèn)為,在Grad-CAM中被標(biāo)記的背景區(qū)域是錯(cuò)誤標(biāo)記。

而由于CAM的本質(zhì)是特征圖的線性加權(quán),作者在實(shí)驗(yàn)中進(jìn)一步發(fā)現(xiàn),這種現(xiàn)象來(lái)自于線性權(quán)重分布。作者通過(guò)對(duì)特征圖的可視化發(fā)現(xiàn),在Grad-CAM中獲得較高權(quán)重的特征圖,在網(wǎng)絡(luò)中的響應(yīng)很低,而部分權(quán)重較低的特征圖,則獲得到了很高的置信度。作者分析基于梯度的CAM中問(wèn)題,可能來(lái)源于梯度本身,即梯度的飽和性(類似于Sigmoid函數(shù),當(dāng)特征強(qiáng)度超過(guò)一定程度,其梯度可能會(huì)變?。约疤荻缺旧淼牟环€(wěn)定性(局部的梯度受噪聲影響很大),甚至是梯度消失的影響。

總之,為了擺脫梯度帶來(lái)的潛在影響,作者希望找到一種梯度以外的權(quán)重表示方式。

核心方法

本文提出的Score-CAM [1],沿用了CAM的主要思路(特征圖的線性加權(quán)),相比之前一系列CAM方法,主要的差別在于獲取線性權(quán)重的方式。初代CAM使用訓(xùn)練后全連接層上的模型權(quán)重,Grad-CAM和Grad-CAM++均采用對(duì)應(yīng)特征圖上的局部梯度(差別在于對(duì)于梯度的處理方式),而在Score-CAM中,它首次擺脫了對(duì)于梯度的依賴,使用模型對(duì)于特征圖的全局置信分?jǐn)?shù)來(lái)衡量線性權(quán)重。

作者在問(wèn)題提出了置信度提升(CIC)的概念,具體操作如下,

即通過(guò)將特征圖視為一種特殊的掩碼(無(wú)需采樣生成)上采樣后,與原始圖像點(diǎn)乘,使用模型對(duì)掩碼后的圖片的響應(yīng)于模型對(duì)于基圖片(baseline)的響應(yīng)差值,來(lái)代表特征圖的重要性。其中,作者在代碼中將baseline設(shè)置為全黑的圖片。

Score-CAM主要包含兩個(gè)階段(如上圖)。階段一中提取特征圖,這也是所以CAM系列方法中都存在的一步。階段二通過(guò)對(duì)于特征圖上采樣,然后將其作為掩碼信息,重新得到模型對(duì)于圖片在目標(biāo)類別上的響應(yīng)值。最后,通過(guò)將階段一中的特征圖,與階段二中得到的響應(yīng)值線性加權(quán)求和,得到最終可視化的結(jié)果。

可以看到Score-CAM相較于此前的方法,可視化的結(jié)果明顯更為聚焦,背景中的噪聲減少。除了可視化比較外,作者也在定量指標(biāo)上大幅超過(guò)其它方法,具體指標(biāo)定義請(qǐng)參見(jiàn)論文。

個(gè)人討論

神經(jīng)網(wǎng)絡(luò)的可解釋性本身目前還是一個(gè)具有爭(zhēng)議的方向,關(guān)于模型是否可以被解釋還有待商榷。目前關(guān)于可解釋性的研究處在百花齊放的階段,對(duì)于可解釋性的定義、評(píng)估都還沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。本文的亮點(diǎn)主要在于,在CAM系列方法的基礎(chǔ)上,首次提出了一種新的gradient-free的權(quán)重表達(dá)方式。值得一提的是,Ablation-CAM [5] 作為Score-CAM [1] 幾乎同期的工作,直接通過(guò)對(duì)特征圖的掩碼操作,也得到一種不依賴于梯度的表達(dá)方式。

論文鏈接:

https://openaccess./content_CVPRW_2020/papers/w1/Wang_Score-CAM_Score-Weighted_Visual_Explanations_for_Convolutional_Neural_Networks_CVPRW_2020_paper.pdf

開(kāi)源資源

Score-CAM官方代碼:https://github.com/haofanwang/Score-CAM

CAM系列方法開(kāi)源庫(kù)torch-cam:https://github.com/frgfm/torch-cam

常見(jiàn)可視化方法實(shí)現(xiàn):https://github.com/utkuozbulak/pytorch-cnn-visualizations

參考

[1] Wang, Haofan, et al. "Score-CAM: Score-weighted visual explanations for convolutional neural networks." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020.
[2] D. Smilkov, N. Thorat, B. Kim, F. Viegas, and M. Wattenberg. Smoothgrad: removing noise by adding noise. arXiv preprint arXiv:1706.03825, 2017.
[3] M. Sundararajan, A. Taly, and Q. Yan. Axiomatic attribution for deep networks. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 3319-- 3328. JMLR. org, 2017.
[4] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Learning deep features for discriminative localization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2921--2929, 2016.
[5] Ramaswamy, H. G. (2020). Ablation-CAM: Visual Explanations for Deep Convolutional Network via Gradient-free Localization. In The IEEE Winter Conference on Applications of Computer Vision (pp. 983-991).
[6] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In European conference on computer vision, pages 818--833. Springer, 2014.
[7] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra. Grad-cam: Visual explanations from deep networks via gradient-based localization. In Proceedings of the IEEE International Conference on Computer Vision, pages 618--626, 2017.
[8] A. Chattopadhay, A. Sarkar, P. Howlader, and V. N. Balasubramanian. Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks. In 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 839--847. IEEE, 2018.
[9] J. Adebayo, J. Gilmer, M. Muelly, I. Goodfellow, M. Hardt, and B. Kim. Sanity checks for saliency maps. In Advances in Neural Information Processing Systems, pages 9505--9515, 2018
[10] Petsiuk, Vitali, Abir Das, and Kate Saenko. "Rise: Randomized input sampling for explanation of black-box models." arXiv preprint arXiv:1806.07421 (2018).
作者檔案

作者:王浩帆
歡迎大家聯(lián)系極市小編(微信ID:fengcall19)加入極市原創(chuàng)作者行列

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多