通過使用金字塔池化模塊(Pyramid Pooling Module),在整合基于不同區(qū)域的上下文后,PSPNet在效果上超過了FCN、DeepLab和DilatedNet等時(shí)下最佳的方法。 原標(biāo)題 | Review: PSPNet?—?Winner in ILSVRC 2016 (Semantic Segmentation / Scene Parsing) 作者 | Sik-Ho Tsang 翻譯 | had_in(電子科技大學(xué))、FlyingMoonLF 編輯 | Pita 本次, 由香港中文大學(xué)(CUHK)和商湯科技(SenseTime)提出的金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network, PSPNet)已經(jīng)過審閱。場景解析
通過使用金字塔池化模塊(Pyramid Pooling Module),在整合基于不同區(qū)域的上下文后,PSPNet在效果上超過了FCN、DeepLab和DilatedNet等時(shí)下最佳的方法。PSPNet最終: 工作已發(fā)表于2017年CVPR,被引量超過600次。(SH Tsang @ Medium )
本文提綱1. 對全局信息的需要 2.金字塔池化模塊 3. 一些細(xì)節(jié) 4. 模型簡化研究 5. 與時(shí)下最佳方法的比較 1. 對全局信息的需要(c) 原有的未經(jīng)上下文整合的FCN,(d) 經(jīng)上下文整合的PSPNet
關(guān)系錯(cuò)誤匹配:FCN基于外觀將黃色框內(nèi)的船預(yù)測為“汽車”。但根據(jù)常識(shí),汽車很少會(huì)出現(xiàn)在河面上。 類別混淆:FCN將框內(nèi)的對象一部分預(yù)測為“摩天樓”,一部分預(yù)測為“建筑物”。這些結(jié)果應(yīng)當(dāng)被排除,這樣對象整體就會(huì)被分在“摩天樓”或“建筑物”其中一類中,而不會(huì)分屬于兩類。 細(xì)小對象的類別:枕頭與床單的外觀相似。忽略全局場景類別可能對導(dǎo)致解析“枕頭”一類失敗。
因此,我們需要圖像的一些全局特征。
2.金字塔池化模塊
特征提取后的金字塔池模塊(顏色在本圖中很重要?。?/span> (a)和(b) (a)為我們的一個(gè)輸入圖像。(b)采用擴(kuò)展網(wǎng)絡(luò)策略(DeepLab / DilatedNet)提取特征。在DeepLab后面加上擴(kuò)張卷積。特征map的大小是這里輸入圖像的1/8。 (C).1
在(c)處,對每個(gè)特征map執(zhí)行子區(qū)域平均池化。 紅色:這是在每個(gè)特征map上執(zhí)行全局平均池的最粗略層次,用于生成單個(gè)bin輸出。 橙色:這是第二層,將特征map劃分為2×2個(gè)子區(qū)域,然后對每個(gè)子區(qū)域進(jìn)行平均池化。 藍(lán)色:這是第三層,將特征 map劃分為3×3個(gè)子區(qū)域,然后對每個(gè)子區(qū)域進(jìn)行平均池化。 綠色:這是將特征map劃分為6×6個(gè)子區(qū)域的最細(xì)層次,然后對每個(gè)子區(qū)域執(zhí)行池化。
(c).2. 1×1 卷積用于降維然后對每個(gè)得到的特征map進(jìn)行1×1卷積,如果金字塔的層次大小為N,則將上下文表示減少到原始的1/N(黑色)。 在本例中,N=4,因?yàn)榭偣灿?個(gè)級(jí)別(紅色、橙色、藍(lán)色和綠色)。 如果輸入特征map的數(shù)量為2048,則輸出特征map為(1/4)×2048 = 512,即輸出特征map的數(shù)量為512。 (c).3. 雙線性插值用于上采樣采用雙線性插值對每個(gè)低維特征map進(jìn)行上采樣,使其具有與原始特征map相同的大小(黑色)。 所有不同級(jí)別的上采樣特征map都與原始特征map(黑色)連接在一起。這些特征映射融合為全局先驗(yàn)。這就是金字塔池模塊(c)的終止。 (d)最后,通過卷積層生成最終預(yù)測的分割圖(d)。 子區(qū)域平均池的概念實(shí)際上與SPPNet中的空間金字塔池化非常相似。先采用1×1卷積然后串聯(lián),與Xception或MobileNetV1使用的深度可分離卷積中的深度卷積非常相似,除了只是使用雙線性插值使所有特征map的大小相等。· 輔助損失項(xiàng)用于訓(xùn)練過程中。輔助損失項(xiàng)有0.4的權(quán)重,以用來平衡最終損失和輔助損失。在測試時(shí),則會(huì)放棄輔助損失。這是一種針對深度網(wǎng)絡(luò)訓(xùn)練的深度監(jiān)督訓(xùn)練策略。這個(gè)想法類似于GoogLeNet / Inception-v1中的輔助分類器(https:///coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-2014-image-classification-c2b3565a64e7)。 · “多元”學(xué)習(xí)代替了“單元”學(xué)習(xí)。 ADE2K 數(shù)據(jù)集是ImageNet場景解析挑戰(zhàn)賽2016中的數(shù)據(jù)集。它是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集,包含多達(dá)150個(gè)類和1,038個(gè)圖像級(jí)標(biāo)簽。有20K/2K/3K圖像用于訓(xùn)練/驗(yàn)證/測試。驗(yàn)證集用于模型簡化測試。 4.1. 最大值池化vs 平均池化,以及降維(DR) 不同算法在ADE2K驗(yàn)證集上的結(jié)果 ResNet50-Baseline: 基于ResNet50的擴(kuò)張F(tuán)CN。 ‘B1’和‘B1236’: bin大小分別為{1×1}和{1×1,2×2,3×3,6×6}的池化特征map。 ‘MAX’和‘AVE’: 最大池操作和平均池操作 ‘DR’: 降維. 平均池始終有更好的結(jié)果。使用降維比不使用降維要好。 輔助損失項(xiàng)的不同權(quán)重在ADE2K驗(yàn)證集上的結(jié)果α= 0.4得到最好的性能。因此,使用權(quán)重α= 0.4。 4.3. 不同網(wǎng)絡(luò)層數(shù)和不同尺度(MS)的測試 不同層數(shù)以及不同尺度的網(wǎng)絡(luò)在ADE2K驗(yàn)證集上的結(jié)果 如我們知道的一樣,更深的模型有更好的結(jié)果。多尺度測試有助于提高測試結(jié)果。4.4. 數(shù)據(jù)增強(qiáng) (DA)以及與其他算法的對比在ADE2K驗(yàn)證集上與最新的方法的比較結(jié)果(除最后一行外,所有方法都是單尺度的)。 ResNet269+DA+AL+PSP: 對于單一尺度的測試,所有的技巧結(jié)合在一起的話,這種算法比最先進(jìn)的方法有很大的優(yōu)勢。 ResNet269+DA+AL+PSP+MS: 同時(shí)進(jìn)行了多尺度測試,取得了較好的效果。
5. 與最先進(jìn)方法的比較 5.1. ADE2K - ImageNet場景解析挑戰(zhàn)賽2016PSPNet贏得了2016年ImageNet場景解析挑戰(zhàn)賽冠軍。5.2. PASCAL VOC 2012在使用數(shù)據(jù)增強(qiáng)的情況下,有10582/1449/1456張圖像用于訓(xùn)練/驗(yàn)證/測試。PASCAL VOC 2012測試集結(jié)果 “+”表示模型經(jīng)過MS COCO數(shù)據(jù)預(yù)訓(xùn)練。 同樣,PSPNet優(yōu)于所有最先進(jìn)的方法,如FCN、DeconvNet、DeepLab和Dilation8。 5.3. Cityscapes這個(gè)數(shù)據(jù)集包含了來自50個(gè)不同季節(jié)的城市的5000張高質(zhì)量的像素級(jí)精細(xì)注釋圖像。分別有2975/500/1525張圖像用于訓(xùn)練/驗(yàn)證/測試。它定義了包含材料和物品的19個(gè)類別。此外,我們亦為兩種設(shè)定提供了20000張粗略注釋的圖像作比較,即,只使用精細(xì)數(shù)據(jù)以及同時(shí)使用精細(xì)和粗略標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。兩者的訓(xùn)練都用“++”標(biāo)記。 采用精細(xì)標(biāo)注數(shù)據(jù)訓(xùn)練,或采用精細(xì)數(shù)據(jù)與粗略標(biāo)注數(shù)據(jù)同時(shí)訓(xùn)練,PSPNet都取得了較好的效果。 作者還上傳了Cityscapes數(shù)據(jù)集的視頻,令人印象非常深刻:https://www./watch?v=gdAVqJn_J2Mhttps://www./watch?v=HYghTzmbv6Q采用金字塔池化模塊,獲得了圖像的全局信息,提升了結(jié)果。
|