PSPNet ——語義分割及場景分析

taotao_2016 2019-08-20

展開全文

通過使用金字塔池化模塊(Pyramid Pooling Module)，在整合基于不同區(qū)域的上下文后，PSPNet在效果上超過了FCN、DeepLab和DilatedNet等時(shí)下最佳的方法。

原標(biāo)題 | Review: PSPNet?—?Winner in ILSVRC 2016 (Semantic Segmentation / Scene Parsing)

作者 | Sik-Ho Tsang

翻譯 | had_in（電子科技大學(xué)）、FlyingMoonLF

編輯 | Pita

本次，由香港中文大學(xué)(CUHK)和商湯科技(SenseTime)提出的金字塔場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network, PSPNet)已經(jīng)過審閱。

語義分割的目標(biāo)僅僅是獲知已知對象的每個(gè)像素的類別標(biāo)簽。
場景解析是基于語義分割的，它的目標(biāo)是獲知圖像內(nèi)所有像素的類別標(biāo)簽。

場景解析

通過使用金字塔池化模塊(Pyramid Pooling Module)，在整合基于不同區(qū)域的上下文后，PSPNet在效果上超過了FCN、DeepLab和DilatedNet等時(shí)下最佳的方法。PSPNet最終：

獲得2016年ImageNet場景解析挑戰(zhàn)的冠軍
在PASCAL VOC 2012和Cityscapes數(shù)據(jù)集上取得當(dāng)時(shí)的最佳效果

工作已發(fā)表于2017年CVPR，被引量超過600次。(SH Tsang @ Medium )

本文提綱

1. 對全局信息的需要

2.金字塔池化模塊

3. 一些細(xì)節(jié)

4. 模型簡化研究

5. 與時(shí)下最佳方法的比較

1. 對全局信息的需要

關(guān)系錯(cuò)誤匹配：FCN基于外觀將黃色框內(nèi)的船預(yù)測為“汽車”。但根據(jù)常識(shí)，汽車很少會(huì)出現(xiàn)在河面上。
類別混淆：FCN將框內(nèi)的對象一部分預(yù)測為“摩天樓”，一部分預(yù)測為“建筑物”。這些結(jié)果應(yīng)當(dāng)被排除，這樣對象整體就會(huì)被分在“摩天樓”或“建筑物”其中一類中，而不會(huì)分屬于兩類。
細(xì)小對象的類別：枕頭與床單的外觀相似。忽略全局場景類別可能對導(dǎo)致解析“枕頭”一類失敗。

因此，我們需要圖像的一些全局特征。

2.金字塔池化模塊

特征提取后的金字塔池模塊（顏色在本圖中很重要?。?/span>

（a）和（b）

(a)為我們的一個(gè)輸入圖像。(b)采用擴(kuò)展網(wǎng)絡(luò)策略(DeepLab / DilatedNet)提取特征。在DeepLab后面加上擴(kuò)張卷積。特征map的大小是這里輸入圖像的1/8。

（C）.1

在（c）處，對每個(gè)特征map執(zhí)行子區(qū)域平均池化。

紅色：這是在每個(gè)特征map上執(zhí)行全局平均池的最粗略層次，用于生成單個(gè)bin輸出。
橙色：這是第二層，將特征map劃分為2×2個(gè)子區(qū)域，然后對每個(gè)子區(qū)域進(jìn)行平均池化。
藍(lán)色：這是第三層，將特征 map劃分為3×3個(gè)子區(qū)域，然后對每個(gè)子區(qū)域進(jìn)行平均池化。
綠色：這是將特征map劃分為6×6個(gè)子區(qū)域的最細(xì)層次，然后對每個(gè)子區(qū)域執(zhí)行池化。

(c).2. 1×1 卷積用于降維

然后對每個(gè)得到的特征map進(jìn)行1×1卷積，如果金字塔的層次大小為N，則將上下文表示減少到原始的1/N(黑色)。

在本例中，N=4，因?yàn)榭偣灿?個(gè)級(jí)別(紅色、橙色、藍(lán)色和綠色)。

如果輸入特征map的數(shù)量為2048，則輸出特征map為(1/4)×2048 = 512，即輸出特征map的數(shù)量為512。

(c).3. 雙線性插值用于上采樣

采用雙線性插值對每個(gè)低維特征map進(jìn)行上采樣，使其具有與原始特征map相同的大小(黑色)。

(c).4. 連接上下文聚合特征

所有不同級(jí)別的上采樣特征map都與原始特征map(黑色)連接在一起。這些特征映射融合為全局先驗(yàn)。這就是金字塔池模塊(c)的終止。

(d)

最后，通過卷積層生成最終預(yù)測的分割圖(d)。

子區(qū)域平均池的概念實(shí)際上與SPPNet中的空間金字塔池化非常相似。先采用1×1卷積然后串聯(lián)，與Xception或MobileNetV1使用的深度可分離卷積中的深度卷積非常相似，除了只是使用雙線性插值使所有特征map的大小相等。

3.一些訓(xùn)練細(xì)節(jié)

中間的輔助損失項(xiàng)

· 輔助損失項(xiàng)用于訓(xùn)練過程中。輔助損失項(xiàng)有0.4的權(quán)重，以用來平衡最終損失和輔助損失。在測試時(shí)，則會(huì)放棄輔助損失。這是一種針對深度網(wǎng)絡(luò)訓(xùn)練的深度監(jiān)督訓(xùn)練策略。這個(gè)想法類似于GoogLeNet / Inception-v1中的輔助分類器（https:///coinmonks/paper-review-of-googlenet-inception-v1-winner-of-ilsvlc-2014-image-classification-c2b3565a64e7）。

· “多元”學(xué)習(xí)代替了“單元”學(xué)習(xí)。

4. 模型簡化測試

ADE2K 數(shù)據(jù)集是ImageNet場景解析挑戰(zhàn)賽2016中的數(shù)據(jù)集。它是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集，包含多達(dá)150個(gè)類和1,038個(gè)圖像級(jí)標(biāo)簽。有20K/2K/3K圖像用于訓(xùn)練/驗(yàn)證/測試。

驗(yàn)證集用于模型簡化測試。

4.1. 最大值池化vs 平均池化，以及降維(DR)

不同算法在ADE2K驗(yàn)證集上的結(jié)果

ResNet50-Baseline: 基于ResNet50的擴(kuò)張F(tuán)CN。
‘B1’和‘B1236’: bin大小分別為{1×1}和{1×1,2×2,3×3,6×6}的池化特征map。
‘MAX’和‘AVE’: 最大池操作和平均池操作
‘DR’: 降維.

平均池始終有更好的結(jié)果。使用降維比不使用降維要好。

4.2 輔助損失

輔助損失項(xiàng)的不同權(quán)重在ADE2K驗(yàn)證集上的結(jié)果

α= 0.4得到最好的性能。因此,使用權(quán)重α= 0.4。

4.3. 不同網(wǎng)絡(luò)層數(shù)和不同尺度(MS)的測試

不同層數(shù)以及不同尺度的網(wǎng)絡(luò)在ADE2K驗(yàn)證集上的結(jié)果

如我們知道的一樣，更深的模型有更好的結(jié)果。多尺度測試有助于提高測試結(jié)果。

4.4. 數(shù)據(jù)增強(qiáng) (DA)以及與其他算法的對比

在ADE2K驗(yàn)證集上與最新的方法的比較結(jié)果(除最后一行外，所有方法都是單尺度的)。

ResNet269+DA+AL+PSP: 對于單一尺度的測試，所有的技巧結(jié)合在一起的話，這種算法比最先進(jìn)的方法有很大的優(yōu)勢。

ResNet269+DA+AL+PSP+MS: 同時(shí)進(jìn)行了多尺度測試，取得了較好的效果。

下面是一些例子:

ADE2K中的樣例

5. 與最先進(jìn)方法的比較

5.1. ADE2K - ImageNet場景解析挑戰(zhàn)賽2016

ADE2K測試集結(jié)果

PSPNet贏得了2016年ImageNet場景解析挑戰(zhàn)賽冠軍。

5.2. PASCAL VOC 2012

在使用數(shù)據(jù)增強(qiáng)的情況下，有10582/1449/1456張圖像用于訓(xùn)練/驗(yàn)證/測試。

PASCAL VOC 2012測試集結(jié)果

“+”表示模型經(jīng)過MS COCO數(shù)據(jù)預(yù)訓(xùn)練。

同樣，PSPNet優(yōu)于所有最先進(jìn)的方法，如FCN、DeconvNet、DeepLab和Dilation8。

下面是一些例子：

PASCAL VOC 2012樣例

5.3. Cityscapes

這個(gè)數(shù)據(jù)集包含了來自50個(gè)不同季節(jié)的城市的5000張高質(zhì)量的像素級(jí)精細(xì)注釋圖像。分別有2975/500/1525張圖像用于訓(xùn)練/驗(yàn)證/測試。它定義了包含材料和物品的19個(gè)類別。此外，我們亦為兩種設(shè)定提供了20000張粗略注釋的圖像作比較，即，只使用精細(xì)數(shù)據(jù)以及同時(shí)使用精細(xì)和粗略標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。兩者的訓(xùn)練都用“++”標(biāo)記。

Cityscapes測試集結(jié)果

采用精細(xì)標(biāo)注數(shù)據(jù)訓(xùn)練，或采用精細(xì)數(shù)據(jù)與粗略標(biāo)注數(shù)據(jù)同時(shí)訓(xùn)練，PSPNet都取得了較好的效果。

下面是一些例子：

Cityscapes樣例

作者還上傳了Cityscapes數(shù)據(jù)集的視頻，令人印象非常深刻：

另外兩個(gè)視頻例子：

https://www./watch?v=gdAVqJn_J2M

https://www./watch?v=HYghTzmbv6Q

采用金字塔池化模塊，獲得了圖像的全局信息，提升了結(jié)果。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： taotao_2016 > 《AI》

舉報(bào)/認(rèn)領(lǐng)