高分遙感影像城市建成區(qū)提取方法

風(fēng)聲之家 2021-05-25

展開(kāi)全文

以下文章來(lái)源于測(cè)繪學(xué)術(shù)資訊，作者國(guó)土資源遙感

摘要：城市建成區(qū)的提取對(duì)城市發(fā)展規(guī)劃有著重要的作用。為了找出能兼顧效率和識(shí)別準(zhǔn)確率的基于卷積神經(jīng)網(wǎng)絡(luò)的遙感影像城市建成區(qū)提取方法,從神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的原理出發(fā),對(duì)多種語(yǔ)義分割網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)進(jìn)行對(duì)比分析,并針對(duì)語(yǔ)義分割網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練及結(jié)果比較。實(shí)驗(yàn)結(jié)果表明,ShelfNet-50網(wǎng)絡(luò)能夠在訓(xùn)練速度最快的同時(shí)保證很高的識(shí)別準(zhǔn)確率,在訓(xùn)練時(shí)長(zhǎng)僅需14 h的同時(shí)達(dá)到了77%的前景分割精度,且ShelfNet-50網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果也與相應(yīng)的遙感影像數(shù)據(jù)高度吻合。實(shí)驗(yàn)說(shuō)明ShelfNet-50網(wǎng)絡(luò)可應(yīng)用于高分遙感影像的城市建成區(qū)提取研究。

基于語(yǔ)義分割網(wǎng)絡(luò)的高分遙感影像城市建成區(qū)提取方法研究與對(duì)比分析

作者：劉釗, 趙桐, 廖斐凡, 李帥, 李海洋

清華大學(xué)土木工程系交通工程與地球空間信息研究所,北京 100084

0 引言

近年來(lái),中國(guó)的城市化進(jìn)程突飛猛進(jìn),而現(xiàn)實(shí)城市發(fā)展進(jìn)程的指標(biāo)之一就是城市建成區(qū)。根據(jù)國(guó)家質(zhì)量技術(shù)監(jiān)督局和國(guó)家建設(shè)部共同發(fā)布的《城市規(guī)劃基本術(shù)語(yǔ)標(biāo)準(zhǔn)》,建成區(qū)定義為: 城市行政區(qū)內(nèi)實(shí)際已成片開(kāi)發(fā)建設(shè)、市政公用設(shè)施和公共設(shè)施基本具備的區(qū)域[1]。城市建成區(qū)是反映城市綜合經(jīng)濟(jì)實(shí)力和城市化水平的重要指標(biāo)。獲取歷年以來(lái)城市建成區(qū)數(shù)據(jù),對(duì)于城市的建設(shè)和管理企業(yè)的決策等具有重要的意義。

城市建成區(qū)的提取是近年來(lái)遙感應(yīng)用領(lǐng)域研究的熱點(diǎn)內(nèi)容。傳統(tǒng)的研究方法主要包括都市化指數(shù)(urban index, UI)[2]、歸一化建筑指數(shù)(normalized difference built-up index, NDBI)[3]、歸一化植被指數(shù)(normalized difference vegetation index, NDVI)[4]等方法。這些指數(shù)不僅可以單獨(dú)運(yùn)用,也可相互結(jié)合綜合運(yùn)用[5],能夠得到更好的效果。傳統(tǒng)方法由于是通過(guò)地物的光譜特征提取關(guān)鍵信息,經(jīng)常出現(xiàn)同譜異物或者同物異譜的現(xiàn)象,從而使該類方法很不穩(wěn)定,在識(shí)別地物時(shí)容易存在較大誤差。

機(jī)器學(xué)習(xí)方法中,隨機(jī)森林法[6]、支持向量機(jī)法[7]以及無(wú)監(jiān)督的聚類方法[8]同樣可以完成建成區(qū)的識(shí)別。Gong等[9]應(yīng)用哨兵2號(hào)影像采用隨機(jī)森林算法,在Google Earth Engine平臺(tái)上達(dá)到了72.6%的高精度。機(jī)器學(xué)習(xí)的算法優(yōu)點(diǎn)在于算法簡(jiǎn)單,運(yùn)行速度快。但算法簡(jiǎn)單帶來(lái)的缺陷就是層次太淺,無(wú)法處理復(fù)雜的分類問(wèn)題,以及面對(duì)大數(shù)據(jù)量的問(wèn)題時(shí),預(yù)測(cè)的精度會(huì)受到限制。所以,傳統(tǒng)機(jī)器學(xué)習(xí)算法并不是當(dāng)今熱點(diǎn)問(wèn)題的最優(yōu)解。

深度學(xué)習(xí)算法很好地解決了傳統(tǒng)機(jī)器學(xué)習(xí)算法中層次淺的問(wèn)題,成為了當(dāng)今的研究熱點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)[10]則是深度學(xué)習(xí)中應(yīng)用最廣泛的分支,目前已被大量用在城市建成區(qū)的識(shí)別之中?，F(xiàn)代意義上的卷積神經(jīng)網(wǎng)絡(luò)起源于2012年的AlexNet[11]網(wǎng)絡(luò),該網(wǎng)絡(luò)相比于以往的神經(jīng)網(wǎng)絡(luò)擁有更深的層次和新的激活函數(shù)ReLU,從而加快了訓(xùn)練速度。卷積神經(jīng)網(wǎng)絡(luò)在圖像分類上取得了高精度后,隨即被應(yīng)用到其他問(wèn)題,例如圖像語(yǔ)義分割以及圖像實(shí)例分割。其中圖像語(yǔ)義分割類似于圖像分類,不同點(diǎn)在于語(yǔ)義分割是針對(duì)每一個(gè)像素的分割問(wèn)題。

近幾年的研究和應(yīng)用中涌現(xiàn)出了很多優(yōu)秀的語(yǔ)義分割網(wǎng)絡(luò),每年圖像分割競(jìng)賽的語(yǔ)義分割網(wǎng)絡(luò)精度也在逐年提升。很多國(guó)內(nèi)外學(xué)者應(yīng)用語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行遙感影像建成區(qū)的識(shí)別,并取得了理想的結(jié)果。楊建宇等[12]運(yùn)用SegNet[13]語(yǔ)義分割網(wǎng)絡(luò)在WorldView影像上進(jìn)行霸州地區(qū)農(nóng)村用地的提取,并得到了很高的分類精度; 蘇健民等[14]將U-Net[15]語(yǔ)義分割網(wǎng)絡(luò)應(yīng)用在CCF衛(wèi)星影像數(shù)據(jù)集上,取得了90%的測(cè)試準(zhǔn)確率; Chen等[16]基于空洞卷積[17]的理論提出了Deeplab v3模型結(jié)構(gòu),將準(zhǔn)確率進(jìn)一步提升; 王俊強(qiáng)等[18]也利用Deeplab v3網(wǎng)絡(luò)對(duì)道路和建筑物進(jìn)行提取,得到了較高的分割精度。

在一個(gè)典型的語(yǔ)義分割網(wǎng)絡(luò)之中,每一個(gè)卷積層之間的連接關(guān)系會(huì)影響到最終訓(xùn)練的精度。殘差網(wǎng)絡(luò)(residual neural network,ResNet)[19]通過(guò)跳接的方式使網(wǎng)絡(luò)的訓(xùn)練精度更高,解決了傳統(tǒng)的AlexNet和VGGNet網(wǎng)絡(luò)最大的缺陷。本文以ResNet50以及ResNet101殘差網(wǎng)絡(luò)作為解碼器的基礎(chǔ),對(duì)Deeplab v3,金字塔場(chǎng)景解析網(wǎng)絡(luò)(pyramid scene parsing network,PSPNet)[20]和ShelfNet[21]3個(gè)以ResNet網(wǎng)絡(luò)為骨架的語(yǔ)義分割網(wǎng)絡(luò)的內(nèi)部網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行對(duì)比分析,并通過(guò)同一高分遙感影像城市建成區(qū)數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),比較得出提取城市建成區(qū)時(shí)最適用的語(yǔ)義分割網(wǎng)絡(luò)。

1 ResNet網(wǎng)絡(luò)原理分析

ResNet由He等提出[19]。該網(wǎng)絡(luò)在ILSVRC比賽中取得冠軍,分割效果非常理想。與早期的AlexNet和VGGNet[22]相比,能夠在保持更低參數(shù)量的同時(shí)得到更好的效果,并且解決了VGGNet及其他更早的卷積神經(jīng)網(wǎng)絡(luò)中的諸多缺陷。AlexNet網(wǎng)絡(luò)和VGGNet網(wǎng)絡(luò)僅僅是由上而下的編碼結(jié)構(gòu),此類結(jié)構(gòu)的層數(shù)通常會(huì)存在最大值,而超過(guò)最大值的網(wǎng)絡(luò)很容易出現(xiàn)過(guò)擬合的問(wèn)題,從而導(dǎo)致精度的降低。ResNet最大的創(chuàng)新點(diǎn)在于網(wǎng)絡(luò)內(nèi)部的殘差單元,其基本結(jié)構(gòu)如圖1所示。殘差單元保證了ResNet網(wǎng)絡(luò)可以達(dá)到很深的層次。圖中的x為殘差學(xué)習(xí)模塊的輸入層,F(x)為殘差學(xué)習(xí)網(wǎng)絡(luò)的映射。

圖1 ResNet基本結(jié)構(gòu)

傳統(tǒng)的AlexNet和VGGNet網(wǎng)絡(luò)最大的缺陷在于,當(dāng)網(wǎng)絡(luò)變得越來(lái)越深的時(shí)候,訓(xùn)練誤差曲線會(huì)趨于平緩,準(zhǔn)確率不再上升,VGGNet達(dá)到19層后甚至?xí)?dǎo)致分類性能的下降。ResNet很好地解決了這類問(wèn)題: 它不再用堆疊的卷積層直接擬合期望的特征映射,而是將原本的映射和輸入本身做差,擬合殘差映射。假設(shè)卷積層的映射為H(x),那么殘差映射F(x)=H(x)-x。ResNet網(wǎng)絡(luò)將輸入的信息繞道直接傳到輸出端,這樣做的優(yōu)勢(shì)在于淺層的信息成功進(jìn)入了深層的卷積層,使得整個(gè)卷積網(wǎng)絡(luò)中融合了大量淺層信息,避免了梯度消失問(wèn)題。ResNet網(wǎng)絡(luò)常用層數(shù)有34層、50層、101層以及152層。

由于ResNet網(wǎng)絡(luò)的優(yōu)異表現(xiàn),現(xiàn)如今很多語(yǔ)義分割網(wǎng)絡(luò)都基于ResNet網(wǎng)絡(luò)搭建,包括Deeplab v3網(wǎng)絡(luò)、PSPNet網(wǎng)絡(luò)以及ShelfNet網(wǎng)絡(luò)等。它們都將ResNet作為基本骨架,再加上自身的創(chuàng)新點(diǎn),從而形成了各自網(wǎng)絡(luò)的優(yōu)點(diǎn)。

2 語(yǔ)義分割網(wǎng)絡(luò)原理及對(duì)比分析

2.1 Deeplab v3網(wǎng)絡(luò)原理

Deeplab v3語(yǔ)義分割網(wǎng)絡(luò)中設(shè)計(jì)了不同采樣率的空洞卷積并將其進(jìn)行融合。架構(gòu)中的空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊可以提取不同尺度上特征圖的卷積特征,從而使準(zhǔn)確率得到進(jìn)一步的改善。Deeplab v3語(yǔ)義分割網(wǎng)絡(luò)的原理示意圖如圖2所示。

圖2 Deeplab v3語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)

Deeplab v3網(wǎng)絡(luò)主要解決了2個(gè)傳統(tǒng)語(yǔ)義分割網(wǎng)絡(luò)的缺陷: 一是不能很好地顧及不同尺度物體的信息,很容易出現(xiàn)漏識(shí)別小物體或誤識(shí)別大物體的情形; 二是當(dāng)網(wǎng)絡(luò)本身層次太深,卷積核本身又不大的情況下,很容易出現(xiàn)漏識(shí)別,以及識(shí)別結(jié)果分辨率過(guò)低的情況。

在連續(xù)下采樣的過(guò)程中,圖片越小,細(xì)節(jié)信息丟失越多,這對(duì)于語(yǔ)義分割是不利的。故在ResNet殘差網(wǎng)絡(luò)得到輸出后,Deeplab v3網(wǎng)絡(luò)在卷積的最后一層直接通過(guò)某一采樣率的空洞卷積保持輸出步幅(圖2中采樣率=2)。這樣既保證了圖片質(zhì)量,也沒(méi)有增加參數(shù)。ASPP模塊的設(shè)計(jì)則更為高級(jí)。ASPP金字塔池化模塊通過(guò)3個(gè)不同采樣率的3*3空洞卷積和一個(gè)1*1卷積保證不同尺度物體的信息。同時(shí),在采樣率接近特征圖的大小時(shí),3*3的濾波器不能很好發(fā)揮捕捉全圖的作用,故Deeplab v3網(wǎng)絡(luò)在最后加入全局平均池化,輸出256個(gè)通道,經(jīng)過(guò)卷積以后再和其他特征圖融合起來(lái)。該方法很好地提升了分類效果。

然而,Deeplab v3網(wǎng)絡(luò)同樣存在缺陷,即在編碼過(guò)程結(jié)束后直接解碼到原尺寸,這可能會(huì)導(dǎo)致輸出結(jié)果放大的效果不好,信息太少。其次,Deeplab v3網(wǎng)絡(luò)存在正則化調(diào)參的過(guò)程,該進(jìn)程也是網(wǎng)絡(luò)中非常耗時(shí)的一個(gè)步驟。除此之外,過(guò)多的通道數(shù)也有可能導(dǎo)致訓(xùn)練速度慢,網(wǎng)絡(luò)效率偏低等問(wèn)題。

2.2 PSPNet網(wǎng)絡(luò)原理

PSPNet是針對(duì)相對(duì)復(fù)雜的場(chǎng)景解析問(wèn)題而提出的網(wǎng)絡(luò),解決的是計(jì)算機(jī)視覺(jué)的基本問(wèn)題。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)沒(méi)有很好地運(yùn)用場(chǎng)景中上下文的信息,并且一些不明顯的類別不易被察覺(jué),于是網(wǎng)絡(luò)引入金字塔結(jié)構(gòu)來(lái)解決這一問(wèn)題。PSPNet的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。

圖3 PSPNet語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)

PSPNet的網(wǎng)絡(luò)結(jié)構(gòu)與Deeplab v3網(wǎng)絡(luò)相似,都是以ResNet殘差網(wǎng)絡(luò)為主體骨架,在ResNet網(wǎng)絡(luò)結(jié)束后加入各自的設(shè)計(jì)。網(wǎng)絡(luò)首先通過(guò)預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)提取出feature map特征圖,特征圖的大小是輸入的1/8,隨后特征圖經(jīng)過(guò)金字塔池化模塊得到帶有整體上下文信息的小圖。小圖經(jīng)過(guò)上采樣后恢復(fù)到特征圖的尺寸,并且與池化以前的特征圖相結(jié)合,經(jīng)過(guò)最后一個(gè)卷積層后得到最終輸出結(jié)果。

該金字塔池化模塊融合了4種不同金字塔尺度的特征信息,這樣做有利于幫助網(wǎng)絡(luò)結(jié)合全局的上下文信息。以最上層為例,最上層為最粗糙的1*1全局池化,生成單個(gè)像素多通道輸出,后面幾層為不同尺度的池化(文中為2,3,6)。如果金字塔中設(shè)定了N個(gè)級(jí)別,在池化以后都要使用1*1卷積將通道數(shù)降為原先的1/N。卷積后各層次通過(guò)雙線性插值實(shí)現(xiàn)上采樣,并和原先的特征圖融合在一起。

PSPNet網(wǎng)絡(luò)同樣存在缺陷。與Deeplab v3網(wǎng)絡(luò)相同,過(guò)多的通道數(shù)和大量的卷積、池化運(yùn)算耗費(fèi)了大量的時(shí)間,影響到了網(wǎng)絡(luò)的運(yùn)行效率。PSPNet網(wǎng)絡(luò)和Deeplab v3網(wǎng)絡(luò)類似,都將卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了擴(kuò)張的操作。相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),擴(kuò)張后的網(wǎng)絡(luò)雖然參數(shù)沒(méi)有增加太多,但是空間尺寸大得多,因此導(dǎo)致了運(yùn)行速度的降低。但是相比于Deeplab v3網(wǎng)絡(luò),PSPNet網(wǎng)絡(luò)缺少了正則化的過(guò)程。

2.3 ShelfNet網(wǎng)絡(luò)原理

ShelfNet網(wǎng)絡(luò)是一個(gè)同樣以ResNet網(wǎng)絡(luò)為骨架的編碼-解碼網(wǎng)絡(luò)。它和普通的編碼-解碼網(wǎng)絡(luò)結(jié)構(gòu)的不同點(diǎn)在于,該網(wǎng)絡(luò)中有很多種編碼-解碼的路徑,并且在每一個(gè)空間級(jí)別上都存在跳躍連接。這種多路徑的算法大大提高了網(wǎng)絡(luò)的精度。ShelfNet網(wǎng)絡(luò)的原理圖如圖4所示。圖中A-D代表了ResNet網(wǎng)絡(luò)中不同的層次; 列1-4代表了不同的分支。為了盡可能地減少通道數(shù)量從而提升訓(xùn)練速度,網(wǎng)絡(luò)在第一列的運(yùn)算中使用了1*1卷積層后接以batch normalization正則歸一以及ReLU激活函數(shù),并且將通道的數(shù)量減少為ResNet網(wǎng)絡(luò)中的1/4。

圖4 ShelfNet語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)

除此之外,分支1和3為編碼分支; 分支2和4為解碼分支。編碼器分支中采用跨距為2的卷積; 在解碼器中采用跨距為2的轉(zhuǎn)置卷積。從圖中可見(jiàn),該網(wǎng)絡(luò)最大的特點(diǎn)就是豐富了路徑的選擇。從輸入到輸出可以有很多種選擇的途徑,而不再拘泥于傳統(tǒng)編碼-解碼網(wǎng)絡(luò)中的單一途徑。圖4中2~4列的殘差塊均為共享權(quán)值。共享權(quán)值的優(yōu)點(diǎn)在于結(jié)合了跳躍連接優(yōu)點(diǎn)的同時(shí),比標(biāo)準(zhǔn)殘差單元減少了很多參數(shù)。它能更有效地提取特征,并且可以加快模型的運(yùn)行速度。ShelfNet網(wǎng)絡(luò)實(shí)現(xiàn)了在不同的層次上進(jìn)行跳轉(zhuǎn)的功能,捕捉了更多的淺層和深層特征,也使得運(yùn)行速度和分割精度有了顯著提升。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置及實(shí)驗(yàn)流程設(shè)計(jì)

本文在同一個(gè)Nvidia GeForce GTX 1080ti GPU顯卡上,使用Deeplab v3-50,Deeplab v3-101,PSPNet50,PSPNet101,ShelfNet50和ShelfNet101共6個(gè)網(wǎng)絡(luò)進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)的深度學(xué)習(xí)模型基于PyTorch搭建,使用ResNet網(wǎng)絡(luò)作為基礎(chǔ)框架。采用公開(kāi)的Coco-2014數(shù)據(jù)集和ImageNet數(shù)據(jù)集對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,實(shí)驗(yàn)開(kāi)始時(shí)統(tǒng)一將輸入圖片的大小設(shè)置為256像素×256像素。循環(huán)設(shè)置為80,因?yàn)閿?shù)據(jù)集訓(xùn)練到50個(gè)循環(huán)附近就會(huì)收斂。初始學(xué)習(xí)率設(shè)為0.001,學(xué)習(xí)率會(huì)隨著訓(xùn)練的深入而下降。

實(shí)驗(yàn)第一步是圖像裁剪。網(wǎng)絡(luò)需要有固定尺寸的輸入,故需要將原始圖片切割成相應(yīng)尺寸,在本實(shí)驗(yàn)中為長(zhǎng)寬為256像素×256像素的圖像瓦片。除原始的影像外,還需生成與之一一對(duì)應(yīng)的真實(shí)值(ground truth)標(biāo)簽。

第二步是網(wǎng)絡(luò)訓(xùn)練。遙感影像每一個(gè)像素點(diǎn)的像素值會(huì)作為輸入傳入網(wǎng)絡(luò)。經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算得到輸出,并且和相應(yīng)的真實(shí)值標(biāo)簽進(jìn)行比較,由損失函數(shù)算出損失值。

第三步是返回調(diào)參。根據(jù)第二步得到的損失函數(shù)值的反饋,整個(gè)網(wǎng)絡(luò)框架會(huì)返回到卷積的部分調(diào)參,對(duì)網(wǎng)絡(luò)整體進(jìn)行完善。

第四步是結(jié)果預(yù)測(cè)。訓(xùn)練結(jié)束以后會(huì)得到已完成調(diào)參的實(shí)驗(yàn)?zāi)Ｐ?。根?jù)模型和測(cè)試集進(jìn)行網(wǎng)絡(luò)預(yù)測(cè),得到最后的預(yù)測(cè)結(jié)果。

3.2 實(shí)驗(yàn)數(shù)據(jù)來(lái)源

本實(shí)驗(yàn)采用中國(guó)深圳市的正射遙感圖像作為實(shí)驗(yàn)的數(shù)據(jù)源。選擇深圳作為數(shù)據(jù)集的原因在于該地區(qū)城市面積大,易于劃分訓(xùn)練集區(qū)域,并且在Google影像地圖中存有不同時(shí)相的數(shù)據(jù),便于進(jìn)行深度學(xué)習(xí)的研究。數(shù)據(jù)為深圳市2018年和2019年Google影像18級(jí)高分辨率影像,手工劃分出訓(xùn)練集建成區(qū)矢量文件作為與影像相對(duì)應(yīng)的標(biāo)簽圖。首先通過(guò)裁剪得到了9 577張256像素×256像素大小的影像,其中的80%作為訓(xùn)練集,其余作為驗(yàn)證集。驗(yàn)證集的瓦片影像不會(huì)參與訓(xùn)練,但是可以起到驗(yàn)證網(wǎng)絡(luò)精度的作用。數(shù)據(jù)集中的部分影像樣本如圖5所示。

圖5-1 部分訓(xùn)練數(shù)據(jù)集

圖5-2 部分訓(xùn)練數(shù)據(jù)集

3.3 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)中,每個(gè)網(wǎng)絡(luò)均進(jìn)行80個(gè)循環(huán),其中每次循環(huán)顯示一次結(jié)果; 每5次保存一個(gè)模型,故最后可以得到16個(gè)訓(xùn)練不同階段的模型。實(shí)驗(yàn)每一次結(jié)果顯示均輸出6個(gè)不同參數(shù),分別為: 訓(xùn)練集平均損失、驗(yàn)證集平均損失、驗(yàn)證集平均準(zhǔn)確率、驗(yàn)證集平均重疊度(intersection over union, IOU)(mIOU)、背景IOU和前景IOU。為了防止偶然偏大或偏小的結(jié)果帶來(lái)的影響,本實(shí)驗(yàn)再選取2個(gè)評(píng)價(jià)指標(biāo): 使用前20循環(huán)平均前景IOU表示網(wǎng)絡(luò)前期收斂速度; 使用51-80循環(huán)平均前景IOU來(lái)表示網(wǎng)絡(luò)穩(wěn)定后的平均IOU水準(zhǔn)。本實(shí)驗(yàn)共6個(gè)網(wǎng)絡(luò)參與訓(xùn)練,分別為Deeplab v3-50,Deeplab v3-101,PSPNet50,PSPNet101,ShelfNet50,ShelfNet101,其中數(shù)字表示ResNet的層數(shù)。為了比較網(wǎng)絡(luò)在前期的收斂速度,實(shí)驗(yàn)列出第20個(gè)循環(huán)的6個(gè)參數(shù),以及前20個(gè)循環(huán)平均前景IOU,結(jié)果如表1所示; 為了比較網(wǎng)絡(luò)在收斂后的準(zhǔn)確度,實(shí)驗(yàn)列出最終的6個(gè)參數(shù),以及51-80循環(huán)平均前景IOU和訓(xùn)練時(shí)長(zhǎng),結(jié)果如表2所示。隨機(jī)森林分類器和支持向量機(jī)分類器是遙感影像分類中較經(jīng)典的機(jī)器學(xué)習(xí)分類器,但由于二者結(jié)構(gòu)與語(yǔ)義分割網(wǎng)絡(luò)有明顯的不同,不能像語(yǔ)義分割模型一樣通過(guò)模型分類器直接預(yù)測(cè)得到等尺寸的預(yù)測(cè)結(jié)果圖片。所以,在訓(xùn)練這2個(gè)分類器前需要對(duì)影像數(shù)據(jù)和標(biāo)簽數(shù)據(jù)分別進(jìn)行預(yù)處理編碼成特征向量形式以適應(yīng)分類器結(jié)構(gòu)。本實(shí)驗(yàn)同樣針對(duì)隨機(jī)森林分類器和支持向量機(jī)分類器進(jìn)行數(shù)據(jù)集的預(yù)測(cè),但由于二者結(jié)構(gòu)的局限性及特殊性,無(wú)法對(duì)隨機(jī)森林分類器和支持向量機(jī)分類器進(jìn)行前期精度的比較以及訓(xùn)練時(shí)長(zhǎng)的統(tǒng)計(jì)。本文只進(jìn)行最終驗(yàn)證集平均準(zhǔn)確率及驗(yàn)證集mIOU的橫向比較,比較結(jié)果如表2所示。

表1 網(wǎng)絡(luò)前期訓(xùn)練精度比較（%）

表2 網(wǎng)絡(luò)最終訓(xùn)練精度比較

從表1中可以比較得出網(wǎng)絡(luò)初期的收斂效率。PSPNet50網(wǎng)絡(luò)在驗(yàn)證集損失值和背景IOU上表現(xiàn)更好; 而ShelfNet50網(wǎng)絡(luò)在其余的5項(xiàng)指標(biāo)中均為最優(yōu)。IOU算法為輸出結(jié)果與真值的交集除以并集,故前景IOU最可以反映網(wǎng)絡(luò)的精度。從表1的數(shù)值中可以得出,ShelfNet50網(wǎng)絡(luò)的前期收斂速率是非常理想的,而Deeplab v3網(wǎng)絡(luò)均沒(méi)有達(dá)到很好的效果,這與網(wǎng)絡(luò)本身的結(jié)構(gòu)有較大的關(guān)系; 其次,所有以ResNet50為骨架的網(wǎng)絡(luò)在訓(xùn)練前期均比以ResNet101為骨架的網(wǎng)絡(luò)有更好的表現(xiàn),這是因?yàn)镽esNet101中的參數(shù)數(shù)量要遠(yuǎn)多于ResNet50,故參數(shù)少的網(wǎng)絡(luò)前期收斂更快。

相比于表1,表2則可以體現(xiàn)網(wǎng)絡(luò)的性能優(yōu)劣。隨機(jī)森林分類器和支持向量機(jī)分類器雖然在平均準(zhǔn)確率方面與語(yǔ)義分割網(wǎng)絡(luò)相近,但是在mIOU上卻相差甚遠(yuǎn)。在實(shí)驗(yàn)訓(xùn)練時(shí)長(zhǎng)方面,ShelfNet網(wǎng)絡(luò)占據(jù)了絕對(duì)的優(yōu)勢(shì),并且ShelfNet網(wǎng)絡(luò)的運(yùn)行速率不會(huì)隨著ResNet網(wǎng)絡(luò)層級(jí)的加深出現(xiàn)過(guò)大的變動(dòng)。相比之下,Deeplab v3網(wǎng)絡(luò)和PSPNet的4個(gè)網(wǎng)絡(luò)在訓(xùn)練上花費(fèi)了過(guò)多時(shí)間。這說(shuō)明了在講究網(wǎng)絡(luò)的運(yùn)行速率時(shí),ShelfNet網(wǎng)絡(luò)是絕對(duì)的最優(yōu)選。

在準(zhǔn)確率指標(biāo)中, PSPNet101網(wǎng)絡(luò)擁有最高的精度,其次是ShelfNet50網(wǎng)絡(luò)和ShelfNet101網(wǎng)絡(luò),而Deeplab v3網(wǎng)絡(luò)在最終的準(zhǔn)確率一項(xiàng)同樣表現(xiàn)不佳。在驗(yàn)證集前景IOU一項(xiàng)中,PSPNet101網(wǎng)絡(luò)能夠達(dá)到78.01%的精度,比ShelfNet50網(wǎng)絡(luò)高出1個(gè)百分點(diǎn),這說(shuō)明PSPNet101網(wǎng)絡(luò)在分割建成區(qū)的領(lǐng)域可達(dá)到非常優(yōu)異的效果。值得注意的是,ShelfNet101網(wǎng)絡(luò)的各項(xiàng)指標(biāo)低于ShelfNet50網(wǎng)絡(luò),說(shuō)明網(wǎng)絡(luò)可能在訓(xùn)練時(shí)出現(xiàn)了過(guò)擬合。

綜上,PSPNet101網(wǎng)絡(luò)的分割精度最優(yōu),但是考慮到PSPNet101網(wǎng)絡(luò)的訓(xùn)練時(shí)長(zhǎng)過(guò)長(zhǎng),綜合各種指標(biāo)可以得出: ShelfNet50網(wǎng)絡(luò)是在識(shí)別建成區(qū)中綜合效率最高的選擇。

由實(shí)驗(yàn)結(jié)果回推至理論本身,ShelfNet網(wǎng)絡(luò)正是擁有了共享權(quán)值以及可以在不同空間層次上進(jìn)行跳轉(zhuǎn)連接的功能,使其比標(biāo)準(zhǔn)殘差單元減少了很多參數(shù)。實(shí)驗(yàn)證明,這些改變可以顯著加快模型的運(yùn)行速度。除此之外,ShelfNet網(wǎng)絡(luò)最大的特點(diǎn)就是豐富了路徑的選擇。正是這一個(gè)特點(diǎn)使得網(wǎng)絡(luò)能夠?qū)W習(xí)到各種淺層和深層的信息,從而保證了網(wǎng)絡(luò)優(yōu)秀的性能。

相比之下,PSPNet和Deeplab v3網(wǎng)絡(luò)在卷積運(yùn)算時(shí)空間尺寸大得多,因此導(dǎo)致了運(yùn)行速度的降低。而相比于PSPNet網(wǎng)絡(luò),Deeplab v3網(wǎng)絡(luò)在編碼過(guò)程結(jié)束后直接解碼到原尺寸,從而減少了信息的讀取。實(shí)驗(yàn)結(jié)果表明,Deeplab v3網(wǎng)絡(luò)的指標(biāo)確實(shí)稍遜于其他2種網(wǎng)絡(luò)。這可能是因?yàn)榫W(wǎng)絡(luò)本身的缺陷,同樣可能是因?yàn)镈eeplab v3網(wǎng)絡(luò)不適用于上下文聯(lián)系較強(qiáng)的識(shí)別任務(wù),而專長(zhǎng)于另一些種類的識(shí)別任務(wù)。

本文使用ShelfNet50網(wǎng)絡(luò)識(shí)別2019年深圳市18級(jí)遙感影像,結(jié)果如圖6所示。

從圖6中可見(jiàn),其中紅色為建成區(qū),除去邊界上的細(xì)微識(shí)別誤差,ShelfNet50網(wǎng)絡(luò)可以很好地識(shí)別深圳市2019年遙感影像中各種不同類別的建成區(qū)。預(yù)測(cè)結(jié)果同樣表明,ShelfNet50網(wǎng)絡(luò)有較好的上下文推理能力。城市小區(qū)的綠化和鄉(xiāng)村大片的植被地物特征完全相同,而ShelfNet50網(wǎng)絡(luò)能夠從周?chē)牡匚锾卣魍茢嘣摰貐^(qū)的具體類別,這也體現(xiàn)出了空洞卷積的重要性。實(shí)驗(yàn)表明,ShelfNet50網(wǎng)絡(luò)可以適用于遙感影像城市建成區(qū)的識(shí)別,并且擁有很好的識(shí)別效果。

然而,ShelfNet50網(wǎng)絡(luò)在識(shí)別時(shí)同樣存在誤差,如圖7所示。

圖7中反映出3個(gè)ShelfNet50網(wǎng)絡(luò)的問(wèn)題。首先,當(dāng)原始影像有云時(shí),網(wǎng)絡(luò)不能判斷云下的地物,這也是所有語(yǔ)義分割網(wǎng)絡(luò)共同的缺陷; 其次,對(duì)于城區(qū)內(nèi)一些大型非建筑物(公園綠地、大型立交橋),ShelfNet50網(wǎng)絡(luò)還是欠缺識(shí)別此類地物的能力,而這也與空洞卷積核的大小有關(guān); 最后,小部分建筑物存在漏識(shí)別的現(xiàn)象,這也說(shuō)明了訓(xùn)練集中缺少該類標(biāo)簽,此類問(wèn)題可以通過(guò)擴(kuò)充數(shù)據(jù)集的方法解決。

4 結(jié)論

本文基于多種深度學(xué)習(xí)語(yǔ)義分割方法,針對(duì)高分遙感影像城市建成區(qū)提取問(wèn)題做了深入的比較研究。本文首先從網(wǎng)絡(luò)的基本原理出發(fā),深入分析并比較了Deeplab v3網(wǎng)絡(luò)、PSPNet網(wǎng)絡(luò)以及ShelfNet網(wǎng)絡(luò)這3種均以ResNet殘差網(wǎng)絡(luò)為骨架的語(yǔ)義分割網(wǎng)絡(luò)的結(jié)構(gòu)差別,并通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)分析了每一個(gè)網(wǎng)絡(luò)存在的優(yōu)缺點(diǎn)。其次,本文通過(guò)控制變量法,使用同一套實(shí)驗(yàn)裝置以及同一個(gè)數(shù)據(jù)集對(duì)6種語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行了測(cè)試及結(jié)果分析。本文通過(guò)實(shí)驗(yàn)得出的結(jié)果返回原理分析部分,驗(yàn)證之前分析的合理性。最后,實(shí)驗(yàn)針對(duì)綜合表現(xiàn)最佳的ShelfNet50網(wǎng)絡(luò)進(jìn)行結(jié)果預(yù)測(cè),印證語(yǔ)義分割網(wǎng)絡(luò)在高分遙感影像城市建成區(qū)分割中的可行性。綜合以上,本文得到以下結(jié)論:

1)實(shí)驗(yàn)的初始收斂階段,ResNet50殘差網(wǎng)絡(luò)的表現(xiàn)普遍好于ResNet101網(wǎng)絡(luò),其中ShelfNet50網(wǎng)絡(luò)的收斂效果最為優(yōu)異。

2)在網(wǎng)絡(luò)最終分割效果的評(píng)定中,PSPNet的各項(xiàng)指標(biāo)均處于6個(gè)語(yǔ)義分割網(wǎng)絡(luò)的第1名; 驗(yàn)證集前景IOU比ShelfNet50網(wǎng)絡(luò)高出1個(gè)百分點(diǎn)。

3)運(yùn)行時(shí)長(zhǎng)方面,ShelfNet網(wǎng)絡(luò)遠(yuǎn)遠(yuǎn)短于另外2類網(wǎng)絡(luò),且ShelfNet網(wǎng)絡(luò)基本不受網(wǎng)絡(luò)層數(shù)的影響。綜合網(wǎng)絡(luò)精度以及運(yùn)行速度2方面因素綜合考慮,ShelfNet50網(wǎng)絡(luò)是解決高分遙感影像城市建成區(qū)識(shí)別的最優(yōu)網(wǎng)絡(luò)。

4)ShelfNet50網(wǎng)絡(luò)在最終的預(yù)測(cè)過(guò)程中表現(xiàn)優(yōu)異,具有良好的識(shí)別效果,說(shuō)明ShelfNet50網(wǎng)絡(luò)可以完美解決城市建成區(qū)的識(shí)別問(wèn)題。

作者簡(jiǎn)介: 劉釗(1967-),男,副教授,主要從事GIS及其應(yīng)用、云GIS、時(shí)空大數(shù)據(jù)及遙感圖像處理等方面的研究。Email: liuz@tsinghua.edu.cn。

引用本文:

劉釗, 趙桐, 廖斐凡, 李帥, 李海洋. 基于語(yǔ)義分割網(wǎng)絡(luò)的高分遙感影像城市建成區(qū)提取方法研究與對(duì)比分析[J]. 國(guó)土資源遙感, 2021, 33(1): 45-53.
LIU Zhao, ZHAO Tong, LIAO Feifan, LI Shuai, LI Haiyang. Research and comparative analysis on urban built-up area extraction methods from high-resolution remote sensing image based on semantic segmentation network. Remote Sensing for Land & Resources, 2021, 33(1): 45-53.

鏈接本文:

http://www./CN/10.6046/gtzyyg.2020162

- END -

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：風(fēng)聲之家 > 《arcGIS》

舉報(bào)/認(rèn)領(lǐng)