小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

十三、目標(biāo)檢測(cè)、圖像分割

 Behindrain 2018-04-11

一、目標(biāo)檢測(cè)

1. 目標(biāo)檢測(cè)常用的網(wǎng)絡(luò),RCNN, SPP, Fast RCNN, Faster RCNN的區(qū)別?

1.1 基于RegionProposal的深度學(xué)習(xí)目標(biāo)檢測(cè)算法:

(1)R-CNN:

(1) 輸入測(cè)試圖像

(2) 利用selective search算法在圖像中提取2000個(gè)左右的regionproposal。

(3) 將每個(gè)region proposal縮放(warp)成227x227的大小并輸入到CNN,將CNN的fc7層的輸出作為特征。

(4) 將每個(gè)region proposal提取到的CNN特征輸入到SVM進(jìn)行分類。

R-CNN缺點(diǎn):

(1) 訓(xùn)練分為多個(gè)階段,步驟繁瑣: 微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練邊框回歸器

(2) 訓(xùn)練耗時(shí),占用磁盤空間大:5000張圖像產(chǎn)生幾百G的特征文件

(3) 速度慢: 使用GPU, VGG16模型處理一張圖像需要47s。、

R-CNN慢:對(duì)圖像提完region proposal(2000個(gè)左右)之后將每個(gè)proposal當(dāng)成一張圖像進(jìn)行后續(xù)處理(CNN提特征+SVM分類),實(shí)際上對(duì)一張圖像進(jìn)行了2000次提特征和分類的過(guò)程!

(2)SPP-NET:

SPP-NET解決速度慢的方法:對(duì)整張圖像只提一次卷積層特征,然后只需要將region proposal在原圖的位置映射到卷積層特征圖上,然后將每個(gè)region proposal的卷積層特征輸入到全連接層做后續(xù)操作。(對(duì)于CNN來(lái)說(shuō),大部分運(yùn)算都耗在卷積操作上,這樣做可以節(jié)省大量時(shí)間)。

難點(diǎn)和解決方法:

1.每個(gè)region proposal的尺度不一樣,直接這樣輸入全連接層肯定是不行的,因?yàn)槿B接層輸入必須是固定的長(zhǎng)度。

2. SPP-NET的網(wǎng)絡(luò)結(jié)構(gòu)圖,任意給一張圖像輸入到CNN,經(jīng)過(guò)卷積操作我們可以得到卷積特征(比如VGG16最后的卷積層為conv5_3,共產(chǎn)生512張?zhí)卣鲌D)。圖中的window是就是原圖一個(gè)region proposal對(duì)應(yīng)到特征圖的區(qū)域,只需要將這些不同大小window的特征映射到同樣的維度,將其作為全連接的輸入,就能保證只對(duì)圖像提取一次卷積層特征。SPP-NET使用了空間金字塔采樣(spatial pyramid pooling):將每個(gè)window劃分為4*4, 2*2, 1*1的塊,然后每個(gè)塊使用max-pooling下采樣,這樣對(duì)于每個(gè)window經(jīng)過(guò)SPP層之后都得到了一個(gè)長(zhǎng)度為(4*4+2*2+1)*512維度的特征向量,將這個(gè)作為全連接層的輸入進(jìn)行后續(xù)操作。

問(wèn)題:

(1) 訓(xùn)練分為多個(gè)階段,步驟繁瑣: 微調(diào)網(wǎng)絡(luò)+訓(xùn)練SVM+訓(xùn)練訓(xùn)練邊框回歸器

(2) SPP-NET在微調(diào)網(wǎng)絡(luò)的時(shí)候固定了卷積層,只對(duì)全連接層進(jìn)行微調(diào),而對(duì)于一個(gè)新的任務(wù),有必要對(duì)卷積層也進(jìn)行微調(diào)。(分類的模型提取的特征更注重高層語(yǔ)義,而目標(biāo)檢測(cè)任務(wù)除了語(yǔ)義信息還需要目標(biāo)的位置信息)

(3)Fast RCNN

創(chuàng)新點(diǎn):一是最后一個(gè)卷積層后加了一個(gè)ROI pooling layer,二是損失函數(shù)使用了多任務(wù)損失函數(shù)(multi-task loss),將邊框回歸直接加入到CNN網(wǎng)絡(luò)中訓(xùn)練。

(1) ROI pooling layer:SPP-NET對(duì)每個(gè)proposal使用了不同大小的金字塔映射,而ROI pooling layer只需要下采樣到一個(gè)7x7的特征圖。對(duì)于VGG16網(wǎng)絡(luò)conv5_3有512個(gè)特征圖,這樣所有region proposal對(duì)應(yīng)了一個(gè)7*7*512維度的特征向量作為全連接層的輸入。

(2) R-CNN訓(xùn)練過(guò)程分為了三個(gè)階段,而FastR-CNN直接使用softmax替代SVM分類,同時(shí)利用多任務(wù)損失函數(shù)邊框回歸也加入到了網(wǎng)絡(luò)中,這樣整個(gè)的訓(xùn)練過(guò)程是端到端的(除去region proposal提取階段)。

(3) Fast R-CNN在網(wǎng)絡(luò)微調(diào)的過(guò)程中,將部分卷積層也進(jìn)行了微調(diào),取得了更好的檢測(cè)效果。

(4)Faster RCNN

創(chuàng)新點(diǎn):RPN(RegionProposal Networks)網(wǎng)絡(luò)只提取幾百個(gè)或者更少的高質(zhì)量的預(yù)選窗口,而且召回率很高。RPN的核心思想是使用卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生region proposal,使用的方法本質(zhì)上就是滑動(dòng)窗口。RPN的設(shè)計(jì)比較巧妙,RPN只需在最后的卷積層上滑動(dòng)一遍,因?yàn)閍nchor機(jī)制和邊框回歸可以得到多尺度多長(zhǎng)寬比的region proposal。

給定輸入圖像(假設(shè)分辨率為600*1000),經(jīng)過(guò)卷積操作得到最后一層的卷積特征圖(大小約為40*60)。在這個(gè)特征圖上使用3*3的卷積核(滑動(dòng)窗口)與特征圖進(jìn)行卷積,最后一層卷積層共有256個(gè)feature map,那么這個(gè)3*3的區(qū)域卷積后可以獲得一個(gè)256維的特征向量,后邊接cls layer和reg layer分別用于分類和邊框回歸(跟Fast R-CNN類似,只不過(guò)這里的類別只有目標(biāo)和背景兩個(gè)類別)。3*3滑窗對(duì)應(yīng)的每個(gè)特征區(qū)域同時(shí)預(yù)測(cè)輸入圖像3種尺度(128,256,512),3種長(zhǎng)寬比(1:1,1:2,2:1)的region proposal,這種映射的機(jī)制稱為anchor。所以對(duì)于這個(gè)40*60的feature map,總共有約20000(40*60*9)個(gè)anchor,也就是預(yù)測(cè)20000個(gè)region proposal。

RPN優(yōu)點(diǎn):

1. 滑動(dòng)窗口操作是在卷積層特征圖上進(jìn)行的更高效,因?yàn)榫S度較原始圖像降低了16*16倍(中間經(jīng)過(guò)了4次2*2的pooling操作);

2. 多尺度采用了9種anchor,對(duì)應(yīng)了三種尺度和三種長(zhǎng)寬比,加上后邊接了邊框回歸,所以即便是這9種anchor外的窗口也能得到一個(gè)跟目標(biāo)比較接近的region proposal。

1. 對(duì)整張圖片輸進(jìn)CNN,得到feature map
  2. 卷積特征輸入到RPN,得到候選框的特征信息
  3. 對(duì)候選框中提取出的特征,使用分類器判別是否屬于一個(gè)特定類 
  4. 對(duì)于屬于某一特征的候選框,用回歸器進(jìn)一步調(diào)整其位置

1.     ImageNet上預(yù)訓(xùn)練模型的初始化參數(shù),微調(diào)RPN網(wǎng)絡(luò)

2.     使用1中的RPN網(wǎng)絡(luò)提取region proposal訓(xùn)練Fast R-CNN網(wǎng)絡(luò)

3.     使用2中的Fast R-CNN網(wǎng)絡(luò)重新初始化RPN,固定卷基層進(jìn)行微調(diào)

4.     固定2中的Fast R-CNN的卷基層,使用3中的RPN提取的region proposal微調(diào)網(wǎng)絡(luò)

注意:最新的版本已經(jīng)將RPN網(wǎng)絡(luò)和Fast R-CNN網(wǎng)絡(luò)結(jié)合到了一起——將RPN獲取到的proposal直接連到ROI pooling層。

1.2 Faster rcnn中,ROI pooling具體如何工作(怎么把不同大小的框,pooling到同樣的大?。?/font>

RoIPool首先將浮點(diǎn)數(shù)值的RoI量化成離散顆粒的特征圖,然后將量化的RoI分成幾個(gè)空間的小塊(spatial bins),最后對(duì)每個(gè)小塊進(jìn)行max pooling操作生成最后的結(jié)果


2. 基于回歸的深度學(xué)習(xí)目標(biāo)檢測(cè)算法

Faster R-CNN速度上并不能滿足實(shí)時(shí)的要求。YOLO這類方法使用了回歸的思想,既給定輸入圖像,直接在圖像的多個(gè)位置上回歸出這個(gè)位置附近的目標(biāo)位置和目標(biāo)類別。

(1)YOLO (CVPR2016, oral)

檢測(cè)流程:

1.給定一個(gè)輸入圖像,首先將圖像分割成7*7的網(wǎng)格

2.對(duì)于每個(gè)網(wǎng)格,都負(fù)責(zé)預(yù)測(cè)2個(gè)邊框(包括每個(gè)邊框的位置,目標(biāo)物體置信度和多個(gè)類別上的概率)

3.根據(jù)上一步可以預(yù)測(cè)7*7*2個(gè)目標(biāo)窗口,根據(jù)閾值去除執(zhí)行度比較低的目標(biāo)窗口,最后NMS去除冗余窗口

優(yōu)點(diǎn):YOLO將目標(biāo)檢測(cè)任務(wù)轉(zhuǎn)換成回歸問(wèn)題,大大加快了檢測(cè)的速度。同時(shí)由于網(wǎng)絡(luò)預(yù)測(cè)每個(gè)目標(biāo)窗口時(shí)使用的是全局信息,使得false positive比例大幅降低(充分的上下文信息)。

存在的問(wèn)題:使用整圖特征在7*7的粗糙網(wǎng)格內(nèi)回歸,對(duì)目標(biāo)的定位并不是很精準(zhǔn),檢測(cè)精度不高

(2)SSD

SSD結(jié)合YOLO的回歸思想以及Faster R-CNNanchor機(jī)制實(shí)現(xiàn)了精準(zhǔn)定位。YOLO預(yù)測(cè)某個(gè)位置使用的是全圖的特征,SSD預(yù)測(cè)某個(gè)位置使用的是這個(gè)位置周圍的特征。

建立某個(gè)位置和其特征的對(duì)應(yīng)關(guān)系使用Faster R-CNNanchor機(jī)制。

(3)G-CNN(CVPR2016)

Region proposal方法考慮數(shù)以萬(wàn)計(jì)的潛在框來(lái)進(jìn)行目標(biāo)位置搜索,這種方式存在的問(wèn)題是負(fù)樣本空間大,因此需要一定的策略來(lái)進(jìn)行抑制(OHEM還是region proposal方法,其本質(zhì)都是一種抑制負(fù)樣本的工作)。G-CNN初始化時(shí)將圖像進(jìn)行劃分(有交疊),產(chǎn)生少量的框(大約180個(gè)),通過(guò)一次回歸之后得到更接近物體的位置。然后以回歸之后的框作為原始窗口,不斷的迭代回歸調(diào)整,得到最終的檢測(cè)結(jié)果。

3. 目標(biāo)檢測(cè)其它方法

(1)   LocNet(CVPR2016)

LocNet出發(fā)點(diǎn)為如何產(chǎn)生更準(zhǔn)確的目標(biāo)位置

LocNet的解決方案是:針對(duì)每一個(gè)給定的初始框進(jìn)行適當(dāng)?shù)姆糯?,然后用一個(gè)CNN網(wǎng)絡(luò)回歸出這個(gè)放大后的框包含的那個(gè)正確框的位置。經(jīng)過(guò)把原始的框(比如selective search生成的)進(jìn)行再一次回歸之后,再放入Fast R-CNN進(jìn)行檢測(cè),在IoU=0.5的情況下,在Pascal VOC 數(shù)據(jù)集上mAP可以提升大約5個(gè)百分點(diǎn),而IoU=0.7時(shí)可以達(dá)到13個(gè)百分點(diǎn)的提升,效果還是挺驚人的。

(2)     提高目標(biāo)檢測(cè)方法

1)難樣本挖掘(hard negativemining

R-CNN在訓(xùn)練SVM分類器時(shí)使用了難分樣本挖掘的思想,但Fast R-CNNFaster R-CNN由于使用端到端的訓(xùn)練策略并沒(méi)有使用難分樣本挖掘(只是設(shè)置了正負(fù)樣本的比例并隨機(jī)抽?。?。OHEM將難樣本挖掘機(jī)制嵌入到SGD算法中,使得Fast R-CNN訓(xùn)練過(guò)程中根據(jù)region proposal的損失自動(dòng)選取合適的region proposal作為正負(fù)例訓(xùn)練。

2) 多層特征融合

Fast R-CNNFaster R-CNN都是利用了最后卷基層特征進(jìn)行目標(biāo)檢測(cè),而高層特征損失了很多細(xì)節(jié)信息(pooling操作),所以定位不是很精準(zhǔn)。所謂的多層特征融合(又叫skip-connection)就是將不同層特征沿著通道維度融合,融合方式可以是按元素相加,也可以是在通道維度直接連接起來(lái)得到通道更多的特征。

HyperNet、ION、ParseNet等方法利用了CNN多層特征融合進(jìn)行目標(biāo)檢測(cè),不僅利用了高層特征的語(yǔ)義信息,還考慮了低層特征的細(xì)節(jié)紋理信息,使目標(biāo)定位更精準(zhǔn)。

3)使用上下文信息

在提取region proposal特征進(jìn)行目標(biāo)檢測(cè)時(shí),結(jié)合region proposal上下文信息,檢測(cè)效果往往會(huì)更好一些。所謂上下文信息(context)在目標(biāo)檢測(cè)中是指ROI周圍的信息,可以是局部的,也可以是全局的。

Objectdetection via a multi-region & semantic segmentation-aware CNN model使用了上下文信息

ION網(wǎng)絡(luò)在Fast R-CNN的基礎(chǔ)上引進(jìn)IRNN的概念來(lái)增加context信息

4) 更深的網(wǎng)絡(luò)學(xué)習(xí)更有力的特征

ResNet肅然不是針對(duì)目標(biāo)檢測(cè)來(lái)做的,但其能夠?qū)W習(xí)到更有力的特征。使用ResNet網(wǎng)絡(luò)代替ZF,VGG,GoogleNet等網(wǎng)絡(luò)模型無(wú)論在圖像分類、目標(biāo)檢測(cè)還是圖像分割等任務(wù)上都可以大大提高識(shí)別率的準(zhǔn)確率。

參考:http://blog.csdn.net/timeflyhigh/article/details/52015163

4.文本檢測(cè)



二、目標(biāo)分割

1、語(yǔ)義分割(Semantic Segmentation)和實(shí)例分割(Instance Segmentation)

語(yǔ)義分割-->操作像素,標(biāo)記每個(gè)像素所屬的標(biāo)簽不關(guān)心具體的類,同一類目標(biāo)標(biāo)記為相同的像素
實(shí)例分割輸出類別同時(shí)標(biāo)記像素(同時(shí)檢測(cè)并分割)-->關(guān)心目標(biāo)的類,不同目標(biāo)標(biāo)記為不同的像素(同一類中的目標(biāo)也標(biāo)記為不同 的像素)

分割時(shí)使用全卷積網(wǎng)絡(luò)(以filter為1*1的卷積層替換fc層,操作每個(gè)像素)可以得到所有像素的標(biāo)簽,而不用先將圖像分成許多小塊,再通過(guò)卷積為塊的中心像素分類(這樣就很耗時(shí))

http://www./article-11733-1.html

三、綜合題

1.跟蹤和檢測(cè)有什么區(qū)別?
檢測(cè)一般用到單幀的信息,主要是依據(jù)先驗(yàn)知識(shí)、或者顯著等特性找到某些感興趣的區(qū)域;
而跟蹤是已有目標(biāo)的位置,在后續(xù)幀中找到最佳匹配位置,更側(cè)重目標(biāo)的匹配上;
雙目追蹤能檢測(cè)衡量標(biāo)準(zhǔn):
(1)雙目追蹤能檢測(cè)的目標(biāo)最小是多大能檢測(cè)的最小目標(biāo)是根據(jù)實(shí)時(shí)圖像中最大的目標(biāo)而定的,設(shè)定目標(biāo)面積小于最大的目標(biāo)的面積的1/5是不能檢測(cè)的。
(2)深度學(xué)習(xí)中的指標(biāo)mAP等(衡量模型好壞的指標(biāo)?)平均精度(mAP)如何計(jì)算的?
http://blog.csdn.net/Relocy/article/details/51453950
1.1 定位和檢測(cè)的區(qū)別:
區(qū)別在于要找的目標(biāo)的數(shù)量;
對(duì)于定位,圖像中只有一個(gè)或一種對(duì)象,用框標(biāo)出對(duì)象的位置
對(duì)于檢測(cè),圖像中有多個(gè)目標(biāo)或多種對(duì)象。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多