圖像分割技術(shù)概述

風(fēng)聲之家 2021-03-27

展開全文

青榴實(shí)驗(yàn)室 1周前

1、什么是圖像分割

圖像分割是圖像分析的第一步，是計(jì)算機(jī)視覺的基礎(chǔ)，是圖像理解的重要組成部分，同時(shí)也是圖像處理中最困難的問題之一。所謂圖像分割是指根據(jù)灰度、彩色、空間紋理、幾何形狀等特征把圖像劃分為若干個(gè)互不相交的區(qū)域，使得這些特征在同一個(gè)區(qū)域內(nèi)表現(xiàn)出一致性或相似性，而在不同區(qū)域間表現(xiàn)出明顯的不同。簡(jiǎn)單的說就是在一幅圖像中，把目標(biāo)從背景中分離出來。圖像分割是為圖像中的每一個(gè)像素打上標(biāo)簽，其中具有相同標(biāo)簽的像素具有相同特征。

2、圖像分割類型

圖像分割是將像素分類的過程，分類的依據(jù)可建立在：像素間的相似性、非連續(xù)性。圖像分割主要有兩種類型：語(yǔ)義分割和實(shí)例分割。

在語(yǔ)義分割中，所有物體都是同一類型的，所有相同類型的物體都使用一個(gè)類標(biāo)簽進(jìn)行標(biāo)記，而在實(shí)例分割中，相似的物體可以有自己獨(dú)立的標(biāo)簽。

3、圖像分割架構(gòu)

圖像分割的基本結(jié)構(gòu)由編碼器和解碼器組成。編碼器通過過濾器從圖像中提取特征。解碼器負(fù)責(zé)生成最終輸出，通常是包含對(duì)象輪廓的分割掩碼(segmantation mask)。大多數(shù)架構(gòu)都有這種體系結(jié)構(gòu)或其變體。

4、圖像分割方法

在圖像分割領(lǐng)域中有多種技術(shù)：基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。

1）閾值技術(shù)--該技術(shù)的主要目的在于確定圖像的最佳閾值。強(qiáng)度值超過閾值的像素其強(qiáng)度將變?yōu)?，其余像素的強(qiáng)度值將變?yōu)榱?，最后形成一個(gè)二值圖。用于選擇閾值的方法有：Otsu，k均值聚類，和最大熵法。

2）運(yùn)動(dòng)與交互分割--該技術(shù)基于圖像中的運(yùn)動(dòng)來進(jìn)行分割。其思想很直觀，在假設(shè)目標(biāo)是運(yùn)動(dòng)的情況下找出兩幅圖中的差異，那么不同之處一定就是目標(biāo)位置。

3）邊界檢測(cè)--包含多種數(shù)學(xué)方法，其目的在于標(biāo)出數(shù)字圖像中處于圖像亮度變化劇烈，或者更正式的講，具有不連貫性的區(qū)域中的點(diǎn)。由于區(qū)域邊界和邊具有很高關(guān)聯(lián)性，因此邊界檢測(cè)通常是另一種分割技術(shù)的前提步驟。

4）區(qū)域增長(zhǎng)方法--主要建立在同一區(qū)域中相鄰像素具有相近像素值的假設(shè)之上。常見步驟為將像素與其近鄰像素作比較，如果滿足相似性標(biāo)準(zhǔn)，則該像素就可以被劃分到以一個(gè)或更多其近鄰點(diǎn)組成的聚類中去。相似性標(biāo)準(zhǔn)的選擇很關(guān)鍵，并且在所有實(shí)例中其結(jié)果易受到噪聲影響。

5、基于深度學(xué)習(xí)的圖像分割

深度學(xué)習(xí)使得圖像分割的準(zhǔn)確率提高了很多，現(xiàn)代圖像分割技術(shù)以深度學(xué)習(xí)技術(shù)為動(dòng)力。下面是幾種用于分割的深度學(xué)習(xí)架構(gòu)：

1）U-Net

U-Net是一個(gè)最初用于開發(fā)生物影響分割的卷積神經(jīng)網(wǎng)絡(luò)。從視覺上看，它的架構(gòu)看起來像字母U，因此而得名U-Net。它的架構(gòu)由兩部分組成，左邊是收縮路徑，右邊是擴(kuò)展路徑。收縮路徑的目的是捕獲內(nèi)容，而擴(kuò)展路徑的角色是幫助精確定位。

U-Net由右側(cè)的擴(kuò)展路徑和左側(cè)的收縮路徑組成。收縮路徑由兩個(gè)3×3的卷積層組成。卷積之后是一個(gè)校正的線性單元和和一個(gè)2×2的max-pooling池化層的計(jì)算來做下采樣。

2）FastFCN — 快速全連接網(wǎng)絡(luò)

在這種結(jié)構(gòu)中，一個(gè)使用聯(lián)合金字塔上采樣（JPU）模塊來代替了擴(kuò)展卷積網(wǎng)絡(luò)，因?yàn)榫矸e網(wǎng)絡(luò)消耗大量的內(nèi)存和計(jì)算時(shí)間。它使用一個(gè)完全連接的網(wǎng)絡(luò)作為核心，同時(shí)應(yīng)用JPU進(jìn)行上采樣。JJPU將低分辨率的feature map上采樣為高分辨率的feature map。

3）Gated-SCNN

這個(gè)架構(gòu)由一個(gè)雙流CNN架構(gòu)組成。在該模型中，使用一個(gè)單獨(dú)的分支來處理圖像的形狀信息。形狀流用于處理邊界信息。

4）DeepLab（深度實(shí)驗(yàn)室）

在這種體系結(jié)構(gòu)中，帶有上采樣濾波器的卷積用于涉及密集預(yù)測(cè)的任務(wù)。多個(gè)對(duì)象的分割是通過無(wú)空間金字塔空間池完成的。最后，利用DCNNs改進(jìn)了目標(biāo)邊界的定位。通過插入零或輸入特征圖進(jìn)行稀疏采樣來對(duì)濾波器進(jìn)行上采樣，從而實(shí)現(xiàn)無(wú)用卷積。

5）Mask R-CNN

在這個(gè)體系結(jié)構(gòu)中，使用一個(gè)邊界框/包圍盒和語(yǔ)義分割對(duì)對(duì)象進(jìn)行分類和定位，該語(yǔ)義分割將每個(gè)像素分類為一組類別。每個(gè)感興趣的區(qū)域都有一個(gè)分割蒙版。并且將產(chǎn)生一個(gè)類標(biāo)簽和一個(gè)邊界框作為最終輸出。實(shí)際上該體系結(jié)構(gòu)是Faster R-CNN的擴(kuò)展。Faster R-CNN由提出區(qū)域的深度卷積網(wǎng)絡(luò)和利用區(qū)域的檢測(cè)器組成。

這是在COCO測(cè)試集上獲得的結(jié)果的圖像。

6、圖像分割的數(shù)據(jù)集

介紹完訓(xùn)練方法后，從哪里可以獲得相應(yīng)的數(shù)據(jù)集來進(jìn)行圖像分割的學(xué)習(xí)呢？現(xiàn)在來看下有哪些數(shù)據(jù)集可直接使用：

1）Common Objects in COntext — Coco數(shù)據(jù)集

COCO是一個(gè)大規(guī)模的物體檢測(cè)、圖像分割和五項(xiàng)描述生成的大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)據(jù)集中一共包含91個(gè)物品類別。包含著250000帶有關(guān)鍵點(diǎn)標(biāo)注的人。它的下載大小是37.57GIB。它包含80個(gè)對(duì)象類別。它在Apache2.0許可下可用，可以從這里下載（https:///#download）。

2）PASCAL可視化對(duì)象類（PASCAL VOC）

PASCAL有9963張圖片，有20個(gè)不同的類別。訓(xùn)練/驗(yàn)證集是一個(gè)2GB的tar文件。數(shù)據(jù)集可以從官方網(wǎng)站下載：http://host.robots./pascal/VOC/voc2012/

3）Cityscapes 數(shù)據(jù)集

此數(shù)據(jù)集包含城市場(chǎng)景的圖像。它可以用來評(píng)價(jià)視覺算法在城市場(chǎng)景中的性能。數(shù)據(jù)集可以從這里下載：https://www./。

4）Cambridge駕駛標(biāo)注視頻數(shù)據(jù)庫(kù) — CamVid

這是一個(gè)基于運(yùn)動(dòng)的分割和識(shí)別數(shù)據(jù)集。它包含32個(gè)語(yǔ)義類別。此鏈接包含進(jìn)一步的解釋和指向數(shù)據(jù)集的下載鏈接：http://mi.eng./research/projects/VideoRec/CamVid/。

7、圖像分割工具及框架

在已經(jīng)準(zhǔn)備好了可使用的數(shù)據(jù)集后，下面介紹一些可以用來入門的工具/框架。

FastAI庫(kù)——給定一個(gè)圖像，這個(gè)庫(kù)可以創(chuàng)建圖像中對(duì)象的掩碼/遮罩。

Sefexa圖像分割工具-——Sefexa是一個(gè)免費(fèi)的工具，可用于半自動(dòng)圖像分割、圖像分析和地面真實(shí)性的創(chuàng)建。

Deepmask——Facebook Research的Deepmask是Deepmask和SharpMask的Torch實(shí)現(xiàn)。

MultiPath——這是“用于對(duì)象檢測(cè)的MultiPath網(wǎng)絡(luò) ”中對(duì)象檢測(cè)網(wǎng)絡(luò)的Torch實(shí)現(xiàn)。

OpenCV——這是一個(gè)開源的計(jì)算機(jī)視覺庫(kù)，有超過2500個(gè)優(yōu)化算法。

MIScnn——是一個(gè)醫(yī)學(xué)圖像分割開源庫(kù)。它允許在幾行代碼中使用最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型來建立管道。

Fritz——Fritz提供了幾種計(jì)算機(jī)視覺工具，包括用于移動(dòng)設(shè)備的圖像分割工具。

8、圖像分割的應(yīng)用

圖像分割有助于確定目標(biāo)之間的關(guān)系，以及目標(biāo)在圖像中的上下文。應(yīng)用包括人臉識(shí)別、車牌識(shí)別和衛(wèi)星圖像分析。例如，零售和時(shí)尚等行業(yè)在基于圖像的搜索中使用了圖像分割。自動(dòng)駕駛汽車用它來了解周圍的環(huán)境。

1)目標(biāo)檢測(cè)和人臉檢測(cè)

人臉檢測(cè)：一種用于許多應(yīng)用的目標(biāo)檢測(cè)，包括數(shù)字相機(jī)的生物識(shí)別和自動(dòng)對(duì)焦功能。算法檢測(cè)和驗(yàn)證面部特征的存在。例如，眼睛在灰度圖像中顯示為谷地。

醫(yī)學(xué)影像：從醫(yī)學(xué)影像中提取臨床相關(guān)信息。例如，放射學(xué)家可以使用機(jī)器學(xué)習(xí)來增強(qiáng)分析，通過將圖像分割成不同的器官、組織類型或疾病癥狀。這可以減少運(yùn)行診斷測(cè)試所需的時(shí)間。

機(jī)器視覺：捕捉和處理圖像，為設(shè)備提供操作指導(dǎo)的應(yīng)用。這包括工業(yè)和非工業(yè)的應(yīng)用。機(jī)器視覺系統(tǒng)使用專用攝像機(jī)中的數(shù)字傳感器，使計(jì)算機(jī)硬件和軟件能夠測(cè)量、處理和分析圖像。例如，檢測(cè)系統(tǒng)為汽水瓶拍照，然后根據(jù)合格 - 不合格標(biāo)準(zhǔn)分析圖像，以確定瓶子是否被正確地填充。

2)視頻監(jiān)控 — 視頻跟蹤和運(yùn)動(dòng)目標(biāo)跟蹤

這涉及到在視頻中定位移動(dòng)物體。其用途包括安全和監(jiān)視、交通控制、人機(jī)交互和視頻編輯。

自動(dòng)駕駛：自動(dòng)駕駛汽車必須能夠感知和理解他們的環(huán)境，以便安全駕駛。相關(guān)類別的對(duì)象包括其他車輛、建筑物和行人。語(yǔ)義分割使自動(dòng)駕駛汽車能夠識(shí)別圖像中的哪些區(qū)域可以安全駕駛。

虹膜識(shí)別：一種能識(shí)別復(fù)雜虹膜圖案的生物特征識(shí)別技術(shù)。它使用自動(dòng)模式識(shí)別來分析人眼的視頻圖像。

3)零售圖像識(shí)別

這個(gè)應(yīng)用讓零售商了解貨架上商品的布局。算法實(shí)時(shí)處理產(chǎn)品數(shù)據(jù)，檢測(cè)貨架上是否有商品。如果有產(chǎn)品缺貨，他們可以找出原因，通知跟單員，并為供應(yīng)鏈的相應(yīng)部分推薦解決方案。

9、未來發(fā)展方向

目前的發(fā)展方向是語(yǔ)義分割，包括從圖像到視頻中的分割，對(duì)分割的精確度有很大的要求，以目前的模型表現(xiàn)來看，在準(zhǔn)確率上無(wú)疑還有提升空間。另外，弱監(jiān)督甚至無(wú)監(jiān)督訓(xùn)練來解決昂貴的數(shù)據(jù)標(biāo)注問題也是一種方向。最后，示例級(jí)別（Instance level）的圖像分割也是一個(gè)熱門研究方向。

作者：蔡衛(wèi)勇

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看