青榴實(shí)驗(yàn)室 1周前1、什么是圖像分割圖像分割是圖像分析的第一步,是計(jì)算機(jī)視覺的基礎(chǔ),是圖像理解的重要組成部分,同時(shí)也是圖像處理中最困難的問題之一。所謂圖像分割是指根據(jù)灰度、彩色、空間紋理、幾何形狀等特征把圖像劃分為若干個(gè)互不相交的區(qū)域,使得這些特征在同一個(gè)區(qū)域內(nèi)表現(xiàn)出一致性或相似性,而在不同區(qū)域間表現(xiàn)出明顯的不同。簡(jiǎn)單的說就是在一幅圖像中,把目標(biāo)從背景中分離出來。圖像分割是為圖像中的每一個(gè)像素打上標(biāo)簽,其中具有相同標(biāo)簽的像素具有相同特征。 2、圖像分割類型圖像分割是將像素分類的過程,分類的依據(jù)可建立在:像素間的相似性、非連續(xù)性。圖像分割主要有兩種類型:語(yǔ)義分割和實(shí)例分割。 在語(yǔ)義分割中,所有物體都是同一類型的,所有相同類型的物體都使用一個(gè)類標(biāo)簽進(jìn)行標(biāo)記,而在實(shí)例分割中,相似的物體可以有自己獨(dú)立的標(biāo)簽。 3、圖像分割架構(gòu)圖像分割的基本結(jié)構(gòu)由編碼器和解碼器組成。編碼器通過過濾器從圖像中提取特征。解碼器負(fù)責(zé)生成最終輸出,通常是包含對(duì)象輪廓的分割掩碼(segmantation mask)。大多數(shù)架構(gòu)都有這種體系結(jié)構(gòu)或其變體。 4、圖像分割方法在圖像分割領(lǐng)域中有多種技術(shù):基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法以及基于特定理論的分割方法等。 1)閾值技術(shù)--該技術(shù)的主要目的在于確定圖像的最佳閾值。強(qiáng)度值超過閾值的像素其強(qiáng)度將變?yōu)?,其余像素的強(qiáng)度值將變?yōu)榱?,最后形成一個(gè)二值圖。用于選擇閾值的方法有:Otsu,k均值聚類,和最大熵法。 2)運(yùn)動(dòng)與交互分割--該技術(shù)基于圖像中的運(yùn)動(dòng)來進(jìn)行分割。其思想很直觀,在假設(shè)目標(biāo)是運(yùn)動(dòng)的情況下找出兩幅圖中的差異,那么不同之處一定就是目標(biāo)位置。 3)邊界檢測(cè)--包含多種數(shù)學(xué)方法,其目的在于標(biāo)出數(shù)字圖像中處于圖像亮度變化劇烈,或者更正式的講,具有不連貫性的區(qū)域中的點(diǎn)。由于區(qū)域邊界和邊具有很高關(guān)聯(lián)性,因此邊界檢測(cè)通常是另一種分割技術(shù)的前提步驟。 4)區(qū)域增長(zhǎng)方法--主要建立在同一區(qū)域中相鄰像素具有相近像素值的假設(shè)之上。常見步驟為將像素與其近鄰像素作比較,如果滿足相似性標(biāo)準(zhǔn),則該像素就可以被劃分到以一個(gè)或更多其近鄰點(diǎn)組成的聚類中去。相似性標(biāo)準(zhǔn)的選擇很關(guān)鍵,并且在所有實(shí)例中其結(jié)果易受到噪聲影響。 5、基于深度學(xué)習(xí)的圖像分割深度學(xué)習(xí)使得圖像分割的準(zhǔn)確率提高了很多,現(xiàn)代圖像分割技術(shù)以深度學(xué)習(xí)技術(shù)為動(dòng)力。下面是幾種用于分割的深度學(xué)習(xí)架構(gòu): 1)U-NetU-Net是一個(gè)最初用于開發(fā)生物影響分割的卷積神經(jīng)網(wǎng)絡(luò)。從視覺上看,它的架構(gòu)看起來像字母U,因此而得名U-Net。它的架構(gòu)由兩部分組成,左邊是收縮路徑,右邊是擴(kuò)展路徑。收縮路徑的目的是捕獲內(nèi)容,而擴(kuò)展路徑的角色是幫助精確定位。 U-Net由右側(cè)的擴(kuò)展路徑和左側(cè)的收縮路徑組成。收縮路徑由兩個(gè)3×3的卷積層組成。卷積之后是一個(gè)校正的線性單元和和一個(gè)2×2的max-pooling池化層的計(jì)算來做下采樣。 2)FastFCN — 快速全連接網(wǎng)絡(luò)在這種結(jié)構(gòu)中,一個(gè)使用聯(lián)合金字塔上采樣(JPU)模塊來代替了擴(kuò)展卷積網(wǎng)絡(luò),因?yàn)榫矸e網(wǎng)絡(luò)消耗大量的內(nèi)存和計(jì)算時(shí)間。它使用一個(gè)完全連接的網(wǎng)絡(luò)作為核心,同時(shí)應(yīng)用JPU進(jìn)行上采樣。JJPU將低分辨率的feature map上采樣為高分辨率的feature map。 3)Gated-SCNN這個(gè)架構(gòu)由一個(gè)雙流CNN架構(gòu)組成。在該模型中,使用一個(gè)單獨(dú)的分支來處理圖像的形狀信息。形狀流用于處理邊界信息。 4)DeepLab(深度實(shí)驗(yàn)室)在這種體系結(jié)構(gòu)中,帶有上采樣濾波器的卷積用于涉及密集預(yù)測(cè)的任務(wù)。多個(gè)對(duì)象的分割是通過無(wú)空間金字塔空間池完成的。最后,利用DCNNs改進(jìn)了目標(biāo)邊界的定位。通過插入零或輸入特征圖進(jìn)行稀疏采樣來對(duì)濾波器進(jìn)行上采樣,從而實(shí)現(xiàn)無(wú)用卷積。 5)Mask R-CNN在這個(gè)體系結(jié)構(gòu)中,使用一個(gè)邊界框/包圍盒和語(yǔ)義分割對(duì)對(duì)象進(jìn)行分類和定位,該語(yǔ)義分割將每個(gè)像素分類為一組類別。每個(gè)感興趣的區(qū)域都有一個(gè)分割蒙版。并且將產(chǎn)生一個(gè)類標(biāo)簽和一個(gè)邊界框作為最終輸出。實(shí)際上該體系結(jié)構(gòu)是Faster R-CNN的擴(kuò)展。Faster R-CNN由提出區(qū)域的深度卷積網(wǎng)絡(luò)和利用區(qū)域的檢測(cè)器組成。 這是在COCO測(cè)試集上獲得的結(jié)果的圖像。 6、圖像分割的數(shù)據(jù)集介紹完訓(xùn)練方法后,從哪里可以獲得相應(yīng)的數(shù)據(jù)集來進(jìn)行圖像分割的學(xué)習(xí)呢?現(xiàn)在來看下有哪些數(shù)據(jù)集可直接使用: 1)Common Objects in COntext — Coco數(shù)據(jù)集 COCO是一個(gè)大規(guī)模的物體檢測(cè)、圖像分割和五項(xiàng)描述生成的大規(guī)模數(shù)據(jù)集。這個(gè)數(shù)據(jù)集中一共包含91個(gè)物品類別。包含著250000帶有關(guān)鍵點(diǎn)標(biāo)注的人。它的下載大小是37.57GIB。它包含80個(gè)對(duì)象類別。它在Apache2.0許可下可用,可以從這里下載(https:///#download)。 2)PASCAL可視化對(duì)象類(PASCAL VOC) PASCAL有9963張圖片,有20個(gè)不同的類別。訓(xùn)練/驗(yàn)證集是一個(gè)2GB的tar文件。數(shù)據(jù)集可以從官方網(wǎng)站下載:http://host.robots./pascal/VOC/voc2012/ 3)Cityscapes 數(shù)據(jù)集此數(shù)據(jù)集包含城市場(chǎng)景的圖像。它可以用來評(píng)價(jià)視覺算法在城市場(chǎng)景中的性能。數(shù)據(jù)集可以從這里下載:https://www./。 4)Cambridge駕駛標(biāo)注視頻數(shù)據(jù)庫(kù) — CamVid 這是一個(gè)基于運(yùn)動(dòng)的分割和識(shí)別數(shù)據(jù)集。它包含32個(gè)語(yǔ)義類別。此鏈接包含進(jìn)一步的解釋和指向數(shù)據(jù)集的下載鏈接:http://mi.eng./research/projects/VideoRec/CamVid/。 7、圖像分割工具及框架在已經(jīng)準(zhǔn)備好了可使用的數(shù)據(jù)集后,下面介紹一些可以用來入門的工具/框架。 FastAI庫(kù)——給定一個(gè)圖像,這個(gè)庫(kù)可以創(chuàng)建圖像中對(duì)象的掩碼/遮罩。 Sefexa圖像分割工具-——Sefexa是一個(gè)免費(fèi)的工具,可用于半自動(dòng)圖像分割、圖像分析和地面真實(shí)性的創(chuàng)建。 Deepmask——Facebook Research的Deepmask是Deepmask和SharpMask的Torch實(shí)現(xiàn)。 MultiPath——這是“用于對(duì)象檢測(cè)的MultiPath網(wǎng)絡(luò) ”中對(duì)象檢測(cè)網(wǎng)絡(luò)的Torch實(shí)現(xiàn)。 OpenCV——這是一個(gè)開源的計(jì)算機(jī)視覺庫(kù),有超過2500個(gè)優(yōu)化算法。 MIScnn——是一個(gè)醫(yī)學(xué)圖像分割開源庫(kù)。它允許在幾行代碼中使用最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型來建立管道。 Fritz——Fritz提供了幾種計(jì)算機(jī)視覺工具,包括用于移動(dòng)設(shè)備的圖像分割工具。 8、圖像分割的應(yīng)用圖像分割有助于確定目標(biāo)之間的關(guān)系,以及目標(biāo)在圖像中的上下文。應(yīng)用包括人臉識(shí)別、車牌識(shí)別和衛(wèi)星圖像分析。例如,零售和時(shí)尚等行業(yè)在基于圖像的搜索中使用了圖像分割。自動(dòng)駕駛汽車用它來了解周圍的環(huán)境。 1)目標(biāo)檢測(cè)和人臉檢測(cè)人臉檢測(cè):一種用于許多應(yīng)用的目標(biāo)檢測(cè),包括數(shù)字相機(jī)的生物識(shí)別和自動(dòng)對(duì)焦功能。算法檢測(cè)和驗(yàn)證面部特征的存在。例如,眼睛在灰度圖像中顯示為谷地。 醫(yī)學(xué)影像:從醫(yī)學(xué)影像中提取臨床相關(guān)信息。例如,放射學(xué)家可以使用機(jī)器學(xué)習(xí)來增強(qiáng)分析,通過將圖像分割成不同的器官、組織類型或疾病癥狀。這可以減少運(yùn)行診斷測(cè)試所需的時(shí)間。 機(jī)器視覺:捕捉和處理圖像,為設(shè)備提供操作指導(dǎo)的應(yīng)用。這包括工業(yè)和非工業(yè)的應(yīng)用。機(jī)器視覺系統(tǒng)使用專用攝像機(jī)中的數(shù)字傳感器,使計(jì)算機(jī)硬件和軟件能夠測(cè)量、處理和分析圖像。例如,檢測(cè)系統(tǒng)為汽水瓶拍照,然后根據(jù)合格 - 不合格標(biāo)準(zhǔn)分析圖像,以確定瓶子是否被正確地填充。 2)視頻監(jiān)控 — 視頻跟蹤和運(yùn)動(dòng)目標(biāo)跟蹤這涉及到在視頻中定位移動(dòng)物體。其用途包括安全和監(jiān)視、交通控制、人機(jī)交互和視頻編輯。 自動(dòng)駕駛:自動(dòng)駕駛汽車必須能夠感知和理解他們的環(huán)境,以便安全駕駛。相關(guān)類別的對(duì)象包括其他車輛、建筑物和行人。語(yǔ)義分割使自動(dòng)駕駛汽車能夠識(shí)別圖像中的哪些區(qū)域可以安全駕駛。 虹膜識(shí)別:一種能識(shí)別復(fù)雜虹膜圖案的生物特征識(shí)別技術(shù)。它使用自動(dòng)模式識(shí)別來分析人眼的視頻圖像。 3)零售圖像識(shí)別這個(gè)應(yīng)用讓零售商了解貨架上商品的布局。算法實(shí)時(shí)處理產(chǎn)品數(shù)據(jù),檢測(cè)貨架上是否有商品。如果有產(chǎn)品缺貨,他們可以找出原因,通知跟單員,并為供應(yīng)鏈的相應(yīng)部分推薦解決方案。 9、未來發(fā)展方向目前的發(fā)展方向是語(yǔ)義分割,包括從圖像到視頻中的分割,對(duì)分割的精確度有很大的要求,以目前的模型表現(xiàn)來看,在準(zhǔn)確率上無(wú)疑還有提升空間。另外,弱監(jiān)督甚至無(wú)監(jiān)督訓(xùn)練來解決昂貴的數(shù)據(jù)標(biāo)注問題也是一種方向。最后,示例級(jí)別(Instance level)的圖像分割也是一個(gè)熱門研究方向。 作者:蔡衛(wèi)勇 |
|