【科普文】深度學(xué)習(xí)：使用PowerVR實(shí)現(xiàn)計算機(jī)視覺

晨光skrva5u056 2017-09-13

展開全文

嵌入式視覺產(chǎn)品的市場需求量大，且呈不斷發(fā)展壯大之勢，其范圍包括消費(fèi)產(chǎn)品如手機(jī)、筆記本電腦、電視、可穿戴設(shè)備、汽車安全、安全與數(shù)據(jù)分析等。來自ABI、Gartner和TSR的最新數(shù)據(jù)表明，智能相機(jī)產(chǎn)品的總市場（TAM）量在2019年時將超過30億臺。

計算機(jī)視覺的用戶案例包括計算攝影、擴(kuò)增實(shí)境、揮手感控及場景感知。當(dāng)下，很多手機(jī)能通過人臉檢測自動調(diào)整相機(jī)對焦和曝光，而像美圖手機(jī)這樣的產(chǎn)品還能實(shí)時美化人臉。在近期召開的嵌入式視覺聯(lián)盟會議上，百度公司發(fā)布了一款深度神經(jīng)網(wǎng)絡(luò)應(yīng)用程序（DNN）。該程序允許用戶直接從相機(jī)實(shí)時輸入流中識別成千上萬的對象。百度在移動應(yīng)用程序處理器上實(shí)現(xiàn)了他們的神經(jīng)網(wǎng)絡(luò)，其使用PowerVR GPU來匹配圖像實(shí)時數(shù)據(jù)庫的對象。

百度離線移動應(yīng)用款

對于汽車市場而言，在車輛上添加計算機(jī)視覺可以減少事故的發(fā)生。例如，美國人民每年的駕駛里程為兩萬億英里，而每年大約有六百萬輛機(jī)動車發(fā)生事故。而相比之下，谷歌的無人駕駛汽車原型已經(jīng)在公路上完成了超過一百萬英里的駕駛里程，卻沒有發(fā)生任何一起因計算機(jī)故障引起的事故，這充分說明了計算機(jī)視覺在推動這個市場轉(zhuǎn)型時的巨大潛力。如今，很多制造商會提供高級駕駛員輔助系統(tǒng)(ADAS)。該系統(tǒng)在使用傳統(tǒng)的雷達(dá)和激光雷達(dá)技術(shù)時，也使用了可視化數(shù)據(jù)來實(shí)現(xiàn)安全功能，如盲點(diǎn)檢測、行人檢測和自動緊急制動。

對于監(jiān)測市場而言，將計算機(jī)視覺添加到安全攝像頭可降低閉路電視運(yùn)營商的成本，同時又可提高可靠性。例如，使用先進(jìn)的人群分析算法，則可通過檢測步行模式的細(xì)微變化來識別對象（如隱藏的武器）的存在。在消費(fèi)市場中，Nest等公司的安防產(chǎn)品可通過智能手機(jī)提醒用戶其家中發(fā)生的異動，并過濾掉不重要的異動行為如影子在墻上的移動或樹木的迎風(fēng)擺動。

超市等零售環(huán)境傳統(tǒng)上主要依靠支付和商店忠誠度來跟蹤消費(fèi)者的行為，而使用計算機(jī)視覺則為新客戶的開發(fā)帶來了契機(jī)。Vadaro等公司生產(chǎn)的零售相機(jī)可以通過評估顧客的年齡、性別、停留時間及關(guān)注的產(chǎn)品來識別顧客是新顧客還是老顧客。這些相機(jī)還能給零售商和廣告商反饋有價值的信息，并通過自動化任務(wù)如計算排隊等候人數(shù)等來改善服務(wù)質(zhì)量。

Vadaro Eagle零售分析傳感器

計算機(jī)視覺算法

計算機(jī)視覺算法涉及到許多不同類型的任務(wù)，通常呈流水線形式，如下所示：

典型的計算機(jī)視覺處理流水線

· 圖像預(yù)處理任務(wù)包括降噪、色彩標(biāo)準(zhǔn)化、伽馬校正和去翹曲。
· 特征提取和描述即標(biāo)識圖像中可精確測量的點(diǎn)和區(qū)。后續(xù)階段的處理則可在已簡化的特征上操作，這樣可避免全尺寸圖像操作，也因此降低了計算難度。
· 圖像配準(zhǔn)即對準(zhǔn)多重圖像以簡化像素級的對比工作。例如，使圖像作為全景或HDR圖像縫合在一起。
· 對于需要了解三維空間如三維模型重建的視覺算法，深度計算改善了其性能和穩(wěn)固性。
· 對象識別用于標(biāo)識代表對象類別的像素或特征。由于此任務(wù)極其復(fù)雜，許多算法都基于機(jī)器學(xué)習(xí)和人工智能技術(shù)。
· 運(yùn)動分析是從多個視頻幀中提取信息，如輔助預(yù)測車輛或行人等對象在一段時間內(nèi)的運(yùn)動軌跡。
· 啟發(fā)法可促進(jìn)瞬間決策，如允許快速移動的車輛進(jìn)行糾正操縱。

特征提取和描述

特征提取將含有大量像素的圖像轉(zhuǎn)換成已縮減的特征點(diǎn)集，即特征向量（或描述符號）。一個好的算法從輸入數(shù)據(jù)中提取相關(guān)信息是為了以縮減的圖像代替全尺寸圖像來完成后續(xù)的視覺任務(wù)。其共同的特征包括邊緣、角落及具有共享屬性如亮度或色彩（即斑點(diǎn)）的區(qū)域。比較知名的特征探測器有Sobel和Canny邊緣探測器、Harris和FAST的角點(diǎn)探測器及高斯差分 (DoG)斑點(diǎn)探測器。示例如下。

邊緣、角落和高斯差分

尺度不變特征變換算法

SIFT(尺度不變特征變換算法)是最早期的特征探測器，精準(zhǔn)度高。SIFT從DoG尺度空間極值點(diǎn)中檢測斑點(diǎn)，融入Harris檢測的變體，丟棄了類似邊緣的特征值。正如下圖所示，SIFT算法為多尺度圖像（或octave）計算尺度空間金字塔。在每個多尺度圖像中，通過高斯核卷積圖像獲得多個模糊圖像，這可抑制高頻空間信息。DoG操作從另一個低模糊版的相同圖像中減去一個模糊圖像，從而保留頻率范圍之間的空間信息。通過將其中一個模糊圖像縮減2倍像素采樣及重復(fù)計算，可連續(xù)對octave進(jìn)行計算。最終的輸出是產(chǎn)生一個迷你圖。迷你圖包括octave的多個DoG尺度空間圖像在內(nèi)，還包含了代表特征點(diǎn)的高變體區(qū)域。

高斯差分金字塔

加速強(qiáng)健特征

SIFT計算精準(zhǔn)度雖高，但計算成本大，這對于嵌入式設(shè)備的實(shí)時執(zhí)行不實(shí)用。隨后，運(yùn)算效率高的SURF(加速強(qiáng)健特征)檢測器便開始迅速發(fā)展。SURF使用一系列簡化的矩形過濾器代替了SIFT繁重的卷積操作。簡化的矩形過濾器近似高斯平滑濾波器，通過預(yù)計算積分圖像并將其存儲在一個數(shù)組中，以此有效地實(shí)現(xiàn)過濾。正如下圖所示，A區(qū)的積分圖像是其左上區(qū)域像素強(qiáng)度的總和，而通過計算D-B-C+A四個數(shù)組，便可計算在固定時間下矩形內(nèi)的像素總和。

積分圖像

哈爾特征

較為盛行的Viola-Jones人臉檢測算法也使用了矩形特征，即通常所說的哈爾特征（如下圖所示）。這些特征的計算即：減去陰影矩形中的像素總和，計算清晰矩形中像素的總和，并使用這些特征找出圖像中類似人臉區(qū)域的屬性，如：眼部區(qū)域比上臉頰（特征B）區(qū)域更暗，鼻梁區(qū)域又比眼部區(qū)域（特征C）更亮。通過在此粒度區(qū)域?qū)舆M(jìn)行操作，哈爾特征可有效地辨別人臉面部表情的變化。

Viola-Jones對象檢測框架的四種特征類型

直方圖

另一個較為流行的特征描述符是方向梯度直方圖（HOG），其使用在許多汽車ADAS系統(tǒng)中，用于檢測路面行人。如下圖所示，HOG將圖像分成單元格，并通過強(qiáng)度梯度分布描述局部出現(xiàn)的對象。這些單元格捕獲的梯度結(jié)構(gòu)是典型的局部形態(tài)，可容忍局部幾何形狀的細(xì)小變化，這也使得HOG更適于檢測直立行走的人，且無論其是否發(fā)生輕微的肢體動作均可檢測。

HOG檢測的行人

HOG通過過濾圖像卷積核來計算梯度值。隨后，單元格內(nèi)的每個像素則在梯度計算的基礎(chǔ)上對基于方向的直方圖通道進(jìn)行加權(quán)投影。并將單元格組成內(nèi)存塊，以對照度和對比度的變化進(jìn)行歸一化處理。HOG在沒有進(jìn)行定向和取向的單一圖像上操作，這使得HOG的計算成本比SIFT更低。然而，HOG所需的卷積和直方圖計算則比SURF在積分圖像上的加減法操作計算成本更高。

對象識別

對象識別即在代表某一類對象如人或汽車的圖像中標(biāo)識像素組。由于此項任務(wù)的計算復(fù)雜性，很多算法均基于機(jī)器學(xué)習(xí)和人工智能，如使用級聯(lián)分類器或神經(jīng)網(wǎng)絡(luò)。通常首先進(jìn)行離線訓(xùn)練，并產(chǎn)生一個可隨后與新圖像匹配的數(shù)據(jù)庫。此訓(xùn)練步驟的計算量大，可能需要花費(fèi)數(shù)天或數(shù)周在超級計算機(jī)上執(zhí)行。然而，與數(shù)據(jù)庫匹配新圖像則工作量小，因此適合在嵌入式設(shè)備上實(shí)時執(zhí)行。

級聯(lián)分類器

Viola-Jones人臉檢測框架使用了學(xué)習(xí)算法來篩選最佳的人臉特征和序列分類器。匹配算法使用哈爾特征使滑動窗口在圖像上移動，以檢測可能的匹配。哈爾特征是弱分類器，在孤立狀態(tài)下準(zhǔn)確度低，因此Viola-Jones對加權(quán)弱分類器進(jìn)行了線性組合，即加強(qiáng)版的分類器。加強(qiáng)版的分類器使算法快速拒絕非人臉圖像得同時，又可以高概率的檢測到人臉，因此極大平衡了性能和準(zhǔn)確度。正如下圖所示，在級聯(lián)的每個階段，均可測試當(dāng)前窗口圖像的少量特征：那些沒有被拒絕及可以進(jìn)入下一階段的特征。Viola-Jones序列分類器使用了38級的級聯(lián)，每級難度逐漸加深。第一級為簡單的注意提示，使用了兩個特征以獲得0%的假陰性率和40%的假陽性率，這大約占整個級聯(lián)評估次數(shù)的一半。

哈爾級聯(lián)分類器

支持向量機(jī)

特征空間很大時，使用級聯(lián)非常有效，因?yàn)榧壜?lián)僅僅關(guān)注執(zhí)行程度最佳的特征。當(dāng)所有的特征都要用于解決方案時（例如基于HOG特征的行人檢測算法），則通常使用更為簡單的基于監(jiān)督式學(xué)習(xí)的算法。支持向量機(jī)（SVM）便是一大例證。SVM使用學(xué)習(xí)算法來識別圖像模式。相比需要巧妙結(jié)合諸多弱分類器的加強(qiáng)版分類器，SVM建立了一個模型，并在一組訓(xùn)練樣本的基礎(chǔ)上，將一個圖像分配為兩種類別。在SVM模型中，將訓(xùn)練樣本表示為空間中的點(diǎn)進(jìn)行映射，這樣，單獨(dú)類別的樣本便可以被盡可能寬的清晰間隔分開。

一旦訓(xùn)練圖像包含了特定的對象，SVM分類器便可提供對象在其它圖像中存在的置信水平，并通過這個閥值來做出二元判定。訓(xùn)練及匹配基于SVM的分類器比級聯(lián)更加簡單，這是一大優(yōu)勢，但其計算成本卻很大。

卷積神經(jīng)網(wǎng)絡(luò)

準(zhǔn)確檢測各式各樣對象的需求大大推動了分層機(jī)器學(xué)習(xí)模型研究的發(fā)展，如卷積神經(jīng)網(wǎng)絡(luò)（CNN）。CNN試圖模仿人類視覺系統(tǒng)。正如下圖所示，CNN的核心操作是圖像卷積和縮減像素采樣。卷積過濾器坐標(biāo)是代表神經(jīng)元之間連接強(qiáng)度的權(quán)重，而縮減像素采樣操作可以在不同層次找到對象。這些操作需要不斷重復(fù)多次，由此產(chǎn)生了一套高層次的特征，并形成一個可進(jìn)行最終輸出預(yù)測的全連通圖。

CNN框架

由于CNN為每個圖像像素執(zhí)行卷積操作，因此相比其它基于手動設(shè)計特征的對象檢測如SURF和HOG，其計算成本更大。雖難度加深，但精準(zhǔn)度更高：基于CNN的檢測器在對象檢測質(zhì)量方面遙遙領(lǐng)先。此外，由于CNN存儲了所有的學(xué)習(xí)參數(shù)，因此不用改變底層算法亦可將其調(diào)整到許多不同類型的對象中。兼具準(zhǔn)確度與靈活性使其在當(dāng)下廣為流行，相信在不久的將來，CNN亦將成為主流趨勢。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：晨光skrva5u056 > 《待分類》

舉報/認(rèn)領(lǐng)