嵌入式視覺產(chǎn)品的市場需求量大,且呈不斷發(fā)展壯大之勢,其范圍包括消費(fèi)產(chǎn)品如手機(jī)、筆記本電腦、電視、可穿戴設(shè)備、汽車安全、安全與數(shù)據(jù)分析等。來自ABI、Gartner和TSR的最新數(shù)據(jù)表明,智能相機(jī)產(chǎn)品的總市場(TAM)量在2019年時將超過30億臺。 計算機(jī)視覺的用戶案例包括計算攝影、擴(kuò)增實(shí)境、揮手感控及場景感知。當(dāng)下,很多手機(jī)能通過人臉檢測自動調(diào)整相機(jī)對焦和曝光,而像美圖手機(jī)這樣的產(chǎn)品還能實(shí)時美化人臉。在近期召開的嵌入式視覺聯(lián)盟會議上,百度公司發(fā)布了一款深度神經(jīng)網(wǎng)絡(luò)應(yīng)用程序(DNN)。該程序允許用戶直接從相機(jī)實(shí)時輸入流中識別成千上萬的對象。百度在移動應(yīng)用程序處理器上實(shí)現(xiàn)了他們的神經(jīng)網(wǎng)絡(luò),其使用PowerVR GPU來匹配圖像實(shí)時數(shù)據(jù)庫的對象。
百度離線移動應(yīng)用款 對于汽車市場而言,在車輛上添加計算機(jī)視覺可以減少事故的發(fā)生。例如,美國人民每年的駕駛里程為兩萬億英里,而每年大約有六百萬輛機(jī)動車發(fā)生事故。而相比之下,谷歌的無人駕駛汽車原型已經(jīng)在公路上完成了超過一百萬英里的駕駛里程,卻沒有發(fā)生任何一起因計算機(jī)故障引起的事故,這充分說明了計算機(jī)視覺在推動這個市場轉(zhuǎn)型時的巨大潛力。如今,很多制造商會提供高級駕駛員輔助系統(tǒng)(ADAS)。該系統(tǒng)在使用傳統(tǒng)的雷達(dá)和激光雷達(dá)技術(shù)時,也使用了可視化數(shù)據(jù)來實(shí)現(xiàn)安全功能,如盲點(diǎn)檢測、行人檢測和自動緊急制動。 對于監(jiān)測市場而言,將計算機(jī)視覺添加到安全攝像頭可降低閉路電視運(yùn)營商的成本,同時又可提高可靠性。例如,使用先進(jìn)的人群分析算法,則可通過檢測步行模式的細(xì)微變化來識別對象(如隱藏的武器)的存在。在消費(fèi)市場中,Nest等公司的安防產(chǎn)品可通過智能手機(jī)提醒用戶其家中發(fā)生的異動,并過濾掉不重要的異動行為如影子在墻上的移動或樹木的迎風(fēng)擺動。 超市等零售環(huán)境傳統(tǒng)上主要依靠支付和商店忠誠度來跟蹤消費(fèi)者的行為,而使用計算機(jī)視覺則為新客戶的開發(fā)帶來了契機(jī)。Vadaro等公司生產(chǎn)的零售相機(jī)可以通過評估顧客的年齡、性別、停留時間及關(guān)注的產(chǎn)品來識別顧客是新顧客還是老顧客。這些相機(jī)還能給零售商和廣告商反饋有價值的信息,并通過自動化任務(wù)如計算排隊等候人數(shù)等來改善服務(wù)質(zhì)量。
Vadaro Eagle零售分析傳感器 計算機(jī)視覺算法 計算機(jī)視覺算法涉及到許多不同類型的任務(wù),通常呈流水線形式,如下所示:
典型的計算機(jī)視覺處理流水線
· 圖像預(yù)處理任務(wù)包括降噪、色彩標(biāo)準(zhǔn)化、伽馬校正和去翹曲。 特征提取和描述 特征提取將含有大量像素的圖像轉(zhuǎn)換成已縮減的特征點(diǎn)集,即特征向量(或描述符號)。一個好的算法從輸入數(shù)據(jù)中提取相關(guān)信息是為了以縮減的圖像代替全尺寸圖像來完成后續(xù)的視覺任務(wù)。其共同的特征包括邊緣、角落及具有共享屬性如亮度或色彩(即斑點(diǎn))的區(qū)域。比較知名的特征探測器有Sobel和Canny邊緣探測器、Harris和FAST的角點(diǎn)探測器及高斯差分 (DoG)斑點(diǎn)探測器。示例如下。
邊緣、角落和高斯差分 尺度不變特征變換算法 SIFT(尺度不變特征變換算法)是最早期的特征探測器,精準(zhǔn)度高。SIFT從DoG尺度空間極值點(diǎn)中檢測斑點(diǎn),融入Harris檢測的變體,丟棄了類似邊緣的特征值。正如下圖所示,SIFT算法為多尺度圖像(或octave)計算尺度空間金字塔。在每個多尺度圖像中,通過高斯核卷積圖像獲得多個模糊圖像,這可抑制高頻空間信息。DoG操作從另一個低模糊版的相同圖像中減去一個模糊圖像,從而保留頻率范圍之間的空間信息。通過將其中一個模糊圖像縮減2倍像素采樣及重復(fù)計算,可連續(xù)對octave進(jìn)行計算。最終的輸出是產(chǎn)生一個迷你圖。迷你圖包括octave的多個DoG尺度空間圖像在內(nèi),還包含了代表特征點(diǎn)的高變體區(qū)域。
高斯差分金字塔 加速強(qiáng)健特征 SIFT計算精準(zhǔn)度雖高,但計算成本大,這對于嵌入式設(shè)備的實(shí)時執(zhí)行不實(shí)用。隨后,運(yùn)算效率高的SURF(加速強(qiáng)健特征)檢測器便開始迅速發(fā)展。SURF使用一系列簡化的矩形過濾器代替了SIFT繁重的卷積操作。簡化的矩形過濾器近似高斯平滑濾波器,通過預(yù)計算積分圖像并將其存儲在一個數(shù)組中,以此有效地實(shí)現(xiàn)過濾。正如下圖所示,A區(qū)的積分圖像是其左上區(qū)域像素強(qiáng)度的總和,而通過計算D-B-C+A四個數(shù)組, 便可計算在固定時間下矩形內(nèi)的像素總和。
積分圖像 哈爾特征 較為盛行的Viola-Jones人臉檢測算法也使用了矩形特征,即通常所說的哈爾特征(如下圖所示)。這些特征的計算即:減去陰影矩形中的像素總和,計算清晰矩形中像素的總和,并使用這些特征找出圖像中類似人臉區(qū)域的屬性,如:眼部區(qū)域比上臉頰(特征B)區(qū)域更暗,鼻梁區(qū)域又比眼部區(qū)域(特征C)更亮。通過在此粒度區(qū)域?qū)舆M(jìn)行操作,哈爾特征可有效地辨別人臉面部表情的變化。
Viola-Jones對象檢測框架的四種特征類型 直方圖 另一個較為流行的特征描述符是方向梯度直方圖(HOG),其使用在許多汽車ADAS系統(tǒng)中,用于檢測路面行人。如下圖所示,HOG將圖像分成單元格,并通過強(qiáng)度梯度分布描述局部出現(xiàn)的對象。這些單元格捕獲的梯度結(jié)構(gòu)是典型的局部形態(tài),可容忍局部幾何形狀的細(xì)小變化,這也使得HOG更適于檢測直立行走的人,且無論其是否發(fā)生輕微的肢體動作均可檢測。
HOG檢測的行人 HOG通過過濾圖像卷積核來計算梯度值。隨后,單元格內(nèi)的每個像素則在梯度計算的基礎(chǔ)上對基于方向的直方圖通道進(jìn)行加權(quán)投影。并將單元格組成內(nèi)存塊,以對照度和對比度的變化進(jìn)行歸一化處理。HOG在沒有進(jìn)行定向和取向的單一圖像上操作,這使得HOG的計算成本比SIFT更低。然而,HOG所需的卷積和直方圖計算則比SURF在積分圖像上的加減法操作計算成本更高。 對象識別 對象識別即在代表某一類對象如人或汽車的圖像中標(biāo)識像素組。由于此項任務(wù)的計算復(fù)雜性,很多算法均基于機(jī)器學(xué)習(xí)和人工智能,如使用級聯(lián)分類器或神經(jīng)網(wǎng)絡(luò)。通常首先進(jìn)行離線訓(xùn)練,并產(chǎn)生一個可隨后與新圖像匹配的數(shù)據(jù)庫。此訓(xùn)練步驟的計算量大,可能需要花費(fèi)數(shù)天或數(shù)周在超級計算機(jī)上執(zhí)行。然而,與數(shù)據(jù)庫匹配新圖像則工作量小,因此適合在嵌入式設(shè)備上實(shí)時執(zhí)行。 級聯(lián)分類器 Viola-Jones人臉檢測框架使用了學(xué)習(xí)算法來篩選最佳的人臉特征和序列分類器。匹配算法使用哈爾特征使滑動窗口在圖像上移動,以檢測可能的匹配。哈爾特征是弱分類器,在孤立狀態(tài)下準(zhǔn)確度低,因此Viola-Jones對加權(quán)弱分類器進(jìn)行了線性組合,即加強(qiáng)版的分類器。加強(qiáng)版的分類器使算法快速拒絕非人臉圖像得同時,又可以高概率的檢測到人臉,因此極大平衡了性能和準(zhǔn)確度。正如下圖所示,在級聯(lián)的每個階段,均可測試當(dāng)前窗口圖像的少量特征:那些沒有被拒絕及可以進(jìn)入下一階段的特征。Viola-Jones序列分類器使用了38級的級聯(lián),每級難度逐漸加深。第一級為簡單的注意提示,使用了兩個特征以獲得0%的假陰性率和40%的假陽性率,這大約占整個級聯(lián)評估次數(shù)的一半。
哈爾級聯(lián)分類器 支持向量機(jī) 特征空間很大時,使用級聯(lián)非常有效,因?yàn)榧壜?lián)僅僅關(guān)注執(zhí)行程度最佳的特征。當(dāng)所有的特征都要用于解決方案時(例如基于HOG特征的行人檢測算法),則通常使用更為簡單的基于監(jiān)督式學(xué)習(xí)的算法。支持向量機(jī)(SVM)便是一大例證。SVM使用學(xué)習(xí)算法來識別圖像模式。相比需要巧妙結(jié)合諸多弱分類器的加強(qiáng)版分類器,SVM建立了一個模型,并在一組訓(xùn)練樣本的基礎(chǔ)上,將一個圖像分配為兩種類別。在SVM模型中,將訓(xùn)練樣本表示為空間中的點(diǎn)進(jìn)行映射,這樣,單獨(dú)類別的樣本便可以被盡可能寬的清晰間隔分開。 一旦訓(xùn)練圖像包含了特定的對象,SVM分類器便可提供對象在其它圖像中存在的置信水平,并通過這個閥值來做出二元判定。訓(xùn)練及匹配基于SVM的分類器比級聯(lián)更加簡單,這是一大優(yōu)勢,但其計算成本卻很大。 卷積神經(jīng)網(wǎng)絡(luò) 準(zhǔn)確檢測各式各樣對象的需求大大推動了分層機(jī)器學(xué)習(xí)模型研究的發(fā)展,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)。CNN試圖模仿人類視覺系統(tǒng)。正如下圖所示,CNN的核心操作是圖像卷積和縮減像素采樣。卷積過濾器坐標(biāo)是代表神經(jīng)元之間連接強(qiáng)度的權(quán)重,而縮減像素采樣操作可以在不同層次找到對象。這些操作需要不斷重復(fù)多次,由此產(chǎn)生了一套高層次的特征,并形成一個可進(jìn)行最終輸出預(yù)測的全連通圖。
CNN框架 由于CNN為每個圖像像素執(zhí)行卷積操作,因此相比其它基于手動設(shè)計特征的對象檢測如SURF和HOG,其計算成本更大。雖難度加深,但精準(zhǔn)度更高:基于CNN的檢測器在對象檢測質(zhì)量方面遙遙領(lǐng)先。此外,由于CNN存儲了所有的學(xué)習(xí)參數(shù),因此不用改變底層算法亦可將其調(diào)整到許多不同類型的對象中。兼具準(zhǔn)確度與靈活性使其在當(dāng)下廣為流行,相信在不久的將來,CNN亦將成為主流趨勢。
|
|