好文回顧: 人臉檢測與識別的趨勢和分析 人臉檢測與識別的趨勢和分析(增強版) 人臉檢測與識別技術(shù)(怎么去創(chuàng)新?) 每日一學——神經(jīng)網(wǎng)絡(上) 每日一學——神經(jīng)網(wǎng)絡(下) 資源 | 深度學習入門和學習書籍 好久沒有推送一些精彩的文章,不知道大家有沒有很渴望來一場學術(shù)交流,增強人工智能領域的學習動力,有很多的您剛加入,有很多的您是這方面的專家。希望大家可以共同去學習,相互交流,激發(fā)深入的創(chuàng)新之門。 今天給大家?guī)淼氖且黄唵蔚哪繕俗R別算法綜述性文章,希望有興趣的您繼續(xù)閱讀下去,謝謝! 視覺目標識別,又稱關于視覺圖像的模式識別, 旨在利用圖像處理與模式識別領域的理論和方法,確定圖像中是否存在感興趣的目標, 如果存在則為目標賦予合理的解釋,并且還要確定其位置。計算機視覺理論的奠基者,英國神經(jīng)生理學家Marr認為,視覺要解決的問題可歸結(jié)為“What is Where”,即“ 什么東西在什么地方”。因此計算機視覺的研究中,目標識別是最基本的研究問題之一。其研究主要包括基于視頻圖像的目標識別和基于靜態(tài)圖像的目標識別,本文這次主要來討論基于靜態(tài)圖像的目標識別。 近年來,目標識別技術(shù)受到越來越多的重視,在很多領域得到極大發(fā)展和應用。包括安防領域的人臉識別、行人檢測、智能視頻分析等;交通領域的交通場景目標識別、車輛計數(shù)、逆行檢測、車牌檢測和識別;以及互聯(lián)網(wǎng)領域的基于內(nèi)容的圖像檢索、相冊自動歸類等。所以,圖像目標識別具有重要的研究意義,且其研究成果具有非常廣闊的應用前景 目前,國內(nèi)外有很多針對目標識別的研究進展分析,但大多是針對空間目標、空中目標的雷達目標識別及機場跑道目標的遙感目標識別,針對地面圖像目標識別的綜述文獻還較少。本文針對圖像目標識別的國際常用有效算法進行分析, 并對其發(fā)展趨勢進行展望。 1 目標識別系統(tǒng) 目標識別可理解為計算機對圖像特征分析,然后對目標概念理解過程。目標識別系統(tǒng)主要分為如圖1所示幾個部分。 輸入圖像可能存在視角變化、光照變化和遮擋等問題,使目標識別具有挑戰(zhàn)性。為了比較不同算法的性能,通常使用共同標準數(shù)據(jù)庫,如目前目標識別研究主要使用的Caltech系列數(shù)據(jù)庫、PASCAL VOC數(shù)據(jù)庫和ImageNet數(shù)據(jù)庫。 預處理的目的是在最小限度影響目標本質(zhì)特征條件下,通過對圖像的顏色、亮度和大小等表觀特征進行處理,以便于提取正確的目標特征,減少后續(xù)識別算法的復雜度并提高效率。主要有圖像增強、灰度化、二值化、歸一化等數(shù)字圖像處理操作。 特征生成指用數(shù)值形式將能夠充分表示的特征表達出來,目的是盡量獲取圖像真實特征,濾除虛假特征。特征生成影響著識別算法的準確性和實時性, 需要解決提取什么特征這一問題,主要有底層特征、 中層特征和高層特征三種方案。 模型構(gòu)建的主要目的是通過提取相同類別目標的共同之處、區(qū)分異類別目標的不同之處,對特征及特征間的空間結(jié)構(gòu)進行高效處理、存儲和利用,是設計整個識別系統(tǒng)的關鍵所在。模型構(gòu)建按照統(tǒng)計結(jié)構(gòu)可以分為生成模型(Generative Model)和判別模型(Discriminative Model)。 模型訓練是在目標特征和模型確定后,在指定訓練圖像集進行學習訓練、將得到的目標模型參數(shù)作為目標識別的重要依據(jù)。模型訓練按訓練方法的不同可以分為有監(jiān)督、無監(jiān)督和半監(jiān)督三種訓練方式,按分類器的不同主要有支持向量機SVM、KNN、 神經(jīng)網(wǎng)絡 NNs(Neural Networks) 和隨機森林等。 目標檢測是利用樣本集訓練出的模型與測試圖像提取出的模型進行匹配,獲取測試圖像的目標種類及位置信息,是整個識別系統(tǒng)的最后步驟。目標搜索則是其中關鍵,直接影響識別系統(tǒng)的性能。目前,主要的目標搜索方法有基于滑動窗口的搜索方法和基于圖像分割的搜索方法。 在目標識別系統(tǒng)基本框架下,采用不同模型衍生出不同的識別算法,通常使用準確性、實時性和魯棒性對不同算法進行評價。準確性指目標識別算法對目標物體識別檢測的準確率,衡量算法性能,通常使用平均正確率 AP(Average Precision)進行評估,實時性指目標識別算法從一幅圖像中識別出目標的所需時間,決定算法應用前景,魯棒性通常表現(xiàn)為目標識別算法所選用分類器對特性或參數(shù)擾動的不敏感性,其主要影響因素為訓練集樣本。 2 典型識別算法及其進展 2.1 詞袋模型及其進展 詞袋 BOW(Bag-Of-Words) 模型, 也稱為特征袋 BOF(Bag-Of-Feature) 模型,起初只應用于文本分析,通過對文本中的單詞頻率建模來描述文檔。Csurka等人將BOW 首次引入計算機視覺后,在目標識別、場景分析等領域得到廣泛應用。 BOW模型通常利用SIFT 等底層特征, 對特征點或特征區(qū)域進行描述, 提取得到圖像特征矢量。然后通過聚類、求質(zhì)心等方法矢量量化所有訓練樣本庫圖像的特征矢量,得到的質(zhì)心即為BOW中的詞,進而形成詞袋或詞典。接著借助統(tǒng)計直方圖方法分析描述目標樣本的詞的特征矢量頻率,則直方圖信息為訓練分類器時的輸入。最后,對測試圖像采取相同的方法進行特征提取,求出與特征矢量相對應的詞在圖像目標中出現(xiàn)頻率, 也使用直方圖進行描述, 并將其輸入到已訓練的分類器中, 即可得到最終的識別結(jié)果。 BOW模型由于忽略了目標的空間位置、丟失目標的幾何結(jié)構(gòu)等信息,因此影響其目標的描述能力,但文獻中卻巧妙將其利用到人體識別中。該文提出因為人的姿態(tài)變化和遮擋的位置信息會使特征向量不一致,如果直接忽略位置信息,則即使不同位置的人體姿態(tài)變化也可以用一致的特征表示,人體遮擋后可見的部分也可構(gòu)造特征表示,因此獲得較好的處理目標形變和部分遮擋能力。 由于BOW模型簡單,對噪聲影響不敏感且不需要分割圖像等優(yōu)點,使基于詞袋框架結(jié)構(gòu)的識別算法得到研究人員的廣泛關注,并在其框架基礎上提出稀疏編碼、混合生成判別模型等新的方法。其中空間金字塔匹配模型,在第n層,粗糙的將圖像劃分成4^n個子圖像,然后對每個子圖像均建立BOW模型并串聯(lián)起來,結(jié)果作為第n層圖像表示空間金字塔模型與稀疏編碼方法相結(jié)合,將BOW模型的發(fā)展推進一個新的階段,成為視覺目標識別最常用算法之一。 2.2 梯度方向直方圖模型及其進展 梯度方向直方圖HOG模型是2005年CVPR會議上,法國國家計算機科學及自動控制研究所的Dalal和Tringgs等人提出的一種解決人體目標檢測的圖像描述子。該方法使用HOG特征來表達人體,提取人體的外形信息和運動信息,形成豐富的特征集。HOG的主要思想為在一副圖像中,局部目標的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。 HOG的生成概括為先將圖像分成小的連通區(qū)域cell,然后采集cell中各像素點的梯度的或邊緣的方向直方圖,再將這些直方圖組合起來則構(gòu)成特征描述器。其具體流程如圖2 所示。采用Gamma校正法對輸入圖像進行顏色空間歸一化,可以提高檢測器對光照和陰影影響的魯棒性。計算圖像每個像素大小和方向 的梯度,主要是為了捕獲輪廓信息,同時進一步弱化光照變換的干擾。然后將圖像劃分成若干細胞單元格,并以細胞為單位統(tǒng)計圖像梯度方向直方圖,這樣能夠保持圖像中目標的姿勢和外觀的弱敏感性。為了能夠進一步地對光照、陰影和邊緣進行壓縮,將各個細胞單元格組合形成大的塊,以此為單位進行對比度歸一化,得到的塊向量即為HOG描述符。 最 后 將 檢 測 窗口中所 有 重 疊 的 塊 進行HOG特征的收集,并將它們結(jié)合成最終的特征向量供分類使用。 Dalal等人提出的基于HOG行人檢測算法選用判別模型, 采用監(jiān)督學習方式訓練SVM分類器,在目標檢測階段使用滑動窗口法進行目標搜索。HOG與SVM相結(jié)合,因其具有關照不變性、模型可視性和相對較高的識別精度,在目標識別中得到廣泛應用。但其也存在實時性差、很難處理遮擋角度變換和旋轉(zhuǎn)問題 等缺點。 針對這些問題, 研究人員就行了大量努力。局部二值模式LBP與HOG結(jié)合的識別算法,通過對底層HOG特征進行改進,比較有效的解決了遮擋問題,使目標識別準確性顯著提高;在HOG特征提取階段,使用三維球面坐標系替換二維直角坐標系,建立的HOG描述符可以取得較好的旋轉(zhuǎn)不變性,但仍未解決視角變換問題。為此, 有文獻使用多角度SIFT算法,并通過構(gòu)建經(jīng)緯度模型進 行仿射特征提取,成功解決了視覺變換問題, 但多角度SIFT算法的引進帶來巨大運算量,降低了識別的實時性。 2.3 可變部件模型及其進展 Pedro Felzenszwalb教授為了在特征描 述 階 段 定 義 物 體 形 變,提 出 了 可 變 部 件 模 型DPM。DPM可以理解為HOG的擴展,其思路大體與HOG一致———先計算梯度方向直方圖,然后用SVM訓練得到物體的梯度模型,用其對圖像進行識別。 DPM使用星型結(jié)構(gòu)的部件模型。此模型由一個根濾波器、一系列部件濾波器以及相應的可變形模型構(gòu)成。根濾波器包含目標的整體信息,而部件濾波器采用高分辨率的細節(jié)建模。星型模型在圖像特定位置和尺度的得分, 等于根濾波器的得分加上各個部件的得分的總和。每個部件的得分等于此部件在所有空間位置的得分的最大值,而部件在某位置的得分等于部件濾波器在此位置的得分減去此位置的變形代價。變形代價衡量了部件偏離其理想位置的程度,即部件偏離與根濾波器的最優(yōu)相對位置程度。通過定位每個部件和定量部件之間的相對位置關系,DPM 模型容許目標出現(xiàn)較大程度的外觀形變。DPM 模型采用多組件結(jié)構(gòu),一類目標模型可以同時包含正面、斜面和側(cè)面等組件,多組件結(jié)構(gòu)克服了視覺變換的挑戰(zhàn)。 Pedro提出的基于 DPM 識別算法,使用判別分類器完成目標識別,采用半監(jiān)督學習訓練隱變量支持向量機 LSVM,即目標位置作為隱變量,將其放入SVM 的目標函數(shù)進行優(yōu)化,以判別訓練方法獲取物體的最優(yōu)位置,在目標檢測階段使用滑動窗口法進行目標搜索。因DPM模型不僅具有HOG的關照不變性、 模型可視性等優(yōu)點,還能很好的處理遮擋、非剛性可變和視角變換問題, 大大提高了識別正確率,使 DPM 模型成為這幾年最為流行的圖像目標檢測算法。雖然 DPM 算法相對其他算法具有較高的準確性,但研究人員一直致力于得到更高的識別性能。有文獻在DPM 模型基礎上同時引入上下 文 學 習 和 空 間 混 合 建 模,并 提 出 一 種 數(shù) 據(jù) 分 解 算 法,較 大 地 提 高 了AP值,成為PASCAL 2011的目標識別冠軍。但基于DPM 識別算法也具有實時性差、不具有旋轉(zhuǎn)不變性等缺點,為了提高識別實時性, 研究人員進行了大量努力。 Pedro文獻中采用級聯(lián)思想加速目標搜索,在保持準確率的同時使識別速度提高了十倍,對PASCAL 2007的平均識別達到一秒以內(nèi)。楊揚則采取分割位置提示加速目標搜索,即先對測試圖像進行快速分割,再對分割出的各個部分進行識別檢測。 2.4 人工神經(jīng)網(wǎng)絡模型及其進展 科研人員通過對人類大腦的神經(jīng)網(wǎng)絡構(gòu)成以及工作原理探索,建立了基于視覺系統(tǒng)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡 ANN模型。在 ANN 識別系統(tǒng)中, 研究人員選擇Gabor濾波器對圖像進行預處理。為了獲取圖像角落和輪廓等基礎特征, 圖像塊被選取為特征輸入,然后由多層濾波器構(gòu)成的神經(jīng)網(wǎng)絡提取出目標顯著性特征。在訓練過程中,ANN 使用分層無監(jiān)督學習方法:即通過無監(jiān)督訓練初始化第一層神經(jīng)元,將其輸出數(shù)據(jù)作為下一層神經(jīng)元輸入,并使用相同方法進行訓練。為了獲取更好的訓練效果,通常在經(jīng)過設計的無監(jiān)督訓練神經(jīng)網(wǎng)絡層后, 將其輸出通過一次有監(jiān)督誤差方向傳播 BP算法訓練。 在目標識別領域最典型的 ANN 是卷積神經(jīng)網(wǎng)絡 CNN,CNN 主要包 括卷積層和匯聚層。其中卷積層是核心,將整個輸入圖像與大小固定的濾波器進行卷積,然后卷積層得到的信息傳遞到匯聚層,通過對特征圖中Patch的最大值、平均值提取,對數(shù)據(jù)進行降采樣。CNN 通過利用其各層網(wǎng)絡之間的位置共享,可以降低計算參數(shù)的數(shù)量,同時通過挖取數(shù)據(jù)的空間相關性,使其能夠自動提取圖像的相關特性。 在很多 ANN 設計中采用了BP算法,通過將實際輸出與標注不相符的誤差輸出向輸入層方向傳播,修正各個卷積層單元的權(quán)重。深度神經(jīng)網(wǎng)絡的應用,大大提高了圖像目標識別的平均正確率,成為目標識別領域的熱點?;?ANN 的目標識別算法具有精度高、有一定不變性等優(yōu)點,但也具有算法結(jié)構(gòu)復雜、 實時性差等缺點。 為了加速神經(jīng)網(wǎng)絡分類器的搜索速度, 有文獻將每個圖像分割成小的子圖像,然后對每個子圖像使用快速神經(jīng)網(wǎng)絡單獨測試。有文獻創(chuàng)新地將 DPM 模型與深度學 習CNN融 合, 使AP值 提 高 近 十 個 百 分點,大幅度提高了識別準確性。然而,深度學習的引進,提高準確性的同時也降低了實時性。Girshick等人為此繼續(xù)進行研究,使用已訓練的特征提取器替換 DPM 模型中的標準圖像特征, 提高了 DPM 模型與CNN 結(jié)合識別算法的實時性。 3 識別算法發(fā)展方向 視覺目標識別技術(shù)的理論和算法在大量研究人員的不懈努力下取得了一系列進展。以BOW、HOG和DPM 等模型理論為核心, 衍生出多種算法。在第2節(jié)分析的典型識別算法及其發(fā)展基礎上, 本文接下來討論目標識別算法的發(fā)展方向。 視覺目標識別技術(shù)得到更廣泛的應用,需滿足準確、高效和普適三個要求。與之相對應,即是識別算法的準確性、實時性和魯棒性,因此識別算法的發(fā)展將體現(xiàn)在這三個方面。 3.1 提高目標識別準確性 目前,以深度神經(jīng)網(wǎng)絡為代表的識別算法在目標識別準確性上達到了較高的水平。但對于戰(zhàn)場車輛識別等準確性要求高的應用環(huán)境,其準確性仍需提高。對此,有以下兩種準確性提高思路。 ( 1)融合現(xiàn)有模型。分析當前主流算法模型,沒有一種現(xiàn)有的算法能同時較好地克服部分遮擋、視角變換、目標形變、場景復雜和圖像旋轉(zhuǎn)等挑戰(zhàn), 均會出現(xiàn)漏檢和誤檢等情況。通過提取出其各自所擅長難點的關鍵,然后進行模型融合優(yōu)勢互補,使新模型能夠克服更多的挑戰(zhàn), 進而提高目標識別準確性。例如, DPM模型不具有旋轉(zhuǎn)不變性,可以考慮融入球坐標系HOG 描述符。同時, 其使用多組件克服視角變換、 彈簧模型克服非剛性形變等優(yōu)點也可以考慮融入神經(jīng)網(wǎng)絡模型等。 ( 2)研究深度學習。深度學習模仿人腦對圖像目標的提取理論, 是目標識別領域的新星。但其存在的模型解釋性差, 缺少結(jié)構(gòu)約束等問題, 影響目標識別的準確性。深度學習在視覺皮層和函數(shù)論等方面有其理論依據(jù), 但對中間的特征變換缺乏自然解釋。研究其變量之間因果關系, 對其結(jié)構(gòu)進行合理約束, 無疑對深度學習的識別準確性提高有促進作用。 3.2 增強識別算法實時性 隨著攝像器材的升級,高清圖像時代的到來使目標識別所需時間成倍增長,且識別算法復雜,檢測目標耗時較長,難以滿足視頻監(jiān)控等一系列應用的要求。對此, 有以下三種實時性增強思路。 ( 1)優(yōu)化目標搜索策略?,F(xiàn)在識別算法為了追求高的準確性, 主要采用簡單且漏檢概率小的滑動窗口法搜索目標, 但其計算量大、 效率低、 實時性差。因此, 通過刪除冗余計算,降低計算量等方法優(yōu)化目標搜索策略, 可以提高識別算法實時性。例如使用級聯(lián)等思想優(yōu)化滑動窗口搜索策略。 ( 2)減小目標識別區(qū)域。識別目標的時間不僅與檢測算法相關, 還與圖像大小有關, 即搜索窗口的數(shù)目很大程度影響識別系統(tǒng)的實時性。然而檢測一幅圖像, 其目標區(qū)域通常只占整幅圖像的一部分, 探測器在背景部分浪費大量時間。因此先對圖像感興趣區(qū)域快速提取, 再對減小后的區(qū)域進行識別, 可以縮短目標搜索時間, 增強實時性。例如可以根據(jù)Cheng等人提出的似物性檢測理論先進行似物性檢測, 后進行目標識別。 ( 3)應用多線程并行處理。隨著硬件技術(shù)的發(fā)展, 多線程計算機已經(jīng)進入人們生活, 但是大多識別算法程序并沒充分利用這一資源。在特征提取、 目標搜索等階段, 通過設計應用并行程序, 可以數(shù)倍提高識別速率, 提高實時性。 3.3 改善分類器魯棒性 現(xiàn)存識別算法普遍存在分類器魯棒性較差問題, 而其主要影響因素為訓練樣本集的大小。對此, 有分類器訓練優(yōu)化和分類器反饋學習兩種魯棒性改善思路。 ( 1)分類器訓練優(yōu)化。由于識別算法的計算強度高,學習效率低限制了訓練樣本集的大小。對此, 通過降低分類器計算強度,可以提高初始訓練樣本集大小,進而來獲取魯棒性和準確性的提升。例如有文獻通過對濾波器的修改,快速舍棄無關特征,減少后期運輸量,加快訓練速度,從而獲得好的檢測性能。 ( 2)分類器反饋學習。目前的模型訓練大多需要標記樣本, 而樣本的人工標記花費較大, 使得大規(guī)模訓練樣本集難以得到。于是, 從對標記樣本進行擴展思路, 可以考慮在目標識別過程中對分類器進行反饋學習。即將目標識別結(jié)果作為輸入對分類器進行訓練, 分類器邊檢測邊學習, 突破訓練樣本數(shù)量少、 場景單一等缺點, 改善分類器的魯棒性。 4 結(jié)束語 目標識別是計算機視覺研究的基本問題, 在人工智能等領域具有非常廣闊的實際應用前景。本文大致介紹了目標識別的挑戰(zhàn)、 數(shù)據(jù)庫、 評估參數(shù)和識別系統(tǒng), 并詳細地闡述了典型識別算法及其進展。以此為基礎, 對識別技術(shù)的發(fā)展進行展望, 闡釋了提高目標識別準確性、 增強識別算法實時性和改善分類器魯棒性是視覺目標識別算法未來研究的重點。 |
|
來自: taotao_2016 > 《計算機》