計(jì)算機(jī)視覺(jué)是人工智能(AI)中的熱門(mén)研究課題,它已經(jīng)存在多年。然而,計(jì)算機(jī)視覺(jué)仍然是人工智能面臨的最大挑戰(zhàn)之一。在本文中,我們將探討使用深度神經(jīng)網(wǎng)絡(luò)來(lái)解決計(jì)算機(jī)視覺(jué)的一些基本挑戰(zhàn)。特別是,我們將研究神經(jīng)網(wǎng)絡(luò)壓縮,細(xì)粒度圖像分類,紋理合成,圖像搜索和對(duì)象跟蹤等應(yīng)用。 1、神經(jīng)網(wǎng)絡(luò)壓縮 盡管深度神經(jīng)網(wǎng)絡(luò)具有令人難以置信的性能,但它們對(duì)計(jì)算能力和存儲(chǔ)的需求對(duì)其在實(shí)際應(yīng)用中的部署提出了重大挑戰(zhàn)。研究表明,神經(jīng)網(wǎng)絡(luò)中使用的參數(shù)可能非常多余。因此,在提高精度的同時(shí)還需要投入大量的工作來(lái)降低了網(wǎng)絡(luò)的復(fù)雜性。 低秩近似用于接近原始權(quán)重矩陣。例如,SVD可用于獲得矩陣的最佳低秩近似,或者Toeplitz矩陣可與Krylov分析結(jié)合使用以近似的原始矩陣。 1.1:修剪 一旦訓(xùn)練完成,一些不相關(guān)的神經(jīng)元連接(可以在損失算法中加權(quán)值平衡和稀疏約束)或者將所有這些連接過(guò)濾掉,然后執(zhí)行幾輪微調(diào)。在實(shí)際應(yīng)用中,修剪神經(jīng)元連接的級(jí)別將使結(jié)果稀疏,難以緩存,并且難以從存儲(chǔ)器訪問(wèn)。有時(shí),我們需要特別設(shè)計(jì)一個(gè)合作運(yùn)營(yíng)數(shù)據(jù)庫(kù)。 相比之下,過(guò)濾級(jí)修剪可以直接在已經(jīng)存在的操作數(shù)據(jù)庫(kù)上運(yùn)行,過(guò)濾級(jí)修剪的關(guān)鍵是確定如何平衡過(guò)濾器的重要性。例如,我們可以使用卷積結(jié)果的稀疏性、濾波器對(duì)損失算法的影響或者卷積對(duì)下一層結(jié)果的影響進(jìn)行平衡。 1.2:量化 我們可以將權(quán)重值分成組,然后使用組中的中值來(lái)替換原始權(quán)重,并通過(guò)霍夫曼編碼運(yùn)行它。但是,如果我們只考慮權(quán)重本身,則可以減少量化過(guò)程的誤差偏差。隨后,分類操作的誤差偏差將顯著增加。因此,量化CNN的優(yōu)化目標(biāo)是重構(gòu)以最小化誤差偏差。此外,我們可以使用哈希編碼并投影相同的哈希權(quán)重(hashbucket weights)來(lái)共享相同的值。 1.3:減少數(shù)據(jù)值的范圍 在默認(rèn)情況下,數(shù)據(jù)由單精度浮點(diǎn)組成,占32位。研究人員發(fā)現(xiàn),使用半精度浮點(diǎn)(16位)對(duì)性能的影響幾乎為零。谷歌的TPU使用8位整數(shù)來(lái)表示數(shù)據(jù),這種情況是值的范圍是兩個(gè)或三個(gè)值(0/1或-1/0/1)。僅使用位進(jìn)行操作可以使我們快速完成各種計(jì)算,但是訓(xùn)練兩個(gè)或三個(gè)價(jià)值網(wǎng)絡(luò)是一個(gè)至關(guān)重要的問(wèn)題。 傳統(tǒng)方法是使用兩個(gè)或三個(gè)值作為前饋過(guò)程并在更新過(guò)程中傳遞實(shí)數(shù)。此外,研究人員認(rèn)為兩個(gè)值的表達(dá)能力是有限的,因此可以使用額外的浮點(diǎn)縮放二進(jìn)制卷積結(jié)果來(lái)改善網(wǎng)絡(luò)表示。 1.4:簡(jiǎn)化的結(jié)構(gòu)設(shè)計(jì) 研究人員一直致力于創(chuàng)建簡(jiǎn)化的網(wǎng)絡(luò)結(jié)構(gòu),例如: 1. 1x1卷積:這種設(shè)計(jì)理念已經(jīng)在Inception和ResNet系列網(wǎng)絡(luò)設(shè)計(jì)中得到了廣泛應(yīng)用; 2. 分組卷積; 3. 擴(kuò)展卷積:只要值不變,使用擴(kuò)展卷積就可以擴(kuò)展感知域。 知識(shí)蒸餾(Knowledge distillation)訓(xùn)練小網(wǎng)絡(luò)接近廣泛的網(wǎng)絡(luò)。但是,目前還不清楚如何正確地接近龐大的網(wǎng)絡(luò)。 1.5:硬件-軟件協(xié)議設(shè)計(jì) 常用硬件: 1. 常見(jiàn)硬件,如CPU(低延遲,復(fù)雜操作)和GPU(高吞吐量,適合并發(fā),簡(jiǎn)單過(guò)程); 2. 專用硬件,包括ASIC(專用集成電路,例如Google的TPU)和FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列,靈活但效率較低)。 2、細(xì)粒度圖像分類 與(普通)圖像分類相比,細(xì)粒度圖像分類在確定圖像類別時(shí)需要更高的精度。例如,我們可能需要確定目標(biāo)鳥(niǎo)的確切種類、汽車的品牌和型號(hào)、飛機(jī)的型號(hào)。通常,這些類之間的差異很小。例如,波音737-300和波音737-400之間唯一明顯不同的區(qū)別就是窗戶的數(shù)量。因此,細(xì)粒度圖像分類比標(biāo)準(zhǔn)圖像分類更具挑戰(zhàn)性。 細(xì)粒度圖像分類的經(jīng)典方法是首先在圖像上定義不同的位置,例如,鳥(niǎo)的頭部、腳部或翅膀。然后我們必須從這些位置提取特征,最后,組合這些特征并使用它們來(lái)完成分類。這種方法具有非常高的準(zhǔn)確性,但它需要大量的數(shù)據(jù)集和手動(dòng)標(biāo)記位置信息。細(xì)粒度分類的一個(gè)主要趨勢(shì)是沒(méi)有額外監(jiān)督信息的訓(xùn)練,而不是僅使用圖像筆記,該方法由雙線性CNN方法表示。 2.1:雙線性(Bilinear)CNN 首先計(jì)算卷積描述符的外積,以找出不同維度之間的相互關(guān)系。因?yàn)椴煌枋龇木S度對(duì)應(yīng)于卷積特征的不同通道,并且不同的通道提取不同的語(yǔ)義特征,所以使用雙線性操作允許我們捕獲輸入圖像上的不同語(yǔ)義元素之間的關(guān)系。 2.2:流線型雙線性匯合(Streamlined Bilinear Confluence) 雙線性匯合的結(jié)果是非常高維的,這需要大量的計(jì)算和存儲(chǔ)資源,也明顯增加了下一個(gè)完全連接層上的參數(shù)數(shù)量。后續(xù)研究旨在制定簡(jiǎn)化雙線性匯合的戰(zhàn)略,其結(jié)果包括以下內(nèi)容: 1. PCA維數(shù)減少:在雙線性匯合出現(xiàn)之前,我們會(huì)在深度描述符上使用PCA投影維數(shù)減少,但這會(huì)影響影響性能的每個(gè)維度。一個(gè)折中的方案是僅將PCA降維應(yīng)用于一條線。 2. 近似核估計(jì):證明在雙線性收斂之后使用線性SVM分類與在描述符上使用多項(xiàng)式核一樣有價(jià)值。因?yàn)閮蓚€(gè)描述符的向外投影等于兩個(gè)獨(dú)立描述符的卷積投影,所以一些研究集中于使用隨機(jī)矩陣來(lái)近似描述符投影。此外,通過(guò)近似核估計(jì),我們可以捕獲超過(guò)二階信息(見(jiàn)下圖)。 3. 低秩近似:使用來(lái)自全連接層的參數(shù)矩陣進(jìn)行低秩近似使得不必明確地計(jì)算雙線性匯合的結(jié)果。 3、圖像描述 圖像描述是生成圖像的一個(gè)或兩個(gè)句子描述的過(guò)程。這是一項(xiàng)涉及計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的跨學(xué)科任務(wù)。 3.1:編碼器-解碼器網(wǎng)絡(luò) 設(shè)計(jì)圖像字幕網(wǎng)絡(luò)背后的基本思想基于自然語(yǔ)言處理領(lǐng)域中機(jī)器翻譯的概念。在具有圖像CNN編碼網(wǎng)絡(luò)的機(jī)器翻譯器中替換源語(yǔ)言編碼網(wǎng)絡(luò)并提取圖像的特征之后,我們可以使用解碼器網(wǎng)絡(luò)作為目標(biāo)語(yǔ)言來(lái)創(chuàng)建文本描述。 3.2:ShowAttend and Tell 注意力機(jī)制是機(jī)器翻譯器用來(lái)捕獲遠(yuǎn)程依賴關(guān)系的標(biāo)準(zhǔn)技術(shù),也可以用于圖像字幕。在解碼器網(wǎng)絡(luò)中,除了預(yù)測(cè)下一個(gè)單詞之外,在每個(gè)時(shí)刻,我們還需要輸出二維注意力圖像并將其用于深度卷積特征的加權(quán)收斂。使用注意力機(jī)制的另一個(gè)好處是網(wǎng)絡(luò)可以被可視化,這樣我們就可以輕松地看到網(wǎng)絡(luò)在生成每個(gè)單詞時(shí)所看到的圖像部分。 3.3:AdaptiveAttention(自適應(yīng)注意力機(jī)制) 先前的注意力機(jī)制將為每個(gè)預(yù)測(cè)的單詞產(chǎn)生二維注意圖像(圖像(a))。但是,對(duì)于一些停止詞,我們不需要使用圖像中的線索。相反,某些單詞可以根據(jù)上下文生成,完全獨(dú)立于圖像本身。這項(xiàng)工作在LSTM上進(jìn)行了擴(kuò)展,并產(chǎn)生了“視覺(jué)哨兵”機(jī)制,該機(jī)制確定是否應(yīng)根據(jù)上下文或圖像信息(圖像(b))預(yù)測(cè)當(dāng)前單詞。 此外,與先前在根據(jù)隱藏層的狀態(tài)計(jì)算注意圖像的先前方法不同,該方法根據(jù)隱藏層的當(dāng)前狀態(tài)執(zhí)行計(jì)算。 4、視覺(jué)問(wèn)答 給定圖像和與該圖像相關(guān)的問(wèn)題,視覺(jué)問(wèn)答旨在從選擇的候選答案中回答該問(wèn)題。從本質(zhì)上講,這是一個(gè)分類任務(wù),有時(shí)它使用遞歸神經(jīng)網(wǎng)絡(luò)解碼來(lái)產(chǎn)生文本答案。視覺(jué)問(wèn)答也是一項(xiàng)涉及視覺(jué)和自然語(yǔ)言處理的跨學(xué)科任務(wù)。 4.1:基本思想過(guò)程 問(wèn)題概念是使用CNN從圖像中提取特征,RNN從文本問(wèn)題中提取文本特征,然后組合視覺(jué)和文本特征,最后使用完全連接后進(jìn)行分類。這項(xiàng)任務(wù)的關(guān)鍵是弄清楚如何連接這兩種類型的功能。直接組合這些特征的方法將它們轉(zhuǎn)換為矢量,或者通過(guò)添加或乘以元素來(lái)添加或生成視覺(jué)和文本矢量。 注意使用注意力機(jī)制的圖像字幕系統(tǒng)可提高視覺(jué)問(wèn)答的性能。注意力機(jī)制包括視覺(jué)注意(“我在哪里看”)和文本注意力(“我在看哪個(gè)詞?”)HieCoAtten可以同時(shí)或依次創(chuàng)建視覺(jué)和文本注意力。DAN在同一空間內(nèi)投射視覺(jué)和文本注意力的結(jié)果; 然后它同時(shí)產(chǎn)生視覺(jué)和文本注意力的下一步。 4.2:雙線性整合 該方法使用視覺(jué)特征向量和文本特征向量的外積來(lái)捕獲每個(gè)維度上這些狀態(tài)的特征之間的關(guān)系。為了避免明確地計(jì)算雙線性匯合的高維度結(jié)果,我們可以將在細(xì)粒度識(shí)別中發(fā)現(xiàn)的流線型雙線性匯合背后的思想應(yīng)用于視覺(jué)問(wèn)題回答。例如,MFB使用低速率近似背后的概念以及視覺(jué)和文本注意機(jī)制。 5、神經(jīng)網(wǎng)絡(luò)可視化與神經(jīng)網(wǎng)絡(luò)理解 下文提供了許多可視化方法,以幫助理解卷積和神經(jīng)網(wǎng)絡(luò)。 5.1:直接可視化第一個(gè)過(guò)濾器 由于第一個(gè)卷積層上的濾鏡在輸入圖像上滑動(dòng),我們可以直接在第一層上顯示濾鏡。我們可以看到第一層權(quán)重集中在特定方向的邊緣和指定的顏色組合,這類似于視覺(jué)生物學(xué)機(jī)制。但是,由于高級(jí)過(guò)濾器不直接用于輸入圖像,因此直接可視化只能應(yīng)用于第一層上的過(guò)濾器。 5.2:T-SNE 此方法在圖像的fc7和pool5特征上使用低維嵌入。例如,將它們縮小到2維并允許它們?cè)?維平面上繪制,具有類似語(yǔ)義信息的圖像應(yīng)該產(chǎn)生與t-SNE類似的結(jié)果。該方法與PCA之間的區(qū)別在于t-SNE是一種非線性減少方法,可以保留地點(diǎn)之間的距離。我們得到以下圖像,該圖像是將t-SNE應(yīng)用于原始MNIST圖像的結(jié)果。我們可以看到MNIST是一個(gè)相對(duì)簡(jiǎn)單的數(shù)據(jù)集,其中不同分類的圖像之間的差異是顯而易見(jiàn)的。 5.3:可視化中間層激活值 我們可以看到,即使ImageNet沒(méi)有人臉類別,網(wǎng)絡(luò)仍將學(xué)會(huì)區(qū)分這種語(yǔ)義信息并捕獲未來(lái)的分類。 5.4:最大化響應(yīng)圖像區(qū)域 為了阻止這種情況,在中間層選擇一個(gè)指定的神經(jīng)元,然后將多個(gè)不同的圖像輸入網(wǎng)絡(luò),以找到導(dǎo)致神經(jīng)元最大響應(yīng)的圖像區(qū)域。這允許我們觀察神經(jīng)元對(duì)應(yīng)的語(yǔ)義特征,我們使用“圖像區(qū)域”而不是“完整圖像”的原因是中間層神經(jīng)元的感受野受限并且不能覆蓋整個(gè)圖像。 5.5:梯度上升優(yōu)化 該方法選擇特定的神經(jīng)元,然后計(jì)算該神經(jīng)元對(duì)輸入圖像的反應(yīng)產(chǎn)生的偏導(dǎo)數(shù),然后使用梯度上升優(yōu)化圖像直到收斂。此外,我們需要一些標(biāo)準(zhǔn)化的項(xiàng)目來(lái)使生成的圖像更接近自然模型。除了優(yōu)化輸入圖像,我們還可以優(yōu)化fc6功能并創(chuàng)建所需的圖像。 6、對(duì)抗性的例子 選擇圖像和不正確的分類。然后,系統(tǒng)計(jì)算該分類對(duì)圖像的偏導(dǎo)數(shù),然后對(duì)圖像應(yīng)用梯度上升優(yōu)化。實(shí)驗(yàn)表明,在使用小的,幾乎察覺(jué)不到的變化之后,我們可以使網(wǎng)絡(luò)以高可信度對(duì)模型實(shí)現(xiàn)不正確的類。 在實(shí)際應(yīng)用中,對(duì)抗性示例在金融和安全領(lǐng)域非常有用。研究人員發(fā)現(xiàn),這是因?yàn)閳D像空間的維度非常高。即使有大量的訓(xùn)練數(shù)據(jù),我們也只能覆蓋該空間的一小部分。如果輸入圖像從該不同空間稍微變化,那么網(wǎng)絡(luò)將難以做出合理的決定。 7、紋理生成(Texture Synthesis)與風(fēng)格遷移(Style Transform) 紋理生成用于生成包含相同紋理的較大圖像。給定正常圖像和包含特定風(fēng)格的圖像,然后通過(guò)風(fēng)格遷移不僅保留圖像的原始內(nèi)容,而且將該圖像轉(zhuǎn)換為指定的風(fēng)格。 7.1:特征反演(Feature Inversion) 特征反演是紋理生成和風(fēng)格遷移背后的核心概念。給定一個(gè)中間層特征,我們希望迭代來(lái)創(chuàng)建與給定特征類似圖像。特征反演還可以告訴我們?cè)谥虚g層特征中包含多少圖像信息。 給定DxHxW的深度卷積特征,我們將它們轉(zhuǎn)換為Dx(HW)矩陣X,因此我們可以將對(duì)應(yīng)Gram矩陣定義為:G = XX ^ T 通過(guò)外積,Gram矩陣捕獲不同特征之間的關(guān)系。 7.2:紋理生成的概念 它對(duì)給定紋理圖案的Gram矩陣進(jìn)行特征逆向工程。使生成圖像的各層特征的Gram矩陣接近給定紋理圖像的各層Gram。低層特征傾向于捕獲細(xì)節(jié)信息,而高層特征可以捕獲更大面積的特征。 7.3:風(fēng)格遷移的概念 此優(yōu)化有兩個(gè)主要目標(biāo):第一個(gè)是使生成的圖像的內(nèi)容更接近原始圖像的內(nèi)容,而第二個(gè)是使生成的圖像的風(fēng)格與指定的風(fēng)格匹配。風(fēng)格由Gram矩陣體現(xiàn),而內(nèi)容直接由神經(jīng)元的激活值體現(xiàn)。 7.4:直接生成風(fēng)格遷移的圖像 上面直接生成風(fēng)格遷移的圖像的方法的缺點(diǎn)是需要多次迭代才能收斂。解決該問(wèn)題的方案是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)直接生成風(fēng)格遷移的圖像。一旦訓(xùn)練結(jié)束,進(jìn)行風(fēng)格遷移只需前饋網(wǎng)絡(luò)一次,十分高效。在訓(xùn)練時(shí),將生成圖像、原始圖像、風(fēng)格圖像三者前饋一固定網(wǎng)絡(luò)以提取不同層特征用于計(jì)算損失函數(shù)。 實(shí)驗(yàn)證明,通過(guò)使用實(shí)例歸一化,風(fēng)格變換網(wǎng)絡(luò)可以移除與圖像相關(guān)的比較信息以簡(jiǎn)化生成過(guò)程。 7.5:條件示例規(guī)范化 上述方法的一個(gè)問(wèn)題是我們必須為每種不同的風(fēng)格訓(xùn)練一個(gè)單獨(dú)的模型。由于不同的風(fēng)格有時(shí)包含相似性,因此可以通過(guò)在不同風(fēng)格的風(fēng)格變換網(wǎng)絡(luò)之間共享參數(shù)來(lái)完成這項(xiàng)工作。具體來(lái)說(shuō),它更改了風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的示例規(guī)范化,使其具有N組縮放和平移參數(shù),每個(gè)組對(duì)應(yīng)于特定風(fēng)格。這樣我們就可以從單個(gè)前饋過(guò)程中獲得N個(gè)風(fēng)格的變換圖像。 8、面部驗(yàn)證/識(shí)別 人臉驗(yàn)證/識(shí)別可以認(rèn)為是一種更加精細(xì)的細(xì)粒度圖像識(shí)別任務(wù)。人臉驗(yàn)證是給定兩張圖像、判斷其是否屬于同一個(gè)人,而人臉識(shí)別是回答圖像中的人是誰(shuí)。一個(gè)人臉驗(yàn)證/識(shí)別系統(tǒng)通常包括三大步:檢測(cè)圖像中的人臉,特征點(diǎn)定位、及對(duì)人臉進(jìn)行驗(yàn)證/識(shí)別。人臉驗(yàn)證/識(shí)別的難題在于需要進(jìn)行小樣本學(xué)習(xí)。通常情況下,數(shù)據(jù)集中每人只有對(duì)應(yīng)的一張圖像,這稱為一次性學(xué)習(xí)(one-shot learning)。 8.1:面部識(shí)別系統(tǒng)背后的概念 作為分類問(wèn)題(非常多的類別數(shù)),或作為度量學(xué)習(xí)的問(wèn)題。如果兩個(gè)圖像屬于同一個(gè)人,那么我們希望它們的深層特征非常相似。否則,它們的特征應(yīng)該不同。之后,根據(jù)深度特征之間的距離進(jìn)行驗(yàn)證或識(shí)別(k最近鄰居分類)。 8.2:DeepFace 第一個(gè)成功將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于面部驗(yàn)證/識(shí)別模型的系統(tǒng)。DeepFace使用非共享參數(shù)局部性連接。這是因?yàn)槿四樀牟煌糠志哂胁煌奶卣鳎ɡ缪劬妥齑骄哂胁煌奶卣鳎?,因此傳統(tǒng)卷積層的經(jīng)典“共享參數(shù)”不適用于面部驗(yàn)證。因此,面部識(shí)別網(wǎng)絡(luò)使用非共享參數(shù)局部性連接。它使用的孿生(Siamese network)網(wǎng)絡(luò)用于面部驗(yàn)證。當(dāng)兩個(gè)圖像的深度特征小于給定閾值時(shí),它們被認(rèn)為是同一個(gè)人。 8.3:FaceNet FaceNet通過(guò)三因子輸入,希望負(fù)樣本之間的距離大于正樣本之間的距離給定量。此外,三個(gè)輸入因子并不是隨機(jī)的,否則,因?yàn)樨?fù)樣本的差異樣本太大,網(wǎng)絡(luò)將無(wú)法學(xué)習(xí)。選擇最具挑戰(zhàn)性的三個(gè)元素組(例如最遠(yuǎn)的正樣本和最接近的負(fù)樣本)會(huì)使該網(wǎng)絡(luò)陷入局部最優(yōu)。FaceNet使用半困難策略,選擇比正樣本更遠(yuǎn)的負(fù)樣本。 8.4:大區(qū)間交叉熵?fù)p失 近年來(lái),這一直是一個(gè)熱門(mén)的研究課題。由于類內(nèi)波動(dòng)大而類間相似度高,有研究工作旨在提升經(jīng)典的交叉熵?fù)p失對(duì)深度特征的判斷能力。例如,L-Softmax加強(qiáng)優(yōu)化目標(biāo),使對(duì)應(yīng)類別的參數(shù)向量和深度特征夾角增大。
A-Softmax進(jìn)一步約束L-Softmax的參數(shù)向量長(zhǎng)度為1,使訓(xùn)練更集中到優(yōu)化深度特征和夾角上。實(shí)際中,L-Softmax和A-Softmax都很難收斂,訓(xùn)練時(shí)采用了退火方法,從標(biāo)準(zhǔn)softmax逐漸退火至L-Softmax或A-Softmax。 8.5:實(shí)時(shí)檢測(cè) 該系統(tǒng)確定面部圖像是來(lái)自真人還是來(lái)自照片,這是面部驗(yàn)證/識(shí)別任務(wù)的關(guān)鍵障礙。目前在業(yè)界流行的一些方法是讀取人的面部表情,紋理信息,眨眼或要求用戶完成一系列動(dòng)作的變化。 9、圖像搜索和檢索 給定一個(gè)包含特定實(shí)例(例如特定目標(biāo),場(chǎng)景或建筑物)的圖像,圖像搜索用于在數(shù)據(jù)庫(kù)中查找包含與給定實(shí)例類似的元素的圖像。然而,由于兩個(gè)圖像中的角度,光照和障礙物通常不相同,因此創(chuàng)建能夠處理圖像類別中的這些差異的搜索算法的問(wèn)題對(duì)研究人員構(gòu)成了重大挑戰(zhàn)。 9.1:經(jīng)典圖像搜索的過(guò)程 首先,我們必須從圖像中提取適當(dāng)?shù)拇硇允噶俊F浯?,將歐氏距離或余弦距離應(yīng)用于這些矢量以執(zhí)行最近鄰居搜索并找到最相似的圖像。最后,我們使用特定的處理技術(shù)對(duì)搜索結(jié)果進(jìn)行小幅調(diào)整。我們可以看到圖像搜索引擎性能的限制因素是圖像的表示: 9.2:無(wú)監(jiān)督的圖像搜索 無(wú)監(jiān)督圖像搜索使用預(yù)先訓(xùn)練的ImageNet模型,沒(méi)有外部信息作為特征提取引擎來(lái)提取圖像的表示。 直觀的思路:因?yàn)樯疃热B接特征提供了圖像的高級(jí)描述,并且是一個(gè)“自然”矢量,直觀的思維過(guò)程是直接提取深度全連接特征作為圖像的代表矢量。但是,由于圖像分類中使用完全連接的特征缺乏對(duì)圖像的詳細(xì)描述,因此該思維過(guò)程僅產(chǎn)生平均準(zhǔn)確度。 使用深度卷積特征:因?yàn)樯疃染矸e具有更好的詳細(xì)信息,并且可以用于處理任何大小的圖像,目前流行的方法是提取深度卷積特征,然后使用加權(quán)全局搜索和求和池來(lái)獲得圖像的代表向量。權(quán)重表示不同位置的特征的必要性,并且可以采用空間矢量權(quán)重或信道矢量權(quán)重的形式。 CroW:深度卷積特征是一種分布式表示。盡管來(lái)自神經(jīng)元的響應(yīng)值在確定區(qū)域是否有目標(biāo)方面不是非常有用,但如果多個(gè)神經(jīng)元同時(shí)具有大量反應(yīng),那么該區(qū)域很可能包含目標(biāo)。因此,CroW沿著通道添加了特征圖以獲得二維合成圖,對(duì)其進(jìn)行標(biāo)準(zhǔn)化,并根據(jù)數(shù)量標(biāo)準(zhǔn)化的結(jié)果將其用作空間權(quán)重。CroW的通道權(quán)重由特征圖的稀疏性決定,類似于TF-IDF中的IDF特征,自然語(yǔ)言處理中的特征可用于提升不常見(jiàn)但具有高度確定性的特征。 類加權(quán)特征:該方法嘗試?yán)脠D像集成網(wǎng)絡(luò)的類別預(yù)測(cè)信息使空間權(quán)重更具確定性。具體地,它使用CAM來(lái)獲得預(yù)訓(xùn)練網(wǎng)絡(luò)中每個(gè)類別的最具代表性的區(qū)域的語(yǔ)義信息;然后它使用標(biāo)準(zhǔn)化的CAM結(jié)果作為空間權(quán)重。 PWA:PWA發(fā)現(xiàn),深度卷積特征的不同通道對(duì)應(yīng)于目標(biāo)上不同區(qū)域的響應(yīng)。因此,PWA可以選擇一系列確定性特征映射,并將其標(biāo)準(zhǔn)化結(jié)果用作收斂的空間權(quán)重。然后系統(tǒng)級(jí)聯(lián)結(jié)果以形成最終圖像的表示。 9.3:有監(jiān)督圖像搜索 有監(jiān)督圖像搜索首先采用預(yù)先訓(xùn)練的ImageNet模型并將其調(diào)整到另一個(gè)訓(xùn)練數(shù)據(jù)集上。然后,它從這個(gè)調(diào)整的模型中提取圖像表示。為了獲得更好的結(jié)果,用于優(yōu)化模型的訓(xùn)練數(shù)據(jù)集通常類似于搜索數(shù)據(jù)集。此外,我們可以使用候選區(qū)域網(wǎng)絡(luò)從可能包含目標(biāo)的圖像中提取前景區(qū)域。 孿生網(wǎng)絡(luò):類似于人臉識(shí)別的思想,該系統(tǒng)使用兩個(gè)元素或三個(gè)元素輸入(++ -)來(lái)訓(xùn)練模型,以最小化兩個(gè)樣本之間的距離,并最大化兩個(gè)不同樣本之間的距離。 9.4:對(duì)象跟蹤 對(duì)象跟蹤的目標(biāo)是跟蹤視頻中目標(biāo)的移動(dòng)。通常,目標(biāo)位于視頻的第一幀中并由框標(biāo)記。我們需要預(yù)測(cè)框在下一幀中的位置。對(duì)象跟蹤與目標(biāo)測(cè)試類似。然而,對(duì)象跟蹤的難點(diǎn)在于我們不知道我們跟蹤哪個(gè)目標(biāo)。因此,我們無(wú)法在任務(wù)之前收集足夠的訓(xùn)練數(shù)據(jù)并訓(xùn)練專門(mén)的測(cè)試。 9.5:孿生網(wǎng)絡(luò) 類似于面部驗(yàn)證的概念,利用孿生網(wǎng)絡(luò)可以在一條線上的目標(biāo)框內(nèi)輸入圖像,并且在另一條線上輸入候選圖像區(qū)域,然后輸出兩個(gè)圖像之間的相似度。我們不需要遍歷不同幀中的所有其他候選區(qū)域;相反,我們可以使用卷積網(wǎng)絡(luò),只需要將每個(gè)圖像前饋一次,通過(guò)卷積,我們可以獲得二維的響應(yīng)圖,其中最重要的響應(yīng)位置確定了框的位置?;趯\生網(wǎng)絡(luò)的方法非??觳⑶夷軌蛱幚砣魏未笮〉膱D像。 9.6:CFNet 相關(guān)濾波器訓(xùn)練線性模板以區(qū)分圖像區(qū)域和它們周圍的區(qū)域,然后使用傅立葉變換。CFNet與離線訓(xùn)練的孿生網(wǎng)絡(luò)和相關(guān)的在線濾波模板相結(jié)合,能夠提高加權(quán)網(wǎng)絡(luò)的跟蹤性能。 10、生成式模型(generative models) 這種類型的模型用于學(xué)習(xí)數(shù)據(jù)(圖像)的分布或從其分布中采樣新圖像。生成模型可用于超分辨率重建、圖像著色、圖像轉(zhuǎn)換、從文本生成圖像、學(xué)習(xí)隱藏的圖像表示、半監(jiān)督學(xué)習(xí)等。此外,生成式模型可以與強(qiáng)化學(xué)習(xí)相結(jié)合,用于模擬和逆強(qiáng)化學(xué)習(xí)。 10.1:顯式建模 使用條件概率的公式來(lái)對(duì)圖像的分布進(jìn)行最大似然估計(jì)并從中學(xué)習(xí)。該方法的缺點(diǎn)在于,由于每個(gè)圖像中的像素取決于先前的像素,因此必須在一個(gè)角開(kāi)始并以有序的方式進(jìn)行,所以生成圖像的過(guò)程將稍微緩慢。例如,WaveNet可以產(chǎn)生類似于人類創(chuàng)建的語(yǔ)音,但由于它不能同時(shí)產(chǎn)生,一秒鐘的語(yǔ)音需要2分鐘來(lái)計(jì)算,并且實(shí)時(shí)生成是不可能的。 10.2:變分自編碼器 為了避免顯式建模的缺陷,變分自編碼器對(duì)數(shù)據(jù)分布進(jìn)行了隱式建模。它認(rèn)為生成圖像受隱藏變量控制的影響,并假設(shè)隱藏變量受到對(duì)角高斯分布的影響。 變分自編碼器使用解碼網(wǎng)絡(luò)根據(jù)隱藏變量生成圖像。由于我們無(wú)法直接應(yīng)用最大似然估計(jì),因此在訓(xùn)練時(shí),類似于EM算法,變分自編碼器構(gòu)造似然函數(shù)的下界函數(shù),然后使用該下界函數(shù)進(jìn)行優(yōu)化。變分自編碼器的好處是因?yàn)槊總€(gè)維度的獨(dú)立性;我們可以通過(guò)控制隱藏變量來(lái)控制影響輸出圖像變化的因素。 10.3:生成對(duì)抗式網(wǎng)絡(luò)(GAN) 由于學(xué)習(xí)數(shù)據(jù)分布極其困難,生成對(duì)抗式網(wǎng)絡(luò)完全避免了這一步驟并立即生成圖像。生成對(duì)抗式網(wǎng)絡(luò)使用生成網(wǎng)絡(luò)G從隨機(jī)噪聲創(chuàng)建圖像,并使用判別網(wǎng)絡(luò)D來(lái)確定輸入圖像是真實(shí)的還是偽造的。 在訓(xùn)練期間,判別網(wǎng)絡(luò)D的目標(biāo)是確定圖像是真實(shí)的還是偽造的,并且生成式網(wǎng)絡(luò)G的目的是使判別網(wǎng)絡(luò)D傾向于確定其輸出圖像是真實(shí)的。在實(shí)踐中,訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)會(huì)帶來(lái)模型崩潰的問(wèn)題,其中生成對(duì)抗式網(wǎng)絡(luò)無(wú)法學(xué)習(xí)完整的數(shù)據(jù)分布。這在LS-GAN和W-GAN中產(chǎn)生了改進(jìn),與變分自編碼器一樣,生成對(duì)抗式網(wǎng)絡(luò)提供更好的詳細(xì)信息。 11、視頻分類 上述大多數(shù)任務(wù)都可以用于視頻分類,這里我們將以視頻分類為例來(lái)說(shuō)明處理視頻數(shù)據(jù)的一些基本方法。 11.1:多幀圖像特征匯合 這類方法將視頻視為一系列幀圖像,網(wǎng)絡(luò)接收屬于視頻的一組多幀圖像(例如15幀),然后從這些圖像中提取深度特征,并最終集成這些圖像特征以獲得視頻的該部分的特征以對(duì)其進(jìn)行分類。實(shí)驗(yàn)表明,使用“慢速融合(slow fusion)”效果最佳。此外,獨(dú)立組織單個(gè)幀也可以得到非常有競(jìng)爭(zhēng)力的結(jié)果,這意味著來(lái)自單個(gè)幀的圖像包含大量相關(guān)信息。 11.2:三維卷積 將標(biāo)準(zhǔn)的二維卷積擴(kuò)展為三維卷積,以在時(shí)間維度上連接局部。例如,系統(tǒng)可以采用VGG 3x3卷積并將其擴(kuò)展為3x3x3卷積或2x2收斂擴(kuò)展為2x2x2收斂。 11.3:圖像+序列兩個(gè)分支結(jié)構(gòu) 這種類型的方法使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)來(lái)區(qū)分從視頻捕獲的圖像信息和時(shí)間信息。圖像信息可以從單幀中的靜止圖像獲得,并且是圖像分類的經(jīng)典問(wèn)題。然后通過(guò)光流獲得運(yùn)動(dòng)信息,跟蹤目標(biāo)在相鄰幀上的運(yùn)動(dòng)。 11.4:CNN + RNN捕獲遠(yuǎn)程依賴關(guān)系 先前的方法僅能夠捕獲幾幀圖像之間的依賴關(guān)系。此方法使用CNN從單個(gè)幀中提取圖像特征,然后使用RNN捕獲幀之間的依賴關(guān)系。 此外,研究人員已嘗試將CNN和RNN結(jié)合起來(lái),以便每個(gè)卷積層能夠捕獲遠(yuǎn)距離依賴性。 以上為譯文。 本文由阿里云云棲社區(qū)組織翻譯。 文章原標(biāo)題《deep-dive-into-computer-vision-with-neural-network-2》, 作者: Leona Zhang譯者:虎說(shuō)八道,審校:。 |
|
來(lái)自: 快讀書(shū)館 > 《信息技術(shù)》