計(jì)算機(jī)視覺(jué)領(lǐng)域最全匯總

快讀書(shū)館 2018-09-02

展開(kāi)全文

計(jì)算機(jī)視覺(jué)是人工智能（AI）中的熱門(mén)研究課題，它已經(jīng)存在多年。然而，計(jì)算機(jī)視覺(jué)仍然是人工智能面臨的最大挑戰(zhàn)之一。在本文中，我們將探討使用深度神經(jīng)網(wǎng)絡(luò)來(lái)解決計(jì)算機(jī)視覺(jué)的一些基本挑戰(zhàn)。特別是，我們將研究神經(jīng)網(wǎng)絡(luò)壓縮，細(xì)粒度圖像分類，紋理合成，圖像搜索和對(duì)象跟蹤等應(yīng)用。

1、神經(jīng)網(wǎng)絡(luò)壓縮

盡管深度神經(jīng)網(wǎng)絡(luò)具有令人難以置信的性能，但它們對(duì)計(jì)算能力和存儲(chǔ)的需求對(duì)其在實(shí)際應(yīng)用中的部署提出了重大挑戰(zhàn)。研究表明，神經(jīng)網(wǎng)絡(luò)中使用的參數(shù)可能非常多余。因此，在提高精度的同時(shí)還需要投入大量的工作來(lái)降低了網(wǎng)絡(luò)的復(fù)雜性。

低秩近似用于接近原始權(quán)重矩陣。例如，SVD可用于獲得矩陣的最佳低秩近似，或者Toeplitz矩陣可與Krylov分析結(jié)合使用以近似的原始矩陣。

1.1：修剪

一旦訓(xùn)練完成，一些不相關(guān)的神經(jīng)元連接（可以在損失算法中加權(quán)值平衡和稀疏約束）或者將所有這些連接過(guò)濾掉，然后執(zhí)行幾輪微調(diào)。在實(shí)際應(yīng)用中，修剪神經(jīng)元連接的級(jí)別將使結(jié)果稀疏，難以緩存，并且難以從存儲(chǔ)器訪問(wèn)。有時(shí)，我們需要特別設(shè)計(jì)一個(gè)合作運(yùn)營(yíng)數(shù)據(jù)庫(kù)。

相比之下，過(guò)濾級(jí)修剪可以直接在已經(jīng)存在的操作數(shù)據(jù)庫(kù)上運(yùn)行，過(guò)濾級(jí)修剪的關(guān)鍵是確定如何平衡過(guò)濾器的重要性。例如，我們可以使用卷積結(jié)果的稀疏性、濾波器對(duì)損失算法的影響或者卷積對(duì)下一層結(jié)果的影響進(jìn)行平衡。

1.2：量化

我們可以將權(quán)重值分成組，然后使用組中的中值來(lái)替換原始權(quán)重，并通過(guò)霍夫曼編碼運(yùn)行它。但是，如果我們只考慮權(quán)重本身，則可以減少量化過(guò)程的誤差偏差。隨后，分類操作的誤差偏差將顯著增加。因此，量化CNN的優(yōu)化目標(biāo)是重構(gòu)以最小化誤差偏差。此外，我們可以使用哈希編碼并投影相同的哈希權(quán)重（hashbucket weights）來(lái)共享相同的值。

1.3：減少數(shù)據(jù)值的范圍

在默認(rèn)情況下，數(shù)據(jù)由單精度浮點(diǎn)組成，占32位。研究人員發(fā)現(xiàn)，使用半精度浮點(diǎn)（16位）對(duì)性能的影響幾乎為零。谷歌的TPU使用8位整數(shù)來(lái)表示數(shù)據(jù)，這種情況是值的范圍是兩個(gè)或三個(gè)值（0/1或-1/0/1）。僅使用位進(jìn)行操作可以使我們快速完成各種計(jì)算，但是訓(xùn)練兩個(gè)或三個(gè)價(jià)值網(wǎng)絡(luò)是一個(gè)至關(guān)重要的問(wèn)題。

傳統(tǒng)方法是使用兩個(gè)或三個(gè)值作為前饋過(guò)程并在更新過(guò)程中傳遞實(shí)數(shù)。此外，研究人員認(rèn)為兩個(gè)值的表達(dá)能力是有限的，因此可以使用額外的浮點(diǎn)縮放二進(jìn)制卷積結(jié)果來(lái)改善網(wǎng)絡(luò)表示。

1.4：簡(jiǎn)化的結(jié)構(gòu)設(shè)計(jì)

研究人員一直致力于創(chuàng)建簡(jiǎn)化的網(wǎng)絡(luò)結(jié)構(gòu)，例如：

1. 1x1卷積：這種設(shè)計(jì)理念已經(jīng)在Inception和ResNet系列網(wǎng)絡(luò)設(shè)計(jì)中得到了廣泛應(yīng)用；

2. 分組卷積；

3. 擴(kuò)展卷積：只要值不變，使用擴(kuò)展卷積就可以擴(kuò)展感知域。

知識(shí)蒸餾（Knowledge distillation）訓(xùn)練小網(wǎng)絡(luò)接近廣泛的網(wǎng)絡(luò)。但是，目前還不清楚如何正確地接近龐大的網(wǎng)絡(luò)。

1.5：硬件-軟件協(xié)議設(shè)計(jì)

常用硬件：

1. 常見(jiàn)硬件，如CPU（低延遲，復(fù)雜操作）和GPU（高吞吐量，適合并發(fā)，簡(jiǎn)單過(guò)程）；

2. 專用硬件，包括ASIC（專用集成電路，例如Google的TPU）和FPGA（現(xiàn)場(chǎng)可編程門(mén)陣列，靈活但效率較低）。

2、細(xì)粒度圖像分類

與（普通）圖像分類相比，細(xì)粒度圖像分類在確定圖像類別時(shí)需要更高的精度。例如，我們可能需要確定目標(biāo)鳥(niǎo)的確切種類、汽車的品牌和型號(hào)、飛機(jī)的型號(hào)。通常，這些類之間的差異很小。例如，波音737-300和波音737-400之間唯一明顯不同的區(qū)別就是窗戶的數(shù)量。因此，細(xì)粒度圖像分類比標(biāo)準(zhǔn)圖像分類更具挑戰(zhàn)性。

細(xì)粒度圖像分類的經(jīng)典方法是首先在圖像上定義不同的位置，例如，鳥(niǎo)的頭部、腳部或翅膀。然后我們必須從這些位置提取特征，最后，組合這些特征并使用它們來(lái)完成分類。這種方法具有非常高的準(zhǔn)確性，但它需要大量的數(shù)據(jù)集和手動(dòng)標(biāo)記位置信息。細(xì)粒度分類的一個(gè)主要趨勢(shì)是沒(méi)有額外監(jiān)督信息的訓(xùn)練，而不是僅使用圖像筆記，該方法由雙線性CNN方法表示。

2.1：雙線性（Bilinear）CNN

首先計(jì)算卷積描述符的外積，以找出不同維度之間的相互關(guān)系。因?yàn)椴煌枋龇木S度對(duì)應(yīng)于卷積特征的不同通道，并且不同的通道提取不同的語(yǔ)義特征，所以使用雙線性操作允許我們捕獲輸入圖像上的不同語(yǔ)義元素之間的關(guān)系。

2.2:流線型雙線性匯合（Streamlined Bilinear Confluence）

雙線性匯合的結(jié)果是非常高維的，這需要大量的計(jì)算和存儲(chǔ)資源，也明顯增加了下一個(gè)完全連接層上的參數(shù)數(shù)量。后續(xù)研究旨在制定簡(jiǎn)化雙線性匯合的戰(zhàn)略，其結(jié)果包括以下內(nèi)容：

1. PCA維數(shù)減少：在雙線性匯合出現(xiàn)之前，我們會(huì)在深度描述符上使用PCA投影維數(shù)減少，但這會(huì)影響影響性能的每個(gè)維度。一個(gè)折中的方案是僅將PCA降維應(yīng)用于一條線。

2. 近似核估計(jì)：證明在雙線性收斂之后使用線性SVM分類與在描述符上使用多項(xiàng)式核一樣有價(jià)值。因?yàn)閮蓚€(gè)描述符的向外投影等于兩個(gè)獨(dú)立描述符的卷積投影，所以一些研究集中于使用隨機(jī)矩陣來(lái)近似描述符投影。此外，通過(guò)近似核估計(jì)，我們可以捕獲超過(guò)二階信息（見(jiàn)下圖）。

3. 低秩近似：使用來(lái)自全連接層的參數(shù)矩陣進(jìn)行低秩近似使得不必明確地計(jì)算雙線性匯合的結(jié)果。

3、圖像描述

圖像描述是生成圖像的一個(gè)或兩個(gè)句子描述的過(guò)程。這是一項(xiàng)涉及計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的跨學(xué)科任務(wù)。

3.1：編碼器-解碼器網(wǎng)絡(luò)

設(shè)計(jì)圖像字幕網(wǎng)絡(luò)背后的基本思想基于自然語(yǔ)言處理領(lǐng)域中機(jī)器翻譯的概念。在具有圖像CNN編碼網(wǎng)絡(luò)的機(jī)器翻譯器中替換源語(yǔ)言編碼網(wǎng)絡(luò)并提取圖像的特征之后，我們可以使用解碼器網(wǎng)絡(luò)作為目標(biāo)語(yǔ)言來(lái)創(chuàng)建文本描述。

3.2:ShowAttend and Tell

注意力機(jī)制是機(jī)器翻譯器用來(lái)捕獲遠(yuǎn)程依賴關(guān)系的標(biāo)準(zhǔn)技術(shù)，也可以用于圖像字幕。在解碼器網(wǎng)絡(luò)中，除了預(yù)測(cè)下一個(gè)單詞之外，在每個(gè)時(shí)刻，我們還需要輸出二維注意力圖像并將其用于深度卷積特征的加權(quán)收斂。使用注意力機(jī)制的另一個(gè)好處是網(wǎng)絡(luò)可以被可視化，這樣我們就可以輕松地看到網(wǎng)絡(luò)在生成每個(gè)單詞時(shí)所看到的圖像部分。

3.3:AdaptiveAttention（自適應(yīng)注意力機(jī)制）

先前的注意力機(jī)制將為每個(gè)預(yù)測(cè)的單詞產(chǎn)生二維注意圖像（圖像（a））。但是，對(duì)于一些停止詞，我們不需要使用圖像中的線索。相反，某些單詞可以根據(jù)上下文生成，完全獨(dú)立于圖像本身。這項(xiàng)工作在LSTM上進(jìn)行了擴(kuò)展，并產(chǎn)生了“視覺(jué)哨兵”機(jī)制，該機(jī)制確定是否應(yīng)根據(jù)上下文或圖像信息（圖像（b））預(yù)測(cè)當(dāng)前單詞。

此外，與先前在根據(jù)隱藏層的狀態(tài)計(jì)算注意圖像的先前方法不同，該方法根據(jù)隱藏層的當(dāng)前狀態(tài)執(zhí)行計(jì)算。

4、視覺(jué)問(wèn)答

給定圖像和與該圖像相關(guān)的問(wèn)題，視覺(jué)問(wèn)答旨在從選擇的候選答案中回答該問(wèn)題。從本質(zhì)上講，這是一個(gè)分類任務(wù)，有時(shí)它使用遞歸神經(jīng)網(wǎng)絡(luò)解碼來(lái)產(chǎn)生文本答案。視覺(jué)問(wèn)答也是一項(xiàng)涉及視覺(jué)和自然語(yǔ)言處理的跨學(xué)科任務(wù)。

4.1:基本思想過(guò)程

問(wèn)題概念是使用CNN從圖像中提取特征，RNN從文本問(wèn)題中提取文本特征，然后組合視覺(jué)和文本特征，最后使用完全連接后進(jìn)行分類。這項(xiàng)任務(wù)的關(guān)鍵是弄清楚如何連接這兩種類型的功能。直接組合這些特征的方法將它們轉(zhuǎn)換為矢量，或者通過(guò)添加或乘以元素來(lái)添加或生成視覺(jué)和文本矢量。

注意使用注意力機(jī)制的圖像字幕系統(tǒng)可提高視覺(jué)問(wèn)答的性能。注意力機(jī)制包括視覺(jué)注意（“我在哪里看”）和文本注意力（“我在看哪個(gè)詞？”）HieCoAtten可以同時(shí)或依次創(chuàng)建視覺(jué)和文本注意力。DAN在同一空間內(nèi)投射視覺(jué)和文本注意力的結(jié)果; 然后它同時(shí)產(chǎn)生視覺(jué)和文本注意力的下一步。

4.2:雙線性整合

該方法使用視覺(jué)特征向量和文本特征向量的外積來(lái)捕獲每個(gè)維度上這些狀態(tài)的特征之間的關(guān)系。為了避免明確地計(jì)算雙線性匯合的高維度結(jié)果，我們可以將在細(xì)粒度識(shí)別中發(fā)現(xiàn)的流線型雙線性匯合背后的思想應(yīng)用于視覺(jué)問(wèn)題回答。例如，MFB使用低速率近似背后的概念以及視覺(jué)和文本注意機(jī)制。

5、神經(jīng)網(wǎng)絡(luò)可視化與神經(jīng)網(wǎng)絡(luò)理解

下文提供了許多可視化方法，以幫助理解卷積和神經(jīng)網(wǎng)絡(luò)。

5.1:直接可視化第一個(gè)過(guò)濾器

由于第一個(gè)卷積層上的濾鏡在輸入圖像上滑動(dòng)，我們可以直接在第一層上顯示濾鏡。我們可以看到第一層權(quán)重集中在特定方向的邊緣和指定的顏色組合，這類似于視覺(jué)生物學(xué)機(jī)制。但是，由于高級(jí)過(guò)濾器不直接用于輸入圖像，因此直接可視化只能應(yīng)用于第一層上的過(guò)濾器。

5.2:T-SNE

此方法在圖像的fc7和pool5特征上使用低維嵌入。例如，將它們縮小到2維并允許它們?cè)?維平面上繪制，具有類似語(yǔ)義信息的圖像應(yīng)該產(chǎn)生與t-SNE類似的結(jié)果。該方法與PCA之間的區(qū)別在于t-SNE是一種非線性減少方法，可以保留地點(diǎn)之間的距離。我們得到以下圖像，該圖像是將t-SNE應(yīng)用于原始MNIST圖像的結(jié)果。我們可以看到MNIST是一個(gè)相對(duì)簡(jiǎn)單的數(shù)據(jù)集，其中不同分類的圖像之間的差異是顯而易見(jiàn)的。

5.3:可視化中間層激活值

我們可以看到，即使ImageNet沒(méi)有人臉類別，網(wǎng)絡(luò)仍將學(xué)會(huì)區(qū)分這種語(yǔ)義信息并捕獲未來(lái)的分類。

5.4:最大化響應(yīng)圖像區(qū)域

為了阻止這種情況，在中間層選擇一個(gè)指定的神經(jīng)元，然后將多個(gè)不同的圖像輸入網(wǎng)絡(luò)，以找到導(dǎo)致神經(jīng)元最大響應(yīng)的圖像區(qū)域。這允許我們觀察神經(jīng)元對(duì)應(yīng)的語(yǔ)義特征，我們使用“圖像區(qū)域”而不是“完整圖像”的原因是中間層神經(jīng)元的感受野受限并且不能覆蓋整個(gè)圖像。

5.5:梯度上升優(yōu)化

該方法選擇特定的神經(jīng)元，然后計(jì)算該神經(jīng)元對(duì)輸入圖像的反應(yīng)產(chǎn)生的偏導(dǎo)數(shù)，然后使用梯度上升優(yōu)化圖像直到收斂。此外，我們需要一些標(biāo)準(zhǔn)化的項(xiàng)目來(lái)使生成的圖像更接近自然模型。除了優(yōu)化輸入圖像，我們還可以優(yōu)化fc6功能并創(chuàng)建所需的圖像。

6、對(duì)抗性的例子

選擇圖像和不正確的分類。然后，系統(tǒng)計(jì)算該分類對(duì)圖像的偏導(dǎo)數(shù)，然后對(duì)圖像應(yīng)用梯度上升優(yōu)化。實(shí)驗(yàn)表明，在使用小的，幾乎察覺(jué)不到的變化之后，我們可以使網(wǎng)絡(luò)以高可信度對(duì)模型實(shí)現(xiàn)不正確的類。

在實(shí)際應(yīng)用中，對(duì)抗性示例在金融和安全領(lǐng)域非常有用。研究人員發(fā)現(xiàn)，這是因?yàn)閳D像空間的維度非常高。即使有大量的訓(xùn)練數(shù)據(jù)，我們也只能覆蓋該空間的一小部分。如果輸入圖像從該不同空間稍微變化，那么網(wǎng)絡(luò)將難以做出合理的決定。

7、紋理生成（Texture Synthesis）與風(fēng)格遷移（Style Transform）

紋理生成用于生成包含相同紋理的較大圖像。給定正常圖像和包含特定風(fēng)格的圖像，然后通過(guò)風(fēng)格遷移不僅保留圖像的原始內(nèi)容，而且將該圖像轉(zhuǎn)換為指定的風(fēng)格。

7.1:特征反演（Feature Inversion）

特征反演是紋理生成和風(fēng)格遷移背后的核心概念。給定一個(gè)中間層特征，我們希望迭代來(lái)創(chuàng)建與給定特征類似圖像。特征反演還可以告訴我們?cè)谥虚g層特征中包含多少圖像信息。

給定DxHxW的深度卷積特征，我們將它們轉(zhuǎn)換為Dx（HW）矩陣X，因此我們可以將對(duì)應(yīng)Gram矩陣定義為:G = XX ^ T

通過(guò)外積，Gram矩陣捕獲不同特征之間的關(guān)系。

7.2:紋理生成的概念

它對(duì)給定紋理圖案的Gram矩陣進(jìn)行特征逆向工程。使生成圖像的各層特征的Gram矩陣接近給定紋理圖像的各層Gram。低層特征傾向于捕獲細(xì)節(jié)信息，而高層特征可以捕獲更大面積的特征。

7.3:風(fēng)格遷移的概念

此優(yōu)化有兩個(gè)主要目標(biāo)：第一個(gè)是使生成的圖像的內(nèi)容更接近原始圖像的內(nèi)容，而第二個(gè)是使生成的圖像的風(fēng)格與指定的風(fēng)格匹配。風(fēng)格由Gram矩陣體現(xiàn)，而內(nèi)容直接由神經(jīng)元的激活值體現(xiàn)。

7.4:直接生成風(fēng)格遷移的圖像

上面直接生成風(fēng)格遷移的圖像的方法的缺點(diǎn)是需要多次迭代才能收斂。解決該問(wèn)題的方案是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)直接生成風(fēng)格遷移的圖像。一旦訓(xùn)練結(jié)束，進(jìn)行風(fēng)格遷移只需前饋網(wǎng)絡(luò)一次，十分高效。在訓(xùn)練時(shí)，將生成圖像、原始圖像、風(fēng)格圖像三者前饋一固定網(wǎng)絡(luò)以提取不同層特征用于計(jì)算損失函數(shù)。

實(shí)驗(yàn)證明，通過(guò)使用實(shí)例歸一化，風(fēng)格變換網(wǎng)絡(luò)可以移除與圖像相關(guān)的比較信息以簡(jiǎn)化生成過(guò)程。

7.5:條件示例規(guī)范化

上述方法的一個(gè)問(wèn)題是我們必須為每種不同的風(fēng)格訓(xùn)練一個(gè)單獨(dú)的模型。由于不同的風(fēng)格有時(shí)包含相似性，因此可以通過(guò)在不同風(fēng)格的風(fēng)格變換網(wǎng)絡(luò)之間共享參數(shù)來(lái)完成這項(xiàng)工作。具體來(lái)說(shuō)，它更改了風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的示例規(guī)范化，使其具有N組縮放和平移參數(shù)，每個(gè)組對(duì)應(yīng)于特定風(fēng)格。這樣我們就可以從單個(gè)前饋過(guò)程中獲得N個(gè)風(fēng)格的變換圖像。

8、面部驗(yàn)證/識(shí)別

人臉驗(yàn)證/識(shí)別可以認(rèn)為是一種更加精細(xì)的細(xì)粒度圖像識(shí)別任務(wù)。人臉驗(yàn)證是給定兩張圖像、判斷其是否屬于同一個(gè)人，而人臉識(shí)別是回答圖像中的人是誰(shuí)。一個(gè)人臉驗(yàn)證/識(shí)別系統(tǒng)通常包括三大步：檢測(cè)圖像中的人臉，特征點(diǎn)定位、及對(duì)人臉進(jìn)行驗(yàn)證/識(shí)別。人臉驗(yàn)證/識(shí)別的難題在于需要進(jìn)行小樣本學(xué)習(xí)。通常情況下，數(shù)據(jù)集中每人只有對(duì)應(yīng)的一張圖像，這稱為一次性學(xué)習(xí)(one-shot learning)。

8.1:面部識(shí)別系統(tǒng)背后的概念

作為分類問(wèn)題（非常多的類別數(shù)），或作為度量學(xué)習(xí)的問(wèn)題。如果兩個(gè)圖像屬于同一個(gè)人，那么我們希望它們的深層特征非常相似。否則，它們的特征應(yīng)該不同。之后，根據(jù)深度特征之間的距離進(jìn)行驗(yàn)證或識(shí)別（k最近鄰居分類）。

8.2:DeepFace

第一個(gè)成功將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于面部驗(yàn)證/識(shí)別模型的系統(tǒng)。DeepFace使用非共享參數(shù)局部性連接。這是因?yàn)槿四樀牟煌糠志哂胁煌奶卣鳎ɡ缪劬妥齑骄哂胁煌奶卣鳎?，因此傳統(tǒng)卷積層的經(jīng)典“共享參數(shù)”不適用于面部驗(yàn)證。因此，面部識(shí)別網(wǎng)絡(luò)使用非共享參數(shù)局部性連接。它使用的孿生（Siamese network）網(wǎng)絡(luò)用于面部驗(yàn)證。當(dāng)兩個(gè)圖像的深度特征小于給定閾值時(shí)，它們被認(rèn)為是同一個(gè)人。

8.3:FaceNet

FaceNet通過(guò)三因子輸入，希望負(fù)樣本之間的距離大于正樣本之間的距離給定量。此外，三個(gè)輸入因子并不是隨機(jī)的，否則，因?yàn)樨?fù)樣本的差異樣本太大，網(wǎng)絡(luò)將無(wú)法學(xué)習(xí)。選擇最具挑戰(zhàn)性的三個(gè)元素組（例如最遠(yuǎn)的正樣本和最接近的負(fù)樣本）會(huì)使該網(wǎng)絡(luò)陷入局部最優(yōu)。FaceNet使用半困難策略，選擇比正樣本更遠(yuǎn)的負(fù)樣本。

8.4:大區(qū)間交叉熵?fù)p失

近年來(lái)，這一直是一個(gè)熱門(mén)的研究課題。由于類內(nèi)波動(dòng)大而類間相似度高，有研究工作旨在提升經(jīng)典的交叉熵?fù)p失對(duì)深度特征的判斷能力。例如，L-Softmax加強(qiáng)優(yōu)化目標(biāo)，使對(duì)應(yīng)類別的參數(shù)向量和深度特征夾角增大。

A-Softmax進(jìn)一步約束L-Softmax的參數(shù)向量長(zhǎng)度為1，使訓(xùn)練更集中到優(yōu)化深度特征和夾角上。實(shí)際中，L-Softmax和A-Softmax都很難收斂，訓(xùn)練時(shí)采用了退火方法，從標(biāo)準(zhǔn)softmax逐漸退火至L-Softmax或A-Softmax。

8.5:實(shí)時(shí)檢測(cè)

該系統(tǒng)確定面部圖像是來(lái)自真人還是來(lái)自照片，這是面部驗(yàn)證/識(shí)別任務(wù)的關(guān)鍵障礙。目前在業(yè)界流行的一些方法是讀取人的面部表情，紋理信息，眨眼或要求用戶完成一系列動(dòng)作的變化。

9、圖像搜索和檢索

給定一個(gè)包含特定實(shí)例（例如特定目標(biāo)，場(chǎng)景或建筑物）的圖像，圖像搜索用于在數(shù)據(jù)庫(kù)中查找包含與給定實(shí)例類似的元素的圖像。然而，由于兩個(gè)圖像中的角度，光照和障礙物通常不相同，因此創(chuàng)建能夠處理圖像類別中的這些差異的搜索算法的問(wèn)題對(duì)研究人員構(gòu)成了重大挑戰(zhàn)。

9.1:經(jīng)典圖像搜索的過(guò)程

首先，我們必須從圖像中提取適當(dāng)?shù)拇硇允噶俊Ｆ浯?，將歐氏距離或余弦距離應(yīng)用于這些矢量以執(zhí)行最近鄰居搜索并找到最相似的圖像。最后，我們使用特定的處理技術(shù)對(duì)搜索結(jié)果進(jìn)行小幅調(diào)整。我們可以看到圖像搜索引擎性能的限制因素是圖像的表示：

9.2:無(wú)監(jiān)督的圖像搜索

無(wú)監(jiān)督圖像搜索使用預(yù)先訓(xùn)練的ImageNet模型，沒(méi)有外部信息作為特征提取引擎來(lái)提取圖像的表示。

直觀的思路：因?yàn)樯疃热B接特征提供了圖像的高級(jí)描述，并且是一個(gè)“自然”矢量，直觀的思維過(guò)程是直接提取深度全連接特征作為圖像的代表矢量。但是，由于圖像分類中使用完全連接的特征缺乏對(duì)圖像的詳細(xì)描述，因此該思維過(guò)程僅產(chǎn)生平均準(zhǔn)確度。

使用深度卷積特征：因?yàn)樯疃染矸e具有更好的詳細(xì)信息，并且可以用于處理任何大小的圖像，目前流行的方法是提取深度卷積特征，然后使用加權(quán)全局搜索和求和池來(lái)獲得圖像的代表向量。權(quán)重表示不同位置的特征的必要性，并且可以采用空間矢量權(quán)重或信道矢量權(quán)重的形式。

CroW：深度卷積特征是一種分布式表示。盡管來(lái)自神經(jīng)元的響應(yīng)值在確定區(qū)域是否有目標(biāo)方面不是非常有用，但如果多個(gè)神經(jīng)元同時(shí)具有大量反應(yīng)，那么該區(qū)域很可能包含目標(biāo)。因此，CroW沿著通道添加了特征圖以獲得二維合成圖，對(duì)其進(jìn)行標(biāo)準(zhǔn)化，并根據(jù)數(shù)量標(biāo)準(zhǔn)化的結(jié)果將其用作空間權(quán)重。CroW的通道權(quán)重由特征圖的稀疏性決定，類似于TF-IDF中的IDF特征，自然語(yǔ)言處理中的特征可用于提升不常見(jiàn)但具有高度確定性的特征。

類加權(quán)特征：該方法嘗試?yán)脠D像集成網(wǎng)絡(luò)的類別預(yù)測(cè)信息使空間權(quán)重更具確定性。具體地，它使用CAM來(lái)獲得預(yù)訓(xùn)練網(wǎng)絡(luò)中每個(gè)類別的最具代表性的區(qū)域的語(yǔ)義信息;然后它使用標(biāo)準(zhǔn)化的CAM結(jié)果作為空間權(quán)重。

PWA：PWA發(fā)現(xiàn)，深度卷積特征的不同通道對(duì)應(yīng)于目標(biāo)上不同區(qū)域的響應(yīng)。因此，PWA可以選擇一系列確定性特征映射，并將其標(biāo)準(zhǔn)化結(jié)果用作收斂的空間權(quán)重。然后系統(tǒng)級(jí)聯(lián)結(jié)果以形成最終圖像的表示。

9.3:有監(jiān)督圖像搜索

有監(jiān)督圖像搜索首先采用預(yù)先訓(xùn)練的ImageNet模型并將其調(diào)整到另一個(gè)訓(xùn)練數(shù)據(jù)集上。然后，它從這個(gè)調(diào)整的模型中提取圖像表示。為了獲得更好的結(jié)果，用于優(yōu)化模型的訓(xùn)練數(shù)據(jù)集通常類似于搜索數(shù)據(jù)集。此外，我們可以使用候選區(qū)域網(wǎng)絡(luò)從可能包含目標(biāo)的圖像中提取前景區(qū)域。

孿生網(wǎng)絡(luò)：類似于人臉識(shí)別的思想，該系統(tǒng)使用兩個(gè)元素或三個(gè)元素輸入（++ -）來(lái)訓(xùn)練模型，以最小化兩個(gè)樣本之間的距離，并最大化兩個(gè)不同樣本之間的距離。

9.4:對(duì)象跟蹤

對(duì)象跟蹤的目標(biāo)是跟蹤視頻中目標(biāo)的移動(dòng)。通常，目標(biāo)位于視頻的第一幀中并由框標(biāo)記。我們需要預(yù)測(cè)框在下一幀中的位置。對(duì)象跟蹤與目標(biāo)測(cè)試類似。然而，對(duì)象跟蹤的難點(diǎn)在于我們不知道我們跟蹤哪個(gè)目標(biāo)。因此，我們無(wú)法在任務(wù)之前收集足夠的訓(xùn)練數(shù)據(jù)并訓(xùn)練專門(mén)的測(cè)試。

9.5:孿生網(wǎng)絡(luò)

類似于面部驗(yàn)證的概念，利用孿生網(wǎng)絡(luò)可以在一條線上的目標(biāo)框內(nèi)輸入圖像，并且在另一條線上輸入候選圖像區(qū)域，然后輸出兩個(gè)圖像之間的相似度。我們不需要遍歷不同幀中的所有其他候選區(qū)域;相反，我們可以使用卷積網(wǎng)絡(luò)，只需要將每個(gè)圖像前饋一次，通過(guò)卷積，我們可以獲得二維的響應(yīng)圖，其中最重要的響應(yīng)位置確定了框的位置?；趯\生網(wǎng)絡(luò)的方法非?？觳⑶夷軌蛱幚砣魏未笮〉膱D像。

9.6:CFNet

相關(guān)濾波器訓(xùn)練線性模板以區(qū)分圖像區(qū)域和它們周圍的區(qū)域，然后使用傅立葉變換。CFNet與離線訓(xùn)練的孿生網(wǎng)絡(luò)和相關(guān)的在線濾波模板相結(jié)合，能夠提高加權(quán)網(wǎng)絡(luò)的跟蹤性能。

10、生成式模型（generative models）

這種類型的模型用于學(xué)習(xí)數(shù)據(jù)（圖像）的分布或從其分布中采樣新圖像。生成模型可用于超分辨率重建、圖像著色、圖像轉(zhuǎn)換、從文本生成圖像、學(xué)習(xí)隱藏的圖像表示、半監(jiān)督學(xué)習(xí)等。此外，生成式模型可以與強(qiáng)化學(xué)習(xí)相結(jié)合，用于模擬和逆強(qiáng)化學(xué)習(xí)。

10.1:顯式建模

使用條件概率的公式來(lái)對(duì)圖像的分布進(jìn)行最大似然估計(jì)并從中學(xué)習(xí)。該方法的缺點(diǎn)在于，由于每個(gè)圖像中的像素取決于先前的像素，因此必須在一個(gè)角開(kāi)始并以有序的方式進(jìn)行，所以生成圖像的過(guò)程將稍微緩慢。例如，WaveNet可以產(chǎn)生類似于人類創(chuàng)建的語(yǔ)音，但由于它不能同時(shí)產(chǎn)生，一秒鐘的語(yǔ)音需要2分鐘來(lái)計(jì)算，并且實(shí)時(shí)生成是不可能的。

10.2:變分自編碼器

為了避免顯式建模的缺陷，變分自編碼器對(duì)數(shù)據(jù)分布進(jìn)行了隱式建模。它認(rèn)為生成圖像受隱藏變量控制的影響，并假設(shè)隱藏變量受到對(duì)角高斯分布的影響。

變分自編碼器使用解碼網(wǎng)絡(luò)根據(jù)隱藏變量生成圖像。由于我們無(wú)法直接應(yīng)用最大似然估計(jì)，因此在訓(xùn)練時(shí)，類似于EM算法，變分自編碼器構(gòu)造似然函數(shù)的下界函數(shù)，然后使用該下界函數(shù)進(jìn)行優(yōu)化。變分自編碼器的好處是因?yàn)槊總€(gè)維度的獨(dú)立性;我們可以通過(guò)控制隱藏變量來(lái)控制影響輸出圖像變化的因素。

10.3:生成對(duì)抗式網(wǎng)絡(luò)（GAN）

由于學(xué)習(xí)數(shù)據(jù)分布極其困難，生成對(duì)抗式網(wǎng)絡(luò)完全避免了這一步驟并立即生成圖像。生成對(duì)抗式網(wǎng)絡(luò)使用生成網(wǎng)絡(luò)G從隨機(jī)噪聲創(chuàng)建圖像，并使用判別網(wǎng)絡(luò)D來(lái)確定輸入圖像是真實(shí)的還是偽造的。

在訓(xùn)練期間，判別網(wǎng)絡(luò)D的目標(biāo)是確定圖像是真實(shí)的還是偽造的，并且生成式網(wǎng)絡(luò)G的目的是使判別網(wǎng)絡(luò)D傾向于確定其輸出圖像是真實(shí)的。在實(shí)踐中，訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò)會(huì)帶來(lái)模型崩潰的問(wèn)題，其中生成對(duì)抗式網(wǎng)絡(luò)無(wú)法學(xué)習(xí)完整的數(shù)據(jù)分布。這在LS-GAN和W-GAN中產(chǎn)生了改進(jìn)，與變分自編碼器一樣，生成對(duì)抗式網(wǎng)絡(luò)提供更好的詳細(xì)信息。

11、視頻分類

上述大多數(shù)任務(wù)都可以用于視頻分類，這里我們將以視頻分類為例來(lái)說(shuō)明處理視頻數(shù)據(jù)的一些基本方法。

11.1:多幀圖像特征匯合

這類方法將視頻視為一系列幀圖像，網(wǎng)絡(luò)接收屬于視頻的一組多幀圖像（例如15幀），然后從這些圖像中提取深度特征，并最終集成這些圖像特征以獲得視頻的該部分的特征以對(duì)其進(jìn)行分類。實(shí)驗(yàn)表明，使用“慢速融合（slow fusion）”效果最佳。此外，獨(dú)立組織單個(gè)幀也可以得到非常有競(jìng)爭(zhēng)力的結(jié)果，這意味著來(lái)自單個(gè)幀的圖像包含大量相關(guān)信息。

11.2:三維卷積

將標(biāo)準(zhǔn)的二維卷積擴(kuò)展為三維卷積，以在時(shí)間維度上連接局部。例如，系統(tǒng)可以采用VGG 3x3卷積并將其擴(kuò)展為3x3x3卷積或2x2收斂擴(kuò)展為2x2x2收斂。

11.3:圖像+序列兩個(gè)分支結(jié)構(gòu)

這種類型的方法使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)來(lái)區(qū)分從視頻捕獲的圖像信息和時(shí)間信息。圖像信息可以從單幀中的靜止圖像獲得，并且是圖像分類的經(jīng)典問(wèn)題。然后通過(guò)光流獲得運(yùn)動(dòng)信息，跟蹤目標(biāo)在相鄰幀上的運(yùn)動(dòng)。

11.4:CNN + RNN捕獲遠(yuǎn)程依賴關(guān)系

先前的方法僅能夠捕獲幾幀圖像之間的依賴關(guān)系。此方法使用CNN從單個(gè)幀中提取圖像特征，然后使用RNN捕獲幀之間的依賴關(guān)系。

此外，研究人員已嘗試將CNN和RNN結(jié)合起來(lái)，以便每個(gè)卷積層能夠捕獲遠(yuǎn)距離依賴性。

以上為譯文。

本文由阿里云云棲社區(qū)組織翻譯。

文章原標(biāo)題《deep-dive-into-computer-vision-with-neural-network-2》，

作者： Leona Zhang譯者：虎說(shuō)八道，審校：。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：快讀書(shū)館 > 《信息技術(shù)》

舉報(bào)/認(rèn)領(lǐng)