小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

計算機視覺領域最全匯總(第2部分)

 南風清雨 2018-10-03

摘要: 關于計算機視覺你知道的可能有些少!

計算機視覺領域最全匯總(第1部分)

7、紋理生成(Texture Synthesis)與風格遷移(Style Transform)

紋理生成用于生成包含相同紋理的較大圖像。給定正常圖像和包含特定風格的圖像,然后通過風格遷移不僅保留圖像的原始內(nèi)容,而且將該圖像轉(zhuǎn)換為指定的風格。

7.1:特征反演(Feature Inversion)

特征反演是紋理生成和風格遷移背后的核心概念。給定一個中間層特征,我們希望迭代來創(chuàng)建與給定特征類似圖像。特征反演還可以告訴我們在中間層特征中包含多少圖像信息。

給定DxHxW的深度卷積特征,我們將它們轉(zhuǎn)換為Dx(HW)矩陣X,因此我們可以將對應Gram矩陣定義為:G = XX ^ T

通過外積,Gram矩陣捕獲不同特征之間的關系。

7.2:紋理生成的概念

它對給定紋理圖案的Gram矩陣進行特征逆向工程。使生成圖像的各層特征的Gram矩陣接近給定紋理圖像的各層Gram。低層特征傾向于捕獲細節(jié)信息,而高層特征可以捕獲更大面積的特征。

計算機視覺領域最全匯總(第2部分)

7.3:風格遷移的概念

此優(yōu)化有兩個主要目標:第一個是使生成的圖像的內(nèi)容更接近原始圖像的內(nèi)容,而第二個是使生成的圖像的風格與指定的風格匹配。風格由Gram矩陣體現(xiàn),而內(nèi)容直接由神經(jīng)元的激活值體現(xiàn)。

計算機視覺領域最全匯總(第2部分)

7.4:直接生成風格遷移的圖像

上面直接生成風格遷移的圖像的方法的缺點是需要多次迭代才能收斂。解決該問題的方案是訓練一個神經(jīng)網(wǎng)絡來直接生成風格遷移的圖像。一旦訓練結(jié)束,進行風格遷移只需前饋網(wǎng)絡一次,十分高效。在訓練時,將生成圖像、原始圖像、風格圖像三者前饋一固定網(wǎng)絡以提取不同層特征用于計算損失函數(shù)。

計算機視覺領域最全匯總(第2部分)

實驗證明,通過使用實例歸一化,風格變換網(wǎng)絡可以移除與圖像相關的比較信息以簡化生成過程。

7.5:條件示例規(guī)范化

上述方法的一個問題是我們必須為每種不同的風格訓練一個單獨的模型。由于不同的風格有時包含相似性,因此可以通過在不同風格的風格變換網(wǎng)絡之間共享參數(shù)來完成這項工作。具體來說,它更改了風格轉(zhuǎn)換網(wǎng)絡的示例規(guī)范化,使其具有N組縮放和平移參數(shù),每個組對應于特定風格。這樣我們就可以從單個前饋過程中獲得N個風格的變換圖像。

8、面部驗證/識別

人臉驗證/識別可以認為是一種更加精細的細粒度圖像識別任務。人臉驗證是給定兩張圖像、判斷其是否屬于同一個人,而人臉識別是回答圖像中的人是誰。一個人臉驗證/識別系統(tǒng)通常包括三大步:檢測圖像中的人臉,特征點定位、及對人臉進行驗證/識別。人臉驗證/識別的難題在于需要進行小樣本學習。通常情況下,數(shù)據(jù)集中每人只有對應的一張圖像,這稱為一次性學習(one-shot learning)。

8.1:面部識別系統(tǒng)背后的概念

作為分類問題(非常多的類別數(shù)),或作為度量學習的問題。如果兩個圖像屬于同一個人,那么我們希望它們的深層特征非常相似。否則,它們的特征應該不同。之后,根據(jù)深度特征之間的距離進行驗證或識別(k最近鄰居分類)。

8.2:DeepFace

第一個成功將深度神經(jīng)網(wǎng)絡應用于面部驗證/識別模型的系統(tǒng)。DeepFace使用非共享參數(shù)局部性連接。這是因為人臉的不同部分具有不同的特征(例如眼睛和嘴唇具有不同的特征),因此傳統(tǒng)卷積層的經(jīng)典“共享參數(shù)”不適用于面部驗證。因此,面部識別網(wǎng)絡使用非共享參數(shù)局部性連接。它使用的孿生(Siamese network)網(wǎng)絡用于面部驗證。當兩個圖像的深度特征小于給定閾值時,它們被認為是同一個人。

8.3:FaceNet

FaceNet通過三因子輸入,希望負樣本之間的距離大于正樣本之間的距離給定量。此外,三個輸入因子并不是隨機的,否則,因為負樣本的差異樣本太大,網(wǎng)絡將無法學習。選擇最具挑戰(zhàn)性的三個元素組(例如最遠的正樣本和最接近的負樣本)會使該網(wǎng)絡陷入局部最優(yōu)。FaceNet使用半困難策略,選擇比正樣本更遠的負樣本。

計算機視覺領域最全匯總(第2部分)

8.4:大區(qū)間交叉熵損失

近年來,這一直是一個熱門的研究課題。由于類內(nèi)波動大而類間相似度高,有研究工作旨在提升經(jīng)典的交叉熵損失對深度特征的判斷能力。例如,L-Softmax加強優(yōu)化目標,使對應類別的參數(shù)向量和深度特征夾角增大。

A-Softmax進一步約束L-Softmax的參數(shù)向量長度為1,使訓練更集中到優(yōu)化深度特征和夾角上。實際中,L-Softmax和A-Softmax都很難收斂,訓練時采用了退火方法,從標準softmax逐漸退火至L-Softmax或A-Softmax。

8.5:實時檢測

該系統(tǒng)確定面部圖像是來自真人還是來自照片,這是面部驗證/識別任務的關鍵障礙。目前在業(yè)界流行的一些方法是讀取人的面部表情,紋理信息,眨眼或要求用戶完成一系列動作的變化。

9、圖像搜索和檢索

給定一個包含特定實例(例如特定目標,場景或建筑物)的圖像,圖像搜索用于在數(shù)據(jù)庫中查找包含與給定實例類似的元素的圖像。然而,由于兩個圖像中的角度,光照和障礙物通常不相同,因此創(chuàng)建能夠處理圖像類別中的這些差異的搜索算法的問題對研究人員構(gòu)成了重大挑戰(zhàn)。

9.1:經(jīng)典圖像搜索的過程

首先,我們必須從圖像中提取適當?shù)拇硇允噶?。其次,將歐氏距離或余弦距離應用于這些矢量以執(zhí)行最近鄰居搜索并找到最相似的圖像。最后,我們使用特定的處理技術對搜索結(jié)果進行小幅調(diào)整。我們可以看到圖像搜索引擎性能的限制因素是圖像的表示:

計算機視覺領域最全匯總(第2部分)

9.2:無監(jiān)督的圖像搜索

無監(jiān)督圖像搜索使用預先訓練的ImageNet模型,沒有外部信息作為特征提取引擎來提取圖像的表示。

  1. 直觀的思路

    :因為深度全連接特征提供了圖像的高級描述,并且是一個“自然”矢量,直觀的思維過程是直接提取深度全連接特征作為圖像的代表矢量。但是,由于圖像分類中使用完全連接的特征缺乏對圖像的詳細描述,因此該思維過程僅產(chǎn)生平均準確度。
  2. 使用深度卷積特征

    :因為深度卷積具有更好的詳細信息,并且可以用于處理任何大小的圖像,目前流行的方法是提取深度卷積特征,然后使用加權全局搜索和求和池來獲得圖像的代表向量。權重表示不同位置的特征的必要性,并且可以采用空間矢量權重或信道矢量權重的形式。
  3. CroW

    :深度卷積特征是一種分布式表示。盡管來自神經(jīng)元的響應值在確定區(qū)域是否有目標方面不是非常有用,但如果多個神經(jīng)元同時具有大量反應,那么該區(qū)域很可能包含目標。因此,CroW沿著通道添加了特征圖以獲得二維合成圖,對其進行標準化,并根據(jù)數(shù)量標準化的結(jié)果將其用作空間權重。CroW的通道權重由特征圖的稀疏性決定,類似于TF-IDF中的IDF特征,自然語言處理中的特征可用于提升不常見但具有高度確定性的特征。
  4. 類加權特征

    :該方法嘗試利用圖像集成網(wǎng)絡的類別預測信息使空間權重更具確定性。具體地,它使用CAM來獲得預訓練網(wǎng)絡中每個類別的最具代表性的區(qū)域的語義信息;然后它使用標準化的CAM結(jié)果作為空間權重。
  5. PWA

    :PWA發(fā)現(xiàn),深度卷積特征的不同通道對應于目標上不同區(qū)域的響應。因此,PWA可以選擇一系列確定性特征映射,并將其標準化結(jié)果用作收斂的空間權重。然后系統(tǒng)級聯(lián)結(jié)果以形成最終圖像的表示。

計算機視覺領域最全匯總(第2部分)

9.3:有監(jiān)督圖像搜索

有監(jiān)督圖像搜索首先采用預先訓練的ImageNet模型并將其調(diào)整到另一個訓練數(shù)據(jù)集上。然后,它從這個調(diào)整的模型中提取圖像表示。為了獲得更好的結(jié)果,用于優(yōu)化模型的訓練數(shù)據(jù)集通常類似于搜索數(shù)據(jù)集。此外,我們可以使用候選區(qū)域網(wǎng)絡從可能包含目標的圖像中提取前景區(qū)域。

孿生網(wǎng)絡:類似于人臉識別的思想,該系統(tǒng)使用兩個元素或三個元素輸入(++ -)來訓練模型,以最小化兩個樣本之間的距離,并最大化兩個不同樣本之間的距離。

計算機視覺領域最全匯總(第2部分)

9.4:對象跟蹤

對象跟蹤的目標是跟蹤視頻中目標的移動。通常,目標位于視頻的第一幀中并由框標記。我們需要預測框在下一幀中的位置。對象跟蹤與目標測試類似。然而,對象跟蹤的難點在于我們不知道我們跟蹤哪個目標。因此,我們無法在任務之前收集足夠的訓練數(shù)據(jù)并訓練專門的測試。

9.5:孿生網(wǎng)絡

類似于面部驗證的概念,利用孿生網(wǎng)絡可以在一條線上的目標框內(nèi)輸入圖像,并且在另一條線上輸入候選圖像區(qū)域,然后輸出兩個圖像之間的相似度。我們不需要遍歷不同幀中的所有其他候選區(qū)域;相反,我們可以使用卷積網(wǎng)絡,只需要將每個圖像前饋一次,通過卷積,我們可以獲得二維的響應圖,其中最重要的響應位置確定了框的位置?;趯\生網(wǎng)絡的方法非??觳⑶夷軌蛱幚砣魏未笮〉膱D像。

計算機視覺領域最全匯總(第2部分)

9.6:CFNet

相關濾波器訓練線性模板以區(qū)分圖像區(qū)域和它們周圍的區(qū)域,然后使用傅立葉變換。CFNet與離線訓練的孿生網(wǎng)絡和相關的在線濾波模板相結(jié)合,能夠提高加權網(wǎng)絡的跟蹤性能。

計算機視覺領域最全匯總(第2部分)

10、生成式模型(generative models)

這種類型的模型用于學習數(shù)據(jù)(圖像)的分布或從其分布中采樣新圖像。生成模型可用于超分辨率重建、圖像著色、圖像轉(zhuǎn)換、從文本生成圖像、學習隱藏的圖像表示、半監(jiān)督學習等。此外,生成式模型可以與強化學習相結(jié)合,用于模擬和逆強化學習。

計算機視覺領域最全匯總(第2部分)

10.1:顯式建模

使用條件概率的公式來對圖像的分布進行最大似然估計并從中學習。該方法的缺點在于,由于每個圖像中的像素取決于先前的像素,因此必須在一個角開始并以有序的方式進行,所以生成圖像的過程將稍微緩慢。例如,WaveNet可以產(chǎn)生類似于人類創(chuàng)建的語音,但由于它不能同時產(chǎn)生,一秒鐘的語音需要2分鐘來計算,并且實時生成是不可能的。

10.2:變分自編碼器

為了避免顯式建模的缺陷,變分自編碼器對數(shù)據(jù)分布進行了隱式建模。它認為生成圖像受隱藏變量控制的影響,并假設隱藏變量受到對角高斯分布的影響。

變分自編碼器使用解碼網(wǎng)絡根據(jù)隱藏變量生成圖像。由于我們無法直接應用最大似然估計,因此在訓練時,類似于EM算法,變分自編碼器構(gòu)造似然函數(shù)的下界函數(shù),然后使用該下界函數(shù)進行優(yōu)化。變分自編碼器的好處是因為每個維度的獨立性;我們可以通過控制隱藏變量來控制影響輸出圖像變化的因素。

計算機視覺領域最全匯總(第2部分)

10.3:生成對抗式網(wǎng)絡(GAN)

由于學習數(shù)據(jù)分布極其困難,生成對抗式網(wǎng)絡完全避免了這一步驟并立即生成圖像。生成對抗式網(wǎng)絡使用生成網(wǎng)絡G從隨機噪聲創(chuàng)建圖像,并使用判別網(wǎng)絡D來確定輸入圖像是真實的還是偽造的。

在訓練期間,判別網(wǎng)絡D的目標是確定圖像是真實的還是偽造的,并且生成式網(wǎng)絡G的目的是使判別網(wǎng)絡D傾向于確定其輸出圖像是真實的。在實踐中,訓練生成式對抗網(wǎng)絡會帶來模型崩潰的問題,其中生成對抗式網(wǎng)絡無法學習完整的數(shù)據(jù)分布。這在LS-GAN和W-GAN中產(chǎn)生了改進,與變分自編碼器一樣,生成對抗式網(wǎng)絡提供更好的詳細信息。

計算機視覺領域最全匯總(第2部分)

11、視頻分類

上述大多數(shù)任務都可以用于視頻分類,這里我們將以視頻分類為例來說明處理視頻數(shù)據(jù)的一些基本方法。

11.1:多幀圖像特征匯合

這類方法將視頻視為一系列幀圖像,網(wǎng)絡接收屬于視頻的一組多幀圖像(例如15幀),然后從這些圖像中提取深度特征,并最終集成這些圖像特征以獲得視頻的該部分的特征以對其進行分類。實驗表明,使用“慢速融合(slow fusion)”效果最佳。此外,獨立組織單個幀也可以得到非常有競爭力的結(jié)果,這意味著來自單個幀的圖像包含大量相關信息。

計算機視覺領域最全匯總(第2部分)

11.2:三維卷積

將標準的二維卷積擴展為三維卷積,以在時間維度上連接局部。例如,系統(tǒng)可以采用VGG 3x3卷積并將其擴展為3x3x3卷積或2x2收斂擴展為2x2x2收斂。

計算機視覺領域最全匯總(第2部分)

11.3:圖像+序列兩個分支結(jié)構(gòu)

這種類型的方法使用兩個獨立的網(wǎng)絡來區(qū)分從視頻捕獲的圖像信息和時間信息。圖像信息可以從單幀中的靜止圖像獲得,并且是圖像分類的經(jīng)典問題。然后通過光流獲得運動信息,跟蹤目標在相鄰幀上的運動。

計算機視覺領域最全匯總(第2部分)

11.4:CNN + RNN捕獲遠程依賴關系

先前的方法僅能夠捕獲幾幀圖像之間的依賴關系。此方法使用CNN從單個幀中提取圖像特征,然后使用RNN捕獲幀之間的依賴關系。

計算機視覺領域最全匯總(第2部分)

此外,研究人員已嘗試將CNN和RNN結(jié)合起來,以便每個卷積層能夠捕獲遠距離依賴性。

計算機視覺領域最全匯總(第2部分)

以上為譯文。

本文由阿里云云棲社區(qū)組織翻譯。

文章原標題《deep-dive-into-computer-vision-with-neural-network-2》,

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多