小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

【騰訊計算機視覺團隊首次曝光】AI Lab深度解讀CVPR五大前沿

 NeuAlec 2017-07-28



【新智元導(dǎo)讀】去年4月成立,今年首次參展的騰訊AI Lab被CVPR錄取6篇論文。本屆CVPR最熱門的研究方向有哪些?顯示了計算機視覺應(yīng)用的哪些趨勢?本文帶來深度解析和重要論文評述。騰訊方面透露,AI Lab的計算機視覺團隊(CV團隊)是最早組建的研究團隊之一,目前有十多位基礎(chǔ)研究科學(xué)家,大多擁有國內(nèi)外院校博士學(xué)位,并與一個較大的應(yīng)用工程師團隊緊密合作,由計算機視覺和機器學(xué)習(xí)專家劉威博士領(lǐng)導(dǎo)。



本文將深度解析本屆CVPR熱門研究。第一部分是五大前沿領(lǐng)域的重點文章解析,包括低中層視覺、圖像描述生成、3D視覺、計算機視覺與機器學(xué)習(xí)、弱監(jiān)督下的圖像識別等。第二部分是CVPR及我們計算機視覺團隊簡介等。接下來的兩篇文章中,我們將對頂級會議ACL和ICML做類似深度解讀,敬請期待。


騰訊AI Lab去年四月成立,今年是首次參展CVPR,共計六篇文章被錄?。ㄔ斍橐娢哪捎嬎銠C視覺總監(jiān)劉威博士帶隊到現(xiàn)場交流學(xué)習(xí)。



騰訊AI Lab展臺及CV科學(xué)家在Poster環(huán)節(jié)介紹論文


從研究領(lǐng)域和前沿思考出發(fā),我們重點關(guān)注了五大領(lǐng)域的前沿研究,以下為重點論文評述。


低中層視覺問題
Low-Level and Mid-Level Vision


在計算機視覺領(lǐng)域里,低中層視覺問題更關(guān)注原始視覺信號,與語義信息的聯(lián)系相對松散,同時也是許多高層視覺問題的預(yù)處理步驟。本屆CVPR有關(guān)低中層視覺問題的論文有很多,涵蓋去模糊、超分辨率、物體分割、色彩恒定性(Color constancy)等多個方面,方法仍以深度學(xué)習(xí)為主。


其中在超分辨率有關(guān)的工作中,較為值得關(guān)注來自Twitter的Ledig等人所著文章[1]。這是第一篇將生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,簡稱GAN)思想用于圖像超分辨率的研究(具體結(jié)構(gòu)見下圖)。以前的超分辨率方法,大都使用平均平方誤差(Mean Square Error,簡稱MSE)導(dǎo)出的損失函數(shù)(loss),直接最小化MSE loss雖能得到不錯的超分辨率結(jié)果,但難以避免細節(jié)上的模糊,這是MSE本身設(shè)計問題導(dǎo)致的。


[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. Ledig C, Theis L, Huszár F, et al. In Proceedings of CVPR 2017.



雖然后來阿斯利康DNA測序機構(gòu)的Johnson與斯坦福大學(xué)的Alahi等人[2]在ECCV 2016時中提出使用Perceptual loss替代MSE loss,獲得了細節(jié)更豐富的超分辨率結(jié)果,但仍然有進步的空間。而Ledig等人的這篇論文在Perceptual Loss基礎(chǔ)上加入GAN loss,約束超分辨率結(jié)果需符合自然圖像分布規(guī)律,使超分辨率結(jié)果獲得了非常逼真的細節(jié)效果。此方法也并非全無缺點,由于GAN loss考慮的是自然圖像的整體分布,與具體輸入圖像(即測試圖像)無關(guān),因此恢復(fù)的圖像細節(jié)可能并不忠實于原圖,類似「捏造」出假細節(jié),因此不適用于一些追求細節(jié)真實性的應(yīng)用。


[2] Perceptual Losses for Real-Time Style Transfer and Super- Resolution. Johnson J, Alahi A, Fei-Fei L. In Proceedings of ECCV 2016.



使用GAN loss生成的結(jié)果(黃色方框)能夠落在自然圖像分布上(紅色方框集合)。MSE loss雖能獲得平均意義上的最小誤差(藍色方框),但卻沒落在自然圖像分布上(紅色方框的集合),因而丟失了很多圖像細節(jié)。


未來,將GAN loss引入到視頻超分辨率的解決方案中是一個很自然的擴展,相信很快會有研究工作出現(xiàn)。值得一提的是,Twitter的這批研究人員在本屆CVPR還有一篇關(guān)于視頻超分辨率的論文[3],雖未引入GAN Loss,但通過更好幀間對齊方法提升了視頻超分辨率的可視化效果。


[3] Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation. Caballero J, Ledig C, Aitken A, et al. In Proceedings of CVPR 2017.


圖像/視頻描述生成

Image or Video Captioning


粗略統(tǒng)計,本屆CVPR有16篇視覺描述生成相關(guān)論文,其中有8篇圖像描述生成相關(guān)論文,其他論文多集中在視頻描述生成方向。我們重點關(guān)注了其中幾個較有代表性的研究:


1)SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning


這篇論文由騰訊AI Lab和浙江大學(xué)等機構(gòu)合作完成,主要討論了視覺注意力模型在空間與通道上的作用。該模型能動態(tài)提取隨時間變化的上下文注意力信息。傳統(tǒng)的注意力模型通常是針對空間設(shè)計的,例如在產(chǎn)生圖像的描述的過程中,模型的注意力模型會注意圖像的不同區(qū)域。但會忽略CNN中的通道和多層中的信息。這篇論文提出了一個全新模型SCA-CNN,可針對CNN中的空間和通道信息設(shè)計新的注意力模型。在圖像描述生成任務(wù)中,該模型表現(xiàn)出了良好性能。



2)Self-Critical Sequence Training for Image Captioning


IBM Watson研究院發(fā)表的這篇論文直接優(yōu)化了CIDEr評價標準(Consensus-based image description evaluation)。由于此目標函數(shù)不可微,論文中借鑒基礎(chǔ)的強化學(xué)習(xí)算法REINFORCE 來訓(xùn)練網(wǎng)絡(luò)。 該文提出了一個新的算法SCST(Self-critical Sequence Training),將貪婪搜索(Greedy Search )結(jié)果作為 REINFORCE 算法中的基線(Baseline),而不需要用另一個網(wǎng)絡(luò)來估計基線的值。這樣的基線設(shè)置會迫使采樣結(jié)果能接近貪婪搜索結(jié)果。在測試階段,可直接用貪婪搜索產(chǎn)生圖像描述,而不需要更費時的集束搜索(又名定向搜索,Beam Search)。除了SCST,此論文也改進了傳統(tǒng)編碼器-解碼器框架中的解碼器單元,基于Maxout網(wǎng)絡(luò),作者改進了LSTM及帶注意力機制的LSTM。綜合這兩個改進,作者提出的方法在微軟的圖像描述挑戰(zhàn)賽MS COCO Captioning Challenge占據(jù)榜首長達五個月,但目前已被其他方法超越。


3)Deep Reinforcement Learning-based Image Captioning with Embedding Reward


由Snapchat與谷歌合作的這篇論文也使用強化學(xué)習(xí)訓(xùn)練圖像描述生成網(wǎng)絡(luò),并采用Actor-critic框架。此論文通過一個策略網(wǎng)絡(luò)(Policy Network)和價值網(wǎng)絡(luò)(Value Network)相互協(xié)作產(chǎn)生相應(yīng)圖像描述語句。策略網(wǎng)絡(luò)評估當前狀態(tài)產(chǎn)生下一個單詞分布,價值網(wǎng)絡(luò)評價在當前狀態(tài)下全局可能的擴展結(jié)果。這篇論文沒有用CIDEr或BLEU指標作為目標函數(shù),而是用新的視覺語義嵌入定義的Reward,該獎勵由另一個基于神經(jīng)網(wǎng)絡(luò)的模型完成,能衡量圖像和已產(chǎn)生文本間的相似度。在MS COCO數(shù)據(jù)集上取得了不錯效果。



4)Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning


弗吉尼亞理工大學(xué)和喬治亞理工大學(xué)合作的這篇論文主要討論自適應(yīng)的注意力機制在圖像描述生成中的應(yīng)用。在產(chǎn)生描述語句的過程中,對某些特定單詞,如the或of等,不需要參考圖像信息;對一些詞組中的單詞,用語言模型就能很好產(chǎn)生相應(yīng)單詞。因此該文提出了帶有視覺哨卡(Visual Sentinel)的自適應(yīng)注意力模型,在產(chǎn)生每一個單詞的時,由注意力模型決定是注意圖像數(shù)據(jù)還是視覺哨卡。



在圖像描述生成方面,本屆CVPR還有很多其他方面的研究工作。包括在《Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects》中,微軟亞洲研究院將復(fù)制功能(Copying Mechanism)引入圖像描述生成學(xué)習(xí)新物體,《Attend to You: Personalized Image Captioning With Context Sequence Memory Networks》一文用記憶網(wǎng)絡(luò)(Memory Network)來定制個性化的圖像描述生成。


近年來,由于視頻數(shù)據(jù)大大豐富,也有一系列的工作討論視頻描述生成,包括復(fù)旦大學(xué)與英特爾合作的《Weakly Supervised Dense Video Captioning》,和杜克大學(xué)與微軟合作的《Semantic Compositional Networks for Visual Captioning》等。


3D計算機視覺

3D Computer Vision


近年來,3D計算機視覺快速發(fā)展,被廣泛應(yīng)用在無人駕駛、AR或VR等領(lǐng)域。在本屆CVPR,該研究方向亦受到廣泛關(guān)注,并體現(xiàn)出兩大特點:一方面其在傳統(tǒng)多視圖幾何如三維重建等問題上有所突破,另一方面它也和現(xiàn)今研究熱點,如深度強化學(xué)習(xí)等領(lǐng)域緊密結(jié)合。我們將對以下兩個方向做進一步介紹:


1) Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images


這篇論文為騰訊AI Lab、約翰霍普金斯大學(xué)及加州大學(xué)洛杉磯分校合作發(fā)表,作者主要討論從二維圖像中進行人造物體(如汽車、飛機等)的三維結(jié)構(gòu)重建問題。事實上,絕大多數(shù)人造物體都有對稱性以及曼哈頓結(jié)構(gòu),后者表示我們可以很容易在欲重建的人造物體上找到三個兩兩垂直的軸。如在汽車上,這三個軸可為兩個前輪、兩個左輪及門框邊緣。作者首先討論了基于單張圖片的物體三維結(jié)構(gòu)重建,并證明了僅用曼哈頓結(jié)構(gòu)信息即可恢復(fù)圖像的攝像機矩陣;然后結(jié)合對稱性約束,可唯一地重建物體的三維結(jié)構(gòu),部分結(jié)果如下圖所示。



然而,在單張圖像重建中,遮擋和噪聲等因素會對重建結(jié)果造成很大影響。所以論文后半部分轉(zhuǎn)到了多張圖像基于運動恢復(fù)結(jié)構(gòu)(Structure from Motion, 簡稱SfM)及對稱信息的物體三維重建中。事實上,SfM算法涉及到對二維特征點進行矩陣分解,而添加對稱性約束后,我們并不能直接對兩個對稱的二維特征點矩陣直接進行矩陣分解,因為這樣不能保證矩陣分解得到同樣的攝像機矩陣以及對稱的三維特征點坐標。在文章中,作者通過進一步利用對稱性信息進行坐標軸旋轉(zhuǎn)解決了這個問題。實驗證明,該方法的物體三維結(jié)構(gòu)重建及攝像機角度估計均超出了之前的最好結(jié)果。


2) PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning


本文由德國德累斯頓工業(yè)大學(xué)(TU Dresden)與微軟聯(lián)合發(fā)表,主要通過強化學(xué)習(xí)估計物體6D姿態(tài)。傳統(tǒng)姿態(tài)估計系統(tǒng)首先對物體姿態(tài)生成一個姿態(tài)假設(shè)池(a Pool of Pose Hypotheses),接著通過一個預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)計算假設(shè)池中所有姿態(tài)假設(shè)得分,然后選出假設(shè)池中的一個姿態(tài)假設(shè)子集,作為新假設(shè)池進行Refine。以上過程迭代,最后返回得分最高的假設(shè)姿態(tài)作為姿態(tài)估計的結(jié)果。


但傳統(tǒng)方法對姿態(tài)假設(shè)池Refinement的步驟非常耗時,如何選擇一個較好姿態(tài)假設(shè)子集作為姿態(tài)假設(shè)池就變得尤為重要。本文作者提出了一同基于策略梯度的強化學(xué)習(xí)算法來解決這個問題。該強化學(xué)習(xí)算法通過一個不可微的獎勵函數(shù)來訓(xùn)練一個Agent,使其選取較好的姿態(tài)假設(shè),而不是對姿態(tài)假設(shè)池中的所有姿態(tài)進行Refine。



強化學(xué)習(xí)的步驟如上圖所示。首先給強化學(xué)習(xí)Agent輸入一個較大初始姿態(tài)假設(shè)池,然后該Agent通過對其策略采樣,選擇一個新的強化學(xué)習(xí)池,并對其進行Refine。上述過程達到一定次數(shù)后,最后求得的姿態(tài)假設(shè)池中得分最高的姿態(tài)假設(shè)即為所求得姿態(tài)。實驗表明該方法在大大提高運行速度時,還得到超出此前最佳算法的估計結(jié)果。


計算機視覺與機器學(xué)習(xí)

Computer Vision & Machine Learning


計算機視覺與機器學(xué)習(xí)歷來聯(lián)系緊密,隨著深度學(xué)習(xí)近年來在視覺領(lǐng)域取得的空前成功,機器學(xué)習(xí)更是受到更廣泛的重視。作為機器學(xué)習(xí)一個分支,深度學(xué)習(xí)依然是計算機視覺領(lǐng)域絕對主流。但與前幾年不同的是,純粹用深度學(xué)習(xí)模型「單打獨斗」解決某個視覺問題似乎不再流行。


從近兩屆CVPR論文看,深度學(xué)習(xí)模型與其它傳統(tǒng)的機器學(xué)習(xí)分支模型的融合漸成趨勢,既利用深度學(xué)習(xí)模型的優(yōu)異性能,又利用傳統(tǒng)模型的成熟理論基礎(chǔ),取長補短,進一步提高性能并增加了深度學(xué)習(xí)模型透明度。本屆CVPR上這種融合趨勢可分為兩個具體方向:一個是傳統(tǒng)機器學(xué)習(xí)模型方法與深度學(xué)習(xí)模型深度融合,讓后者能設(shè)計更好模型;另一個是用傳統(tǒng)機器學(xué)習(xí)理論解釋或闡述深度學(xué)習(xí)模型性能。我們關(guān)注到相關(guān)的重點論文如下:


一、傳統(tǒng)機器學(xué)習(xí)模型方法與深度學(xué)習(xí)模型深度融合


1)On Compressing Deep Models by Low Rank and Sparse Decomposition


矩陣的低秩稀疏分解是經(jīng)典機器學(xué)習(xí)方法,假設(shè)一個大規(guī)模矩陣可分解為兩個或多個低維度矩陣的乘積與一個稀疏矩陣的和,從而大大降低原矩陣表示元素個數(shù)。在這篇由優(yōu)必選悉尼AI研究所、新加坡理工大學(xué)和悉尼大學(xué)共同完成的論文中,該方法被用來模擬深度學(xué)習(xí)的濾波參數(shù)矩陣,在保證模型性能同時,大大降低了參數(shù)個數(shù),這對深度學(xué)習(xí)模型的進一步推廣,尤其是智能手機端應(yīng)用會有很大推動作用。類似文章還有杜克大學(xué)的這篇[1]。


[1] A compact DNN: approaching GoogLeNet-Level accuracy of classification and domain adaptation



2)Unsupervised Pixel–Level Domain Adaptation with Generative Adversarial Networks


領(lǐng)域自適應(yīng)(Domain Adaptation)是遷移學(xué)習(xí)(Transfer Learning)的一種,思路是將不同領(lǐng)域(如兩個不同的數(shù)據(jù)集)的數(shù)據(jù)特征映射到同一個特征空間,這樣可利用其它領(lǐng)域數(shù)據(jù)來增強目標領(lǐng)域訓(xùn)練。深度學(xué)習(xí)模型訓(xùn)練需要大規(guī)模數(shù)據(jù),這篇由谷歌發(fā)表的文章,提出的思路是對真實物體進行渲染(Rendering),制造大量人造渲染圖像,從而幫助深度學(xué)習(xí)模型訓(xùn)練。

 

然而,渲染圖像與真實圖像之間有很大差異(比如背景差異),直接用渲染圖像訓(xùn)練得到的深度學(xué)習(xí)模型并沒有產(chǎn)生很好識別性能。本文將渲染圖像和真實圖像看作兩個領(lǐng)域,并結(jié)合當前流行的生成對抗網(wǎng)絡(luò)修正渲染圖像,得到更加貼近真實圖像的渲染圖像(如下圖所示:加上類似的背景)。最后再利用這些修正后的渲染圖像訓(xùn)練深度學(xué)習(xí)模型,取得了很好效果。



二、傳統(tǒng)機器學(xué)習(xí)理論解釋或闡述深度學(xué)習(xí)模型性能


1)Universal Adversarial Perturbations


在現(xiàn)有研究和實際應(yīng)用中,深度學(xué)習(xí)模型被觀察到對樣本噪聲或擾動比較敏感,比如在原始圖像上加一些很小的噪聲或變形,都可能造成誤分類。但對什么類型、多大幅度的噪聲或擾動會引起這種錯誤,我們還知之甚少。洛桑聯(lián)邦理工大學(xué)和加州大學(xué)洛杉磯分校合作的這篇論文對此問題進行了初步探索。


文章基本思想是圍繞機器學(xué)習(xí)中的分類邊界和間隔,在原始圖像特征空間中計算出一個最小擾動向量,使原始圖像跨過分類邊界造成誤分類。計算得到的這個最小擾動向量被稱為通用擾動向量,因為該向量值與模型相關(guān)并與具體的圖像獨立。作者分析了VGG、GoogLeNet和ResNet-152等多個主流深度學(xué)習(xí)模型,發(fā)現(xiàn)其對于相對應(yīng)的通用擾動向量非常敏感。這項研究對了解深度學(xué)習(xí)模型的分類邊界和模型魯棒性有很大幫助。


2)Global Optimality in Neural Network Training


常用深度學(xué)習(xí)網(wǎng)絡(luò)中,往往會用到很多非線性函數(shù),如Sigmoid激勵函數(shù)和ReLu激活函數(shù)等,所以整個網(wǎng)絡(luò)可被看做是一個非線性復(fù)合映射函數(shù)。這樣的函數(shù)很大可能是非凸函數(shù),在優(yōu)化過程中存在很多局部最優(yōu)解,增加了模型訓(xùn)練難度。但約翰霍普金斯大學(xué)的這篇論文證明,在網(wǎng)絡(luò)構(gòu)成函數(shù)滿足一定假設(shè)時,能保證得到全局最優(yōu)解。背后原理是使整個網(wǎng)絡(luò)的搜索空間只包含全局最優(yōu)解和平臺解,而不存在局部最優(yōu)解(如下圖所示)。


該文的證明運用了機器學(xué)習(xí)中的矩陣分解和對應(yīng)的優(yōu)化理論。這項研究工作展示了全局最優(yōu)解在深度神經(jīng)網(wǎng)絡(luò)中存在的條件,為我們設(shè)計更加容易訓(xùn)練的模型提供了有價值的指導(dǎo)。



弱監(jiān)督下的圖像識別

Weakly Supervised Recognition


深度學(xué)習(xí)成功的一大關(guān)鍵因素是大量訓(xùn)練數(shù)據(jù),但現(xiàn)實場景中對海量數(shù)據(jù)作精細數(shù)據(jù)標注需要大量人力和財力,這就回到了計算機視覺中的基本問題:目標檢測 (Object Detection)和語義分割(Semantic Segmentation)。本屆CVPR也有論文關(guān)注弱監(jiān)督下該問題的解決,我們將介紹兩篇僅依賴圖像級別標注的相關(guān)研究。


1)Deep Self-taught Learning for Weakly Supervised Object Localization


這篇最具代表性的目標檢測論文由騰訊AI Lab和新加坡國立大學(xué)合作完成。在檢測器訓(xùn)練時,該文提出了一種依靠檢測器模型自主動態(tài)挖掘高質(zhì)量正例樣本的方法。鑒于CNN檢測器有強大的擬合訓(xùn)練樣本能力,錯誤訓(xùn)練樣本 (False Positive)同樣能獲得較高類別置信度。但當檢測器訓(xùn)練其它正例樣本時,錯誤訓(xùn)練樣本獲得的類別置信度增量 (Relative Score Improvement) 較小,因此當檢測器在訓(xùn)練其它Positive樣本時,一個Object Proposal獲得的類別置信度增量大小可有效反映該樣本的真實質(zhì)量 (True Positive或False Positive)。依賴類別置信度增量動態(tài)挖掘高質(zhì)量訓(xùn)練樣本,可有效增強檢測器性能。 該文在PASCAL VOC 07和12目標檢測任務(wù)上取得了目前最先進的效果。



2)Object Region Mining with Adversarial Erasing: a Simple Classification to Semantic Segmentation Approach


這篇有代表性的語義分割論文來自新加坡國立大學(xué),提出了用分類網(wǎng)絡(luò)解決語義分割的新方法。分類網(wǎng)絡(luò)能提供目標物體的顯著區(qū)域 (Discriminative Part),但語義分割要求對目標物體全部像素的精確預(yù)測,該文利用了一種逐步擦除顯著區(qū)域方法,不斷提高分類網(wǎng)絡(luò)預(yù)測難度。當擦除顯著區(qū)域和重新訓(xùn)練分類網(wǎng)絡(luò)交替,按從主要到次要的順序逐漸獲得目標物體全部區(qū)域,訓(xùn)練出一個高性能語義分割網(wǎng)絡(luò)模型。該方法在PASCAL VOC 07和12語義分割問題上取得了目前最佳效果。



一分鐘速讀CVPR


CVPR是近十年來計算機視覺領(lǐng)域全球最有影響力、內(nèi)容最全面的頂級學(xué)術(shù)會議,由全球最大的非營利性專業(yè)技術(shù)學(xué)會IEEE(電氣和電子工程師協(xié)會)主辦。今年會議于7月21日至26日在美國夏威夷舉行。


在評估會議的學(xué)術(shù)影響力指標上,本次會議均創(chuàng)新高 —— 論文有效提交數(shù)為2620篇(40%↑)、錄取數(shù)為783篇(22%↑)、注冊參會人數(shù)4950人(33%↑),并在新發(fā)布的2017谷歌學(xué)術(shù)指標中,成為計算機視覺與模式識別領(lǐng)域影響力最大的論文發(fā)布平臺。


在產(chǎn)業(yè)影響力指標上,會議贊助金額近86萬美元(79%↑),贊助商高達127家(30%↑),囊括了Google、Facebook及騰訊等科技巨頭,也有商湯、曠視等眾多初創(chuàng)企業(yè)。


錄取論文涉及領(lǐng)域占比最高的五類是:計算機視覺中的機器學(xué)習(xí)(24%)、物體識別和場景理解(22%)、3D視覺(13%)、低級和中級視覺(12%)、分析圖像中的人類(11%)。


大會共設(shè)44個研討會(workshop)、22個教程輔導(dǎo)(tutorial)和14場競賽,覆蓋語言學(xué)、生物學(xué)、3D建模和自動駕駛等計算機視覺的細分領(lǐng)域。


現(xiàn)場論文展示分三種形式:12分鐘長演講(Oral)4分鐘短演講(Spotlight)和論文海報展示(Poster),長短演講共215場,海報展示112個。在參會心得上,我們建議重點參加口述演講,會對精選文章做長或短的進一步解讀;而海報展示數(shù)量多、內(nèi)容雜,只在固定時段有,要用好地圖和會程指引,有選擇地、集中地參加此環(huán)節(jié)。展會區(qū)囊括各類企業(yè),會從研究到應(yīng)用進行展示講解,可選擇性參加。


關(guān)于騰訊AI Lab及其計算機視覺團隊


騰訊AI Lab成立于2016年4月,專注于機器學(xué)習(xí)、計算機視覺、語音識別和自然語言理解四個領(lǐng)域「基礎(chǔ)研究」,及內(nèi)容、游戲、社交和平臺工具型四大AI「應(yīng)用探索」,提升AI的決策、理解及創(chuàng)造力,向「Make AI Everywhere」的愿景邁進。


騰訊AI Lab主任及第一負責(zé)人是機器學(xué)習(xí)和大數(shù)據(jù)專家張潼博士(詳情可點鏈接),副主任及西雅圖實驗室負責(zé)人是語音識別及深度學(xué)習(xí)專家俞棟博士。目前團隊共有50余位AI科學(xué)家及200多位應(yīng)用工程師。


計算機視覺團隊(CV團隊)是最早組建的研究團隊之一,目前有十多位基礎(chǔ)研究科學(xué)家,大多擁有國內(nèi)外院校博士學(xué)位,并與一個較大的應(yīng)用工程師團隊緊密合作,由計算機視覺和機器學(xué)習(xí)專家劉威博士領(lǐng)導(dǎo)。我們很注重對青年研究者的培養(yǎng),團隊中應(yīng)屆畢業(yè)的博士接近半數(shù),也將繼續(xù)在海內(nèi)外招募不同級別的優(yōu)秀研究者。

 

在基礎(chǔ)和前沿研究方向上,CV團隊聚焦中高層視覺,尤其視頻等可視結(jié)構(gòu)數(shù)據(jù)的深度理解,同時也在重要的交叉領(lǐng)域發(fā)力,如視覺 NLP、視覺 信息檢索等。正在進行或計劃中的研究項目兼具了挑戰(zhàn)性和趣味性,包括超大規(guī)模圖像分類、視頻編輯與生成、時序數(shù)據(jù)建模和增強現(xiàn)實,這些項目吸引了哥倫比亞和清華等海內(nèi)外知名大學(xué)的優(yōu)秀實習(xí)生參與。

 

團隊在本屆CVPR上有六篇文章被錄取,下面論文一提到的實時視頻濾鏡技術(shù)已在騰訊QQ手機版上線,實現(xiàn)了基礎(chǔ)研究到產(chǎn)品應(yīng)用的迅速轉(zhuǎn)化,正是我們「學(xué)術(shù)有影響,工業(yè)有產(chǎn)出」目標的體現(xiàn)。


騰訊AI Lab共六篇論文入選本屆CVPR


論文一:Real Time Neural Style Transfer for Videos

本文用深度前向卷積神經(jīng)網(wǎng)絡(luò)探索視頻藝術(shù)風(fēng)格的快速遷移,提出了一種全新兩幀協(xié)同訓(xùn)練機制,能保持視頻時域一致性并消除閃爍跳動瑕疵,確保視頻風(fēng)格遷移實時、高質(zhì)、高效完成。


論文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images

論文首次提出一種全尺寸、無標注、基于病理圖片的病人生存有效預(yù)測方法WSISA,在肺癌和腦癌兩類癌癥的三個不同數(shù)據(jù)庫上性能均超出基于小塊圖像方法,有力支持大數(shù)據(jù)時代的精準個性化醫(yī)療。


論文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

針對圖像描述生成任務(wù),SCA-CNN基于卷積網(wǎng)絡(luò)的多層特征來動態(tài)生成文本描述,進而建模文本生成過程中空間及通道上的注意力模型。


論文四:Deep Self-Taught Learning for Weakly Supervised Object Localization

本文提出依靠檢測器自身不斷改進訓(xùn)練樣本質(zhì)量,不斷增強檢測器性能的一種全新方法,破解弱監(jiān)督目標檢測問題中訓(xùn)練樣本質(zhì)量低的瓶頸。


論文五:Diverse Image Annotation

本文提出了一種新的自動圖像標注目標,即用少量多樣性標簽表達盡量多的圖像信息,該目標充分利用標簽之間的語義關(guān)系,使得自動標注結(jié)果與人類標注更加接近。


論文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

基于曼哈頓結(jié)構(gòu)與對稱信息,文中提出了單張圖像三維重建及多張圖像Structure from Motion三維重建的新方法。



    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多