小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

李飛飛:在物體識(shí)別之后,計(jì)算機(jī)視覺(jué)還要多久才能理解這個(gè)世界?

 btccc0008 2017-09-28

AI科技評(píng)論按:9 月 26 日,機(jī)器人領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議 IROS 2017 進(jìn)入第二日。上午,著名華人計(jì)算機(jī)視覺(jué)專家、斯坦福副教授李飛飛,在溫哥華會(huì)議中心面向全體與會(huì)專家學(xué)者作了長(zhǎng)達(dá)一小時(shí)的專題報(bào)告。

在昨天發(fā)布的上篇 李飛飛:為什么計(jì)算機(jī)視覺(jué)對(duì)機(jī)器人如此重要? | IROS 2017中,李飛飛介紹了視覺(jué)對(duì)生物的重要性,以及計(jì)算機(jī)視覺(jué)在物體識(shí)別任務(wù)中的飛速發(fā)展。在下篇中,李飛飛繼續(xù)與大家討論了計(jì)算機(jī)視覺(jué)的下一步目標(biāo):豐富場(chǎng)景理解,以及計(jì)算機(jī)視覺(jué)與語(yǔ)言結(jié)合和任務(wù)驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)的進(jìn)展和前景。場(chǎng)景理解和與語(yǔ)言結(jié)合的計(jì)算機(jī)視覺(jué)進(jìn)一步搭起了人類和計(jì)算機(jī)之間溝通的橋梁,任務(wù)驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)也會(huì)在機(jī)器人領(lǐng)域大放異彩。李飛飛介紹的自己團(tuán)隊(duì)的工作也豐富多樣、令人振奮。

(2015年,李飛飛也在同一個(gè)會(huì)場(chǎng)面向著大海和聽眾進(jìn)行過(guò)一次 TED 演講)

物體識(shí)別之后:豐富場(chǎng)景識(shí)別

(續(xù)上篇)在物體識(shí)別問(wèn)題已經(jīng)很大程度上解決以后,我們的下一個(gè)目標(biāo)是走出物體本身,關(guān)注更為廣泛的對(duì)象之間的關(guān)系、語(yǔ)言等等。

在Visual Genome數(shù)據(jù)集之后,我們做的另一項(xiàng)研究是重新認(rèn)識(shí)場(chǎng)景識(shí)別。

場(chǎng)景識(shí)別單獨(dú)來(lái)看是一項(xiàng)簡(jiǎn)單的任務(wù),在谷歌里搜索“穿西裝的男人”或者“可愛的小狗”,都能直接得到理想的結(jié)果。但是當(dāng)你搜索“穿西裝的男人抱著可愛的小狗”的時(shí)候,就得不到什么好結(jié)果。它的表現(xiàn)在這里就變得糟糕了,這種物體間的關(guān)系是一件很難處理的事情。

比如只關(guān)注了“長(zhǎng)椅”和“人”的物體識(shí)別,就得不到“人坐在長(zhǎng)椅上”的關(guān)系;即便訓(xùn)練網(wǎng)絡(luò)識(shí)別“坐著的人”,也無(wú)法保證看清全局。我們有個(gè)想法是,把物體之外、場(chǎng)景之內(nèi)的關(guān)系全都包含進(jìn)來(lái),然后再想辦法提取精確的關(guān)系。

如果我們有一張場(chǎng)景圖(graph),其中包含了場(chǎng)景內(nèi)各種復(fù)雜的語(yǔ)義信息,那我們的場(chǎng)景識(shí)別就能做得好得多。其中的細(xì)節(jié)可能難以全部用一個(gè)長(zhǎng)句子描述,但是把一個(gè)長(zhǎng)句子變成一個(gè)場(chǎng)景圖之后,我們就可以用圖相關(guān)的方法把它和圖像做對(duì)比;場(chǎng)景圖也可以編碼為數(shù)據(jù)庫(kù)的一部分,從數(shù)據(jù)庫(kù)的角度進(jìn)行查詢。

我們已經(jīng)用場(chǎng)景圖匹配技術(shù)在包含了許多語(yǔ)義信息的場(chǎng)景里得到了許多不錯(cuò)的量化結(jié)果,不過(guò)在座的各位可能邊聽就邊覺(jué)得,這些場(chǎng)景圖是誰(shuí)來(lái)定義的呢?在Visual Genome數(shù)據(jù)集中,場(chǎng)景圖都是人工定義的,里面的實(shí)體、結(jié)構(gòu)、實(shí)體間的關(guān)系和到圖像的匹配都是我們?nèi)斯ね瓿傻模^(guò)程挺痛苦的,我們也不希望以后還要對(duì)每一個(gè)場(chǎng)景都做這樣的工作。所以在這項(xiàng)工作之后,我們很可能會(huì)把注意力轉(zhuǎn)向自動(dòng)場(chǎng)景圖生成。

比如這項(xiàng)我和我的學(xué)生們共同完成的CVPR2017論文就是一個(gè)自動(dòng)生成場(chǎng)景圖的方案,對(duì)于一張輸入圖像,我們首先得到物體識(shí)別的備選結(jié)果,然后用圖推理算法得到實(shí)體和實(shí)體之間的關(guān)系等等;這個(gè)過(guò)程都是自動(dòng)完成的。

這里涉及到了一些迭代信息傳遞算法,我先不詳細(xì)解釋了。但這個(gè)結(jié)果體現(xiàn)出的是,我們的模型的工作方式和人的做法已經(jīng)有不少相似之處了。

得到這樣的結(jié)果我們非常開心,這代表著一組全新的可能性來(lái)到了我們面前。借助場(chǎng)景圖,我們可以做信息提取、可以做關(guān)系預(yù)測(cè)、可以理解對(duì)應(yīng)關(guān)系等等。

當(dāng)然了論文發(fā)表前我們也做了好看的數(shù)據(jù)出來(lái)。

我們相信Visual Genome數(shù)據(jù)集也能夠幫助很多的研究人員在研究關(guān)系和信息提取的算法和模型實(shí)驗(yàn)中施展拳腳。

場(chǎng)景識(shí)別之后還有什么?

剛才說(shuō)過(guò)了物體識(shí)別、關(guān)系預(yù)測(cè)這兩項(xiàng)場(chǎng)景理解難題之后,Jeremy 提到的最后一件事情就是,“場(chǎng)景中的gist的根本是三維空間中在物體間和物體表面上以一定形式擴(kuò)散、重復(fù)出現(xiàn)的視覺(jué)元素”。不過(guò)由于我關(guān)注的并不是三維場(chǎng)景理解,我就只是簡(jiǎn)單介紹一下斯坦福的同事們近期的研究成果。

左側(cè)是從單張圖片推測(cè)三維場(chǎng)景的布局,展現(xiàn)出其中物體的三維幾何特征;右側(cè)是空間三維結(jié)構(gòu)的語(yǔ)意分割。除了斯坦福的這兩項(xiàng)之外,三維場(chǎng)景理解還有很多的研究成果,包括使用圖片的和點(diǎn)云的。我也覺(jué)得很興奮,將來(lái)也不斷地會(huì)有新東西來(lái)到我們面前,尤其是在機(jī)器人領(lǐng)域會(huì)非常有用。

這樣,我們就基本覆蓋全了場(chǎng)景的gist,就是看到場(chǎng)景的前150毫秒中發(fā)生的事情。視覺(jué)智慧的研究當(dāng)然并不會(huì)局限于這150毫秒,之后要考慮的、我們也在期待的還有兩項(xiàng)任務(wù)。

我的研究興趣里,除了計(jì)算機(jī)科學(xué)和人工智能之外,認(rèn)知神經(jīng)科學(xué)也占了相當(dāng)?shù)奈恢谩K晕蚁牖剡^(guò)頭去看看我在加州理工學(xué)院讀博士的時(shí)候做的一個(gè)實(shí)驗(yàn),我們就讓人們觀察一張照片,然后讓他們盡可能地說(shuō)出自己在照片中看到的東西。當(dāng)時(shí)做實(shí)驗(yàn)的時(shí)候,我們?cè)谑茉囌呙媲暗钠聊簧峡焖匍W過(guò)一張照片,然后用一個(gè)別的圖像、墻紙一樣的圖像蓋住它,它的作用是把他們視網(wǎng)膜暫留的信息清除掉。

接下來(lái)我們就讓他們盡可能多地寫下自己看到的東西。從結(jié)果上看,有的照片好像比較容易,但是其實(shí)只是因?yàn)槲覀冞x擇了不同長(zhǎng)短的展示時(shí)間,最短的照片只顯示了27毫秒,這已經(jīng)達(dá)到了當(dāng)時(shí)顯示器的顯示速度上限;有些照片顯示了0.5秒的時(shí)間,對(duì)人類視覺(jué)理解來(lái)說(shuō)可算是綽綽有余了。

我們得到的結(jié)果大概是這樣的,對(duì)于這張照片,時(shí)間很短的時(shí)候看清的內(nèi)容也很有限,500毫秒的時(shí)候他們就能寫下很長(zhǎng)一段。進(jìn)化給了我們這樣的能力,只看到一張圖片就可以講出一個(gè)很長(zhǎng)的故事。

計(jì)算機(jī)視覺(jué)+語(yǔ)言

我展示這個(gè)實(shí)驗(yàn)想說(shuō)的是,在過(guò)去的3年里,CV領(lǐng)域的研究人員們就在研究如何把圖像中的信息變成故事。

他們首先研究了圖像說(shuō)明,比如借助CNN把圖像中的內(nèi)容表示到特征空間,然后用LSTM這樣的RNN生成一系列文字。這類工作在2015年左右有很多成果,從此之后我們就可以讓計(jì)算機(jī)給幾乎任何東西配上一個(gè)句子。

比如這兩個(gè)例子,“一位穿著橙色馬甲的工人正在鋪路”和“穿著藍(lán)色襯衫的男人正在彈吉他”。這讓我想起來(lái),2015年的時(shí)候我就是在這同一個(gè)房間里做過(guò)演講。兩年過(guò)去了,我們的算法也已經(jīng)不是最先進(jìn)的了,不過(guò)那時(shí)候我們的研究確實(shí)是是圖像說(shuō)明這個(gè)領(lǐng)域的開拓性工作之一。

我們沿著這個(gè)方向繼續(xù)做研究,迎來(lái)的下一個(gè)成果是稠密說(shuō)明,就是在一幅圖片中有很多個(gè)區(qū)域都會(huì)分配注意力,這樣我們有可以有很多個(gè)不同的句子描述不同的區(qū)域,而不僅僅是用一個(gè)句子描述整個(gè)場(chǎng)景。在這里就用到了CNN模型和邏輯區(qū)域檢測(cè)模型的結(jié)合,再加上一個(gè)語(yǔ)言模型,這樣我們就可以對(duì)場(chǎng)景做稠密的標(biāo)注。

比如這張圖里就可以生成,“有兩個(gè)人坐在椅子上”、“有一頭大象”、“有一棵樹”等等;另一張我的學(xué)生們的室內(nèi)照片也標(biāo)出了豐富的內(nèi)容。

我們的稠密標(biāo)注系統(tǒng)也比當(dāng)時(shí)其它基于滑動(dòng)窗口的方法表現(xiàn)好得多。

在最近的CVPR2017的研究中,我們讓表現(xiàn)邁上了一個(gè)新的臺(tái)階,不只是簡(jiǎn)單的說(shuō)明句子,還要生成文字段落,把它們以具有空間意義的方式連接起來(lái)。

這樣我們就可以寫出“一只長(zhǎng)頸鹿站在樹邊,在它的右邊有一個(gè)有葉子的桿子,在籬笆的后面有一個(gè)黑色和白色的磚壘起來(lái)的建筑”,等等。雖然里面有錯(cuò)誤,而且也遠(yuǎn)比不上莎士比亞的作品,但我們已經(jīng)邁出了視覺(jué)和語(yǔ)言結(jié)合的第一步。

而且,視覺(jué)和語(yǔ)言的結(jié)合并沒(méi)有停留在靜止的圖像上,剛才的只是我們的最新成果之一。在另外的研究中,我們把視頻和語(yǔ)言結(jié)合起來(lái),比如這個(gè)CVPR2017的研究,我們可以對(duì)一個(gè)說(shuō)明性視頻中不同的部分做聯(lián)合推理、整理出文本結(jié)構(gòu)。這里的難點(diǎn)是解析文本中的實(shí)體,比如第一步是“攪拌蔬菜”,然后“拿出混合物”。如果算法能夠解析出“混合物”指的是前一步里混合的蔬菜,那就棒極了。我的學(xué)生和博士后們也都覺(jué)得這是讓機(jī)器人進(jìn)行學(xué)習(xí)的很重要的一步。

這里的機(jī)會(huì)仍然是把視覺(jué)問(wèn)題和語(yǔ)言結(jié)合起來(lái),如果只用視覺(jué)的方法,就會(huì)造成視覺(jué)上的模糊性;如果只用語(yǔ)言學(xué)的方法,就會(huì)造成語(yǔ)言上的模糊性;把視覺(jué)和語(yǔ)言結(jié)合起來(lái),我們就可以解決這些問(wèn)題。

太細(xì)節(jié)的還是不說(shuō)了,我們主要用了圖優(yōu)化的方法在實(shí)體嵌入上解決這些模糊性。我們的結(jié)果表明,除了解決模糊性之外,我們還能對(duì)視頻中的內(nèi)容作出更廣泛完善的推理。

任務(wù)驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)

在語(yǔ)言之后,我想說(shuō)的最后一個(gè)方向是任務(wù)驅(qū)動(dòng)的視覺(jué)問(wèn)題,它和機(jī)器人的聯(lián)系也更緊密一些。對(duì)整個(gè)AI研究大家庭來(lái)說(shuō),任務(wù)驅(qū)動(dòng)的AI是一個(gè)共同的長(zhǎng)期夢(mèng)想,從一開始人類就希望用語(yǔ)言給機(jī)器人下達(dá)指定,然后機(jī)器人用視覺(jué)方法觀察世界、理解并完成任務(wù)。

比如人類說(shuō):“藍(lán)色的金字塔很好。我喜歡不是紅色的立方體,但是我也不喜歡任何一個(gè)墊著5面體的東西。那我喜歡那個(gè)灰色的盒子嗎?” 那么機(jī)器,或者機(jī)器人,或者智能體就會(huì)回答:“不,因?yàn)樗鼔|著一個(gè)5面體”。它就是任務(wù)驅(qū)動(dòng)的,對(duì)這個(gè)復(fù)雜的世界做理解和推理。

最近,我們和Facebook合作重新研究這類問(wèn)題,創(chuàng)造了帶有各種幾何體的場(chǎng)景,然后給人工智能提問(wèn),看它會(huì)如何理解、推理、解決這些問(wèn)題。這其中會(huì)涉及到屬性的辨別、計(jì)數(shù)、對(duì)比、空間關(guān)系等等。

我們?cè)谶@方面的第一篇論文用了CNN+LSTM+注意力模型,結(jié)果算不上差,人類能達(dá)到超過(guò)90%的正確率,機(jī)器雖然能做到接近70%了,但是仍然有巨大的差距。有這個(gè)差距就是因?yàn)槿祟惸軌蚪M合推理,機(jī)器則做不到。

在一個(gè)月后的ICCV我們就會(huì)介紹新一篇論文中的成果,我們把一個(gè)問(wèn)題分解成帶有功能的程序段,然后在程序段基礎(chǔ)上訓(xùn)練一個(gè)能回答問(wèn)題的執(zhí)行引擎。這個(gè)方案在嘗試推理真實(shí)世界問(wèn)題的時(shí)候就具有高得多的組合能力。

模型的實(shí)際表現(xiàn)當(dāng)然不錯(cuò),所以論文被ICCV接收了。比如這個(gè)例子里,我們提問(wèn)某種顏色的東西是什么形狀的,它就會(huì)回答“是一個(gè)立方體”這樣,表明了它的推理是正確的。它還可以數(shù)出東西的數(shù)目。這都體現(xiàn)出了算法可以對(duì)場(chǎng)景做推理。

我們也在嘗試環(huán)境仿真,我們用三維渲染引擎建立執(zhí)行任務(wù)的環(huán)境,讓學(xué)習(xí)策略的機(jī)器人在其中學(xué)習(xí)動(dòng)作,比如把籃球放進(jìn)微波爐,也需要它把這個(gè)任務(wù)分解成許多步驟然后執(zhí)行。

我們采用了一種深度語(yǔ)意表征,然后用不同難度的任務(wù)測(cè)試它,中等難度的任務(wù)可以是從廚房里多個(gè)不同的地方拿取多個(gè)不同的物體,然后把它們放在指定的地方;難的任務(wù)可以是需要策略讓它尋找之前從來(lái)沒(méi)有見過(guò)的新物體。

視覺(jué)相關(guān)的任務(wù)說(shuō)了這么多,我想把它們組織成這三類。

  • 首先是除了物體識(shí)別之外的關(guān)系識(shí)別、復(fù)雜語(yǔ)意表征、場(chǎng)景圖;

  • 在場(chǎng)景gist之外,我們需要用視覺(jué)+語(yǔ)言處理單句標(biāo)注、段落生成、視頻理解、聯(lián)合推理;

  • 最后是任務(wù)驅(qū)動(dòng)的視覺(jué)問(wèn)題,這里還是一個(gè)剛剛起步的領(lǐng)域,我相信視覺(jué)和邏輯的組合會(huì)在這個(gè)領(lǐng)域真正攜起手來(lái)。

人類視覺(jué)已經(jīng)發(fā)展了很久,計(jì)算機(jī)視覺(jué)雖然在出現(xiàn)后的60年里有了長(zhǎng)足的進(jìn)步,但也仍然只是一門新興學(xué)科。我以前應(yīng)該有提過(guò)我邊工作邊帶孩子,這也就是一張我女兒二十個(gè)月大時(shí)候的照片。

看著她一天天成長(zhǎng)的過(guò)程,真的讓我覺(jué)得還有許許多多的東西等著我們?nèi)パ芯?。視覺(jué)能力也是她的日常生活里重要的一部分,讀書、畫畫、觀察情感等等,這些重大的進(jìn)步都是這個(gè)領(lǐng)域未來(lái)的研究目標(biāo)。

謝謝大家!

(完)

—————  給愛學(xué)習(xí)的你的福利  —————

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多