1新智元推薦 中國(guó)人工智能學(xué)會(huì)授權(quán)轉(zhuǎn)載 【新智元導(dǎo)讀】楊強(qiáng)教授認(rèn)為,DeepMind把端到端的深度學(xué)習(xí)應(yīng)用在強(qiáng)化學(xué)習(xí)上,使得強(qiáng)化學(xué)習(xí)能夠應(yīng)付大數(shù)據(jù),因此能在圍棋上把人類(lèi)完全擊倒,它做到這樣是通過(guò)完全的自學(xué)習(xí)、自我修煉、自我改正,然后一個(gè)一個(gè)迭代。楊強(qiáng)還指出,搜索和學(xué)習(xí)的結(jié)合才是人工智能的發(fā)展方向。我們不能完全依靠機(jī)器去全部自動(dòng)化自我學(xué)習(xí),機(jī)器學(xué)習(xí)的弊端是自我偏差,目前仍需要人為干預(yù)。未來(lái),遷移學(xué)習(xí)會(huì)是這個(gè)問(wèn)題的解決途徑。遷移學(xué)習(xí)還能讓人工智能得以擺脫對(duì)大數(shù)據(jù)的嚴(yán)重依賴(lài),從而讓人工智能不再只是“富人的游戲”。 “2016全球人工智能技術(shù)大會(huì)(GAITC)暨人工智能60年紀(jì)念活動(dòng)啟動(dòng)儀式”4月22日在北京國(guó)家會(huì)議中心舉行,楊強(qiáng)教授受邀發(fā)表主旨演講,他的演講題目是《 自學(xué)習(xí)的人工智能》。經(jīng)過(guò)主辦方中國(guó)人工智能學(xué)會(huì)和楊強(qiáng)教授的授權(quán),新智元帶來(lái)了楊強(qiáng)教授此次演講的全文實(shí)錄和ppt,干貨滿(mǎn)滿(mǎn),推薦收藏。 楊 強(qiáng) 香港科技大學(xué)冠名講座教授 國(guó)際人工智能學(xué)會(huì)FELLOW 2015年國(guó)際人工智能大會(huì)程序主席 【楊強(qiáng)】大家好,今天非常高興、非常榮幸能參加這樣一個(gè)盛會(huì)。今天我?guī)?lái)的演講是我的一點(diǎn)學(xué)習(xí)心得,題目叫做自學(xué)習(xí)的人工智能。 首先大家都知道,在60周年之際,我們首先應(yīng)該記住的是這位人工智能的先驅(qū)——圖靈。在他的問(wèn)題的感召下,我們才有了今天這樣的一個(gè)盛會(huì)和今天人工智能的飛速發(fā)展。他的問(wèn)題“機(jī)器可以思維嗎?”可以從不同的維度來(lái)解釋?zhuān)敲词紫热祟?lèi)對(duì)人工智能的探索也可以圍繞對(duì)[這個(gè)]問(wèn)題的不同解釋展開(kāi)。 第一個(gè)探索,應(yīng)該說(shuō)是在邏輯層面的探索。[20世紀(jì)]60年代,人工智能的這些先驅(qū)就考慮用邏輯和搜索來(lái)研究人工智能,比如下棋、推理、去做路徑規(guī)劃等等。他們有一個(gè)很強(qiáng)的假設(shè),這個(gè)假設(shè)從某種程度上來(lái)說(shuō)是非常直觀的:智能包括計(jì)算機(jī)可能賦予的智能,來(lái)自于計(jì)算物理符號(hào)的排列組合。我們只要能很聰明地把這些物理符號(hào)排列組合,人類(lèi)是可以從一系列的零和一的組合來(lái)得到[智能的]。[但是]有了一些成就之后,[我們]也發(fā)現(xiàn)這樣的假設(shè)是有瓶頸的。 在之后又有一部分人著力于研究能夠有學(xué)習(xí)功能的人工智能,就有不同的機(jī)器學(xué)習(xí)算法被研究出來(lái)。其中包括大家都熟悉的神經(jīng)網(wǎng)絡(luò)。 人工智能的幾個(gè)里程碑我們現(xiàn)在也很熟悉,第一個(gè)大家公認(rèn)的是里程碑是深藍(lán),這個(gè)比賽意味著幾件事:一個(gè)是說(shuō)在大規(guī)模的搜索狀態(tài)下,在可能的狀態(tài)空間的搜索實(shí)際上是一個(gè)在物理符號(hào)空間的排列組合。 也就是說(shuō),[20世紀(jì)]60年代人們的那些假設(shè)有一部分是正確的,我們確實(shí)可以從這種搜索和物理符號(hào)的排列組合獲得很多的智能。 緊接著的階段是,知識(shí)就是力量,這是隨著互聯(lián)網(wǎng)和大數(shù)據(jù)到來(lái)的一個(gè)熱潮,從網(wǎng)上,從不同的媒體我們會(huì)獲得很多數(shù)據(jù),把這些數(shù)據(jù)經(jīng)過(guò)沉淀變成知識(shí),我們就可以贏得像這樣一個(gè)電視大賽中的人機(jī)對(duì)戰(zhàn)。 這個(gè)之后,就是深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)的突破從計(jì)算上來(lái)說(shuō)有幾個(gè)好處,其中一個(gè)好處是說(shuō)它把一個(gè)全局計(jì)算的需求變成一個(gè)本地計(jì)算的需求,在做到這一點(diǎn)的同時(shí),又不失掉很多的信息,這個(gè)是計(jì)算機(jī)里面無(wú)數(shù)成就的一個(gè)中心點(diǎn)。這樣的一個(gè)成功就使得我們能夠在不同的層次來(lái)觀察同一個(gè)數(shù)據(jù),同樣就可以獲得我們所謂的大局觀。就像這個(gè)圖,我們?cè)诓煌膶哟慰梢缘玫讲煌奶卣鳌?/p> 這里我們要特別強(qiáng)調(diào)的是人工智能也在另外一個(gè)方面默默在耕耘,這個(gè)就叫做強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)應(yīng)該說(shuō)是用來(lái)做人工智能規(guī)劃的有力工具,但不是唯一的工具。這個(gè)領(lǐng)域相對(duì)深度學(xué)習(xí)應(yīng)該說(shuō)更古老,研究的力度也很多。但在很長(zhǎng)時(shí)間處于靜默狀態(tài),這個(gè)原因是因?yàn)樗谟?jì)算上有很大的瓶頸,不能有很大的數(shù)據(jù)量。一個(gè)例子就是強(qiáng)化學(xué)習(xí)在很長(zhǎng)時(shí)間以來(lái)只能解決一些玩具型的問(wèn)題,非常小的數(shù)據(jù)。 但是,最近的一個(gè)突破是Google的DeepMind,把深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)合在一起,這樣的一個(gè)議題使得很多強(qiáng)化學(xué)習(xí)所需要突破的瓶頸,就是狀態(tài)的個(gè)數(shù)能隱藏起來(lái)。這種隱藏就使得強(qiáng)化學(xué)習(xí)能夠大規(guī)模應(yīng)付數(shù)據(jù),也即應(yīng)付大數(shù)據(jù)。它突出的一點(diǎn)叫做端到端的學(xué)習(xí),就是說(shuō)我們?cè)谶@里看到一個(gè)計(jì)算機(jī)的游戲,這個(gè)游戲的影像是輸入端,輸出端就是你要進(jìn)行的下一個(gè)動(dòng)作。這個(gè)動(dòng)作是正確還是不正確,到最后會(huì)獲得一個(gè)反饋,這個(gè)反饋不一定是現(xiàn)在得到,也許是后面幾步得到的。這一點(diǎn)和我們剛剛講的深度學(xué)習(xí)在圖像上面的應(yīng)用,就大不一樣。就更加復(fù)雜,更加契合人的行為,所以強(qiáng)化學(xué)習(xí)也是下一個(gè)突破。 我們看到這種端到端的深度學(xué)習(xí),應(yīng)用在強(qiáng)化學(xué)習(xí)上,使得DeepMind到今天在很古老的單人計(jì)算機(jī)游戲上已經(jīng)把人類(lèi)完全擊倒,它做到這樣是通過(guò)完全的自學(xué)習(xí)、自我修煉、自我改正,然后一個(gè)一個(gè)迭代。 這個(gè)就是它迭代的一些結(jié)果,從左到右是一個(gè)時(shí)間軸,從下到上是它得到的效果。我們看到每一個(gè)游戲它的要求都是在不斷成長(zhǎng)的,就像我們一個(gè)學(xué)生在學(xué)習(xí)的過(guò)程當(dāng)中學(xué)到的知識(shí)越來(lái)越多,這個(gè)完全是自我實(shí)現(xiàn),一個(gè)自學(xué)習(xí)的過(guò)程。 包括現(xiàn)在的AlphaGo也應(yīng)用了很多自學(xué)習(xí)的這種效果,使得我們現(xiàn)在終于認(rèn)清原來(lái)人工智能從[20世紀(jì)]60年代到2000年的物理符號(hào)的假設(shè),也就是說(shuō)以搜索為中心,以邏輯為中心的這種努力并沒(méi)有白費(fèi),這種努力也是需要的。另外學(xué)習(xí)也是必不可少的,像我們熟知的深度學(xué)習(xí)。所以AlphaGo對(duì)我們的啟示,就是我們把[搜索和學(xué)習(xí)]兩者結(jié)合起來(lái),才是一個(gè)完整的智能機(jī)器。這個(gè)我們可以叫做人工智能的通用性,也就是說(shuō)我們對(duì)于這兩個(gè)技術(shù)的某種結(jié)合,比方說(shuō)多一點(diǎn)搜索,少一點(diǎn)機(jī)器學(xué)習(xí),或者反之我們就可以得到用來(lái)解釋不同的人類(lèi)的智能行為。 這種通用型,端到端的學(xué)習(xí),可以用這個(gè)例子來(lái)表達(dá):雞可以吃不同的東西,但是它下的都是蛋,是對(duì)人類(lèi)有用的。 這里我要特別提到一點(diǎn),我們并不是找到了最后的目標(biāo),這也是在不同的人工智能、強(qiáng)化學(xué)習(xí)等等之類(lèi)的實(shí)驗(yàn)當(dāng)中我們發(fā)現(xiàn)一個(gè)特點(diǎn),就是我們不能完全依靠機(jī)器去全部自動(dòng)化自我學(xué)習(xí),至少到現(xiàn)在我們還沒(méi)有摸索出這樣一個(gè)路徑。這里是CMU大學(xué)的例子,用中文來(lái)說(shuō)是永動(dòng)機(jī)器學(xué)習(xí),這個(gè)機(jī)器不斷在網(wǎng)上扒一些網(wǎng)頁(yè),在每個(gè)網(wǎng)頁(yè)里面都學(xué)到一些知識(shí),把這些知識(shí)綜合起來(lái),變成幾千萬(wàn)條知識(shí),這些知識(shí)又會(huì)衍生新的知識(shí)。那么我們看到從下到上是隨著時(shí)間,知識(shí)量在增長(zhǎng)。但是它到了某一個(gè)程度實(shí)際上是不能再往上走了,因?yàn)橹R(shí)會(huì)自我矛盾。這個(gè)時(shí)候就需要人來(lái)進(jìn)行一部分的調(diào)節(jié),把一部分不正確的知識(shí)去掉,讓它繼續(xù)能成長(zhǎng)。這個(gè)過(guò)程為什么會(huì)發(fā)生呢? 是因?yàn)?strong>機(jī)器學(xué)習(xí)有一個(gè)很?chē)?yán)重的現(xiàn)象,就是自我偏差,這種偏差可以體現(xiàn)在統(tǒng)計(jì)學(xué)的一個(gè)重要概念中,就是我們獲得的數(shù)據(jù)也許是一個(gè)有偏數(shù)據(jù),我們可能建了一個(gè)模型,對(duì)大部分的數(shù)據(jù)都有用,但其中有一些特例。我們?nèi)绾蝸?lái)處理這些特例,如何來(lái)處理我們訓(xùn)練數(shù)據(jù)和應(yīng)用數(shù)據(jù)之間的偏差,這是我們下一步要研究的內(nèi)容。 一個(gè)非常有希望的技術(shù)叫做遷移學(xué)習(xí),比方說(shuō)這個(gè)是在深度學(xué)習(xí)的模型上,在上面這一部分是一個(gè)領(lǐng)域已經(jīng)訓(xùn)練好的模型。那么在一個(gè)新的領(lǐng)域,如果這兩個(gè)領(lǐng)域之間有某種聯(lián)系、某種相似性的話,我們就不一定在新的領(lǐng)域需要那么多的數(shù)據(jù)來(lái)學(xué)習(xí),你只需要一小部分。我們之所以能做到這一點(diǎn)是因?yàn)槲覀兛梢园汛蟛糠值哪P徒o遷移過(guò)來(lái),人有這種能力,但是我們?cè)谧鲞@種數(shù)據(jù)遷移的過(guò)程中,我們一定要牢記把這種有偏的數(shù)據(jù)偏差給消除掉。 如果能做到這點(diǎn),我們就能做到不同形式的數(shù)據(jù)之間的知識(shí)遷移,比方說(shuō)我們可以讓一個(gè)計(jì)算機(jī)來(lái)讀很多文字,這樣的一個(gè)計(jì)算機(jī)去識(shí)別圖像,應(yīng)該比沒(méi)有讀這些文字,直接去學(xué)習(xí)圖像的計(jì)算機(jī)要容易。這個(gè)就更像我們?nèi)祟?lèi)的學(xué)習(xí)。這種學(xué)習(xí)也離不開(kāi)從下到上,從粗到細(xì)這樣的一種特征選擇。 所以我們又得到另外一個(gè)概念,就是特征工程。深度學(xué)習(xí)給我們的一個(gè)有力工具是能夠自動(dòng)進(jìn)行不同層次、大規(guī)模的新特征的抽取和制造。那么這種特征在搜索引擎、廣告系統(tǒng)上面可以達(dá)到萬(wàn)億級(jí),這個(gè)已經(jīng)完全不是人類(lèi)所可以控制的級(jí)別了。智能在這樣的級(jí)別上才可以產(chǎn)生。 但是,現(xiàn)在人工智能仍然有一些困境,比方說(shuō)如何能夠讓人工智能來(lái)深層理解文字,有一個(gè)著名的類(lèi)似于圖靈測(cè)試的比賽,深層次理解文字,在自然語(yǔ)言上問(wèn)一些有歧異的問(wèn)題,計(jì)算機(jī)如果要能正確的回答這個(gè)問(wèn)題,那個(gè)模型就不僅僅要理解這些文字,而且要理解深層的背景文字,要理解周邊的文字。有很多文化在里面,如何能達(dá)到這一點(diǎn)?這也是我們需要解決的。 同時(shí)深度模型還可以把它反轉(zhuǎn),成為一種生成模型。它不僅可以去對(duì)數(shù)據(jù)做一個(gè)決策,它還可以自己產(chǎn)生新的數(shù)據(jù)。比方說(shuō)這個(gè)是Google的一些研究員把一個(gè)深層模型里面的感知最深刻的那些圖像給描述出來(lái),結(jié)果是這樣非常有趣的生成模型。 剛剛講的不同數(shù)字格式,文字和圖像,如果在深層實(shí)際上它們的區(qū)別已經(jīng)消失了。那這樣我們就可以對(duì)圖像去問(wèn)文字的問(wèn)題,甚至對(duì)文字去問(wèn)圖像的問(wèn)題。這樣數(shù)據(jù)的形式也就不重要了。 如果我們達(dá)到了遷移學(xué)習(xí)的要點(diǎn),我們想問(wèn)下一步是不是可以把所有人類(lèi)經(jīng)歷過(guò)的這些學(xué)習(xí)任務(wù)給沿著時(shí)間軸串起來(lái),能夠讓機(jī)器像人一樣,學(xué)習(xí)能力和智能隨時(shí)間在不斷增長(zhǎng)。那么它所需要學(xué)習(xí)的努力程度,樣本數(shù)也是逐漸減少的。這也是我們?cè)谂Φ囊粋€(gè)方向。 最近發(fā)表的一篇文章也說(shuō)明了遷移學(xué)習(xí)的重要性。這篇文章叫做 bayesian program learning(單個(gè)例學(xué)習(xí)),這是從一個(gè)例子就能學(xué)會(huì),我們知道深度學(xué)習(xí)是有千萬(wàn)個(gè)例子的。實(shí)際上它用了我們過(guò)去沒(méi)有涉及到的概念,就叫做結(jié)構(gòu),如果我們了解了一個(gè)問(wèn)題的結(jié)構(gòu),那么這個(gè)結(jié)構(gòu)的一個(gè)具體形式只用一個(gè)例子就可以學(xué)會(huì)了。其他的部分,需要很多例子的那一部分可能是參數(shù)、統(tǒng)計(jì),這一部分我們實(shí)際上可以通過(guò)遷移學(xué)習(xí)來(lái)學(xué)習(xí)。也就是說(shuō)這個(gè)圓就圓滿(mǎn)了,就是一個(gè)閉環(huán)了。 同時(shí),人工智能的應(yīng)用也不僅僅是在圖像方面。這里的一個(gè)例子是亞馬遜的倉(cāng)儲(chǔ)機(jī)器人。亞馬遜的倉(cāng)儲(chǔ)機(jī)器人是在一個(gè)很大的空間[運(yùn)行],這些機(jī)器人會(huì)移動(dòng)這些貨架,每個(gè)貨架上面都有不同的貨品,把這些貨架送到工人的面前,讓工人從貨架上面拿所需的貨品到箱子里面,然后快遞給客戶(hù)。為什么是這樣呢?因?yàn)?strong>現(xiàn)在的機(jī)器人技術(shù)在選擇,也就是從貨架上選擇物體還遠(yuǎn)遠(yuǎn)達(dá)不到人的熟練程度,但是它在路徑規(guī)劃、機(jī)械的啟動(dòng)、抬起、放下已經(jīng)超過(guò)人了。所以,亞馬遜就很聰明地把機(jī)器的優(yōu)點(diǎn)和人的優(yōu)點(diǎn)結(jié)合在一起,變成一個(gè)新的商業(yè)模式。如果過(guò)去建一個(gè)倉(cāng)儲(chǔ)支持這個(gè)城市所有的物流需要三個(gè)月時(shí)間,亞馬遜把所有的傳送帶拆掉,變成機(jī)器人以后只用三天時(shí)間,這個(gè)收益是非常巨大的,也是我們可以借鑒,可以拓展的一個(gè)經(jīng)驗(yàn)。 下面要講的,不僅在機(jī)器人,在圖像識(shí)別,在我們的生活當(dāng)中,人工智能已經(jīng)十分深入了。這里舉的一個(gè)例子是我和我的學(xué)生戴文淵建的一個(gè)公司——第四范式,這個(gè)公司可以讓過(guò)去在金融領(lǐng)域只能由人來(lái)服務(wù)的重要客戶(hù),改為由人工智能來(lái)做,把這個(gè)能力拓展到幾千萬(wàn)人身上,讓每個(gè)人都能享受到優(yōu)質(zhì)的金融服務(wù)。這是一個(gè)非常大的工程,它背后的技術(shù)就是機(jī)器學(xué)習(xí),我們所熟知的深度學(xué)習(xí)、知識(shí)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。 最后我要說(shuō)幾點(diǎn),看到這么多人工智能的努力,有失敗的時(shí)候,有成功的時(shí)候,我們到現(xiàn)在能總結(jié)出什么經(jīng)驗(yàn)?zāi)兀?strong>我覺(jué)得現(xiàn)在的人工智能的成功離不開(kāi)高質(zhì)量的大數(shù)據(jù),但是并不是未來(lái)人工智能的成功一定需要大數(shù)據(jù)。那么我們下面要問(wèn)是不是在未來(lái)有小數(shù)據(jù)也可以讓人工智能成功——工業(yè)上大家還在開(kāi)疆拓土,利用大數(shù)據(jù)的優(yōu)勢(shì)在發(fā)現(xiàn)新的應(yīng)用——我覺(jué)得在大學(xué)里面這是應(yīng)該做的一個(gè)研究。 第二個(gè),就是要培養(yǎng)出更多的人工智能人才。這些人才才可以來(lái)設(shè)計(jì)算法,這個(gè)也是我們今天在大學(xué)里面需要努力的一個(gè)方向。當(dāng)然這些都離不開(kāi)計(jì)算能力。 所以從這幾點(diǎn)上來(lái)看,人工智能的努力也不是像有些人說(shuō)的“今天的人工智能的發(fā)展完全在工業(yè)”,人工智能的發(fā)展應(yīng)該一部分依靠大學(xué),一部分依靠工業(yè)。就像我們所說(shuō)的,大數(shù)據(jù)和人才的培養(yǎng)以及小數(shù)據(jù)的研究。大數(shù)據(jù)開(kāi)疆拓土、更多的應(yīng)用和更多的計(jì)算能力確實(shí)來(lái)自于工業(yè)。人才培養(yǎng)、小數(shù)據(jù)研究則依靠學(xué)界。這兩者結(jié)合是我們今后發(fā)展的一個(gè)方向。 最后我要說(shuō)一點(diǎn),我們應(yīng)該說(shuō)已經(jīng)了解很多深度學(xué)習(xí)了,這個(gè)可以作為我們昨天的一個(gè)成就。那么今天我們?cè)趧倓傞_(kāi)始去獲得強(qiáng)化學(xué)習(xí)的一個(gè)紅利,這個(gè)可能還不是在很多的領(lǐng)域得到應(yīng)用,但是我要告訴大家,強(qiáng)化學(xué)習(xí)比大家想象的要更有用,它不僅僅是在圍棋或者是在計(jì)算機(jī)游戲上有用。在金融、在我們?nèi)粘I町?dāng)中,甚至在教育上,機(jī)器人的規(guī)劃都離不開(kāi)強(qiáng)化學(xué)習(xí)。 那么這些應(yīng)該說(shuō)都是富人的游戲,也就是說(shuō)只有富人才能有這么多的大數(shù)據(jù),有這么多的計(jì)算量去支持深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)這樣的實(shí)際應(yīng)用。那么我們明天要看到的應(yīng)該是遷移學(xué)習(xí),因?yàn)?strong>遷移學(xué)習(xí)能夠讓我們把大數(shù)據(jù)得到的模型遷移到小數(shù)據(jù)上面,使得千千萬(wàn)萬(wàn)的人都能夠受益,人人都能享受人工智能帶來(lái)的紅利。 我今天講到這兒,謝謝大家。 本文按現(xiàn)場(chǎng)速記整理 轉(zhuǎn)自中國(guó)人工智能學(xué)會(huì) |
|