這也是AI Time第3期主題:“論道知識(shí)圖譜:知識(shí)賦能智能與智能產(chǎn)生知識(shí)”,加州大學(xué)洛杉磯分校(UCLA)副教授孫怡舟、加拿大蒙特利爾學(xué)習(xí)算法研究所 (MILA)研究員唐建和中科院自動(dòng)化所副研究員劉康共同參與了此次論道。 現(xiàn)在請(qǐng)大家思考一個(gè)場(chǎng)景,假想你是一個(gè)醫(yī)療創(chuàng)業(yè)公司的負(fù)責(zé)人,目前想啟動(dòng)一個(gè)健康問(wèn)答的項(xiàng)目,現(xiàn)在你是選擇集中資金和人力構(gòu)建豐富的醫(yī)療知識(shí)圖譜,還是集中資金與人力去研發(fā)高效的問(wèn)答算法?你會(huì)怎么選擇? 知識(shí)工程的前世今生 在進(jìn)入知識(shí)圖譜領(lǐng)域之前,我們不妨先來(lái)回顧一下知識(shí)工程四十年多來(lái)發(fā)展歷程。對(duì)知識(shí)工程的演進(jìn)過(guò)程和技術(shù)進(jìn)展記性總結(jié)后,我們可以將知識(shí)工程分成五個(gè)標(biāo)志性的階段:圖靈測(cè)試時(shí)期、專家系統(tǒng)時(shí)期、Web1.0 萬(wàn)維網(wǎng)時(shí)期、Web2.0 群體智能時(shí)期以及Web 3.0 知識(shí)圖譜時(shí)期,如下圖所示: 知識(shí)工程發(fā)展歷程 1950-1970時(shí)期:圖靈測(cè)試—知識(shí)工程誕生前期 人工智能旨在讓機(jī)器能夠像人一樣解決復(fù)雜問(wèn)題,圖靈測(cè)試是評(píng)測(cè)智能的是手段。這一階段主要有兩個(gè)方法:符號(hào)主義和連結(jié)主義。符號(hào)主義認(rèn)為物理符號(hào)系統(tǒng)是智能行為的充要條件,連結(jié)主義則認(rèn)為大腦(神經(jīng)元及其連接機(jī)制)是一切智能活動(dòng)的基礎(chǔ)。 這一階段具有代表性的工作是通用問(wèn)題求解程序(GPS):將問(wèn)題進(jìn)行形式化表達(dá),通過(guò)搜索,從問(wèn)題初始狀態(tài),結(jié)合規(guī)則或表示得到目標(biāo)狀態(tài)。其中最成功應(yīng)用是博弈論和機(jī)器定理證明等。 這一時(shí)期的知識(shí)表示方法主要有:數(shù)理邏輯、基于邏輯的知識(shí)表示、產(chǎn)生式規(guī)則和語(yǔ)義網(wǎng)絡(luò)等。 這一時(shí)代人工智能和知識(shí)工程的先驅(qū)Minsky,Mccarthy和Newell以Simon四位學(xué)者因?yàn)樗麄冊(cè)诟兄獧C(jī)、人工智能語(yǔ)言和通用問(wèn)題求解和形式化語(yǔ)言方面的杰出工作分別獲得了1969年、1971年、1975年的圖靈獎(jiǎng)。 1970-1990時(shí)期:專家系統(tǒng)—知識(shí)工程蓬勃發(fā)展期 70年開(kāi)始,人工智能開(kāi)始轉(zhuǎn)向建立基于知識(shí)的系統(tǒng),通過(guò)“知識(shí)庫(kù)+推理機(jī)”實(shí)現(xiàn)機(jī)器智能,這一時(shí)期涌現(xiàn)出很多成功的限定領(lǐng)域?qū)<蚁到y(tǒng),如MYCIN醫(yī)療診斷專家系統(tǒng)、識(shí)別分子結(jié)構(gòu)的DENRAL專家系統(tǒng)以及計(jì)算機(jī)故障診斷XCON專家系統(tǒng)等。 斯坦福人工智能實(shí)驗(yàn)室的奠基人Feigenbaum教授在1980年的一個(gè)項(xiàng)目報(bào)告《Knowledge Engineering:The Applied Side of Artificial Intelligence》中提出知識(shí)工程的概念,從此確立了知識(shí)工程在人工智能中的核心地位。 這一時(shí)期知識(shí)表示方法有新的演進(jìn),包括框架和腳本等。80年代后期出現(xiàn)了很多專家系統(tǒng)的開(kāi)發(fā)平臺(tái),可以幫助將專家的領(lǐng)域知識(shí)轉(zhuǎn)變成計(jì)算機(jī)可以處理的知識(shí)。 1990-2000時(shí)期:Web1.0 萬(wàn)維網(wǎng) 在1990年到2000年,出現(xiàn)了很多人工構(gòu)建大規(guī)模知識(shí)庫(kù),包括廣泛應(yīng)用的英文WordNet,采用一階謂詞邏輯知識(shí)表示的Cyc常識(shí)知識(shí)庫(kù),以及中文的HowNet。 Web 1.0萬(wàn)維網(wǎng)的產(chǎn)生為人們提供了一個(gè)開(kāi)放平臺(tái),使用HTML定義文本的內(nèi)容,通過(guò)超鏈接把文本連接起來(lái),使得大眾可以共享信息。 W3C提出的可擴(kuò)展標(biāo)記語(yǔ)言XML,實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)文檔內(nèi)容的結(jié)構(gòu)通過(guò)定義標(biāo)簽進(jìn)行標(biāo)記,為互聯(lián)網(wǎng)環(huán)境下大規(guī)模知識(shí)表示和共享奠定了基礎(chǔ)。這一時(shí)期在知識(shí)表示研究中還提出了本體的知識(shí)表示方法。 2000-2006時(shí)期:Web2.0 群體智能 在2001年,萬(wàn)維網(wǎng)發(fā)明人、2016年圖靈獎(jiǎng)獲得者Tim Berners-Lee在科學(xué)美國(guó)人雜志中發(fā)表的論文《The Semantic Web》正式提出語(yǔ)義Web的概念,旨在對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行結(jié)構(gòu)化語(yǔ)義表示,利用本體描述互聯(lián)網(wǎng)內(nèi)容的語(yǔ)義結(jié)構(gòu),通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行語(yǔ)義標(biāo)識(shí)得到網(wǎng)頁(yè)語(yǔ)義信息,從而獲得網(wǎng)頁(yè)內(nèi)容的語(yǔ)義信息,使人和機(jī)器能夠更好地協(xié)同工作。W3C進(jìn)一步提出萬(wàn)維網(wǎng)上語(yǔ)義標(biāo)識(shí)語(yǔ)言RDF(資源描述框架)和OWL(萬(wàn)維網(wǎng)本體表述語(yǔ)言)等描述萬(wàn)維網(wǎng)內(nèi)容語(yǔ)義的知識(shí)描述規(guī)范。 萬(wàn)維網(wǎng)的出現(xiàn)使得知識(shí)從封閉知識(shí)走向開(kāi)放知識(shí),從集中構(gòu)建知識(shí)成為分布群體智能知識(shí)。原來(lái)專家系統(tǒng)是系統(tǒng)內(nèi)部定義的知識(shí),現(xiàn)在可以實(shí)現(xiàn)知識(shí)源之間相互鏈接,可以通過(guò)關(guān)聯(lián)來(lái)產(chǎn)生更多的知識(shí)而非完全由固定人生產(chǎn)。這個(gè)過(guò)程中出現(xiàn)了群體智能,最典型的代表就是維基百科,實(shí)際上是用戶去建立知識(shí),體現(xiàn)了互聯(lián)網(wǎng)大眾用戶對(duì)知識(shí)的貢獻(xiàn),成為今天大規(guī)模結(jié)構(gòu)化知識(shí)圖譜的重要基礎(chǔ)。 2006年至今:Web 3.0 知識(shí)圖譜時(shí)期 將萬(wàn)維網(wǎng)內(nèi)容轉(zhuǎn)化為能夠?yàn)橹悄軕?yīng)用提供動(dòng)力的機(jī)器可理解和計(jì)算的知識(shí)是這一時(shí)期的目標(biāo)。從2006年開(kāi)始,大規(guī)模維基百科類富結(jié)構(gòu)知識(shí)資源的出現(xiàn)和網(wǎng)絡(luò)規(guī)模信息提取方法的進(jìn)步,使得大規(guī)模知識(shí)獲取方法取得了巨大進(jìn)展。與Cyc、WordNet和HowNet等手工研制的知識(shí)庫(kù)和本體的開(kāi)創(chuàng)性項(xiàng)目不同,這一時(shí)期知識(shí)獲取是自動(dòng)化的,并且在網(wǎng)絡(luò)規(guī)模下運(yùn)行。 當(dāng)前知識(shí)圖譜自動(dòng)構(gòu)建的知識(shí)庫(kù)已成為語(yǔ)義搜索、大數(shù)據(jù)分析、智能推薦和數(shù)據(jù)集成的強(qiáng)大資產(chǎn),在大型行業(yè)和領(lǐng)域中正在得到廣泛使用。典型的例子是谷歌收購(gòu)Freebase后在2012年推出的知識(shí)圖譜(Knowledge Graph),F(xiàn)acebook的圖譜搜索,Microsoft Satori以及商業(yè)、金融、生命科學(xué)等領(lǐng)域特定的知識(shí)庫(kù)。最具代表性大規(guī)模網(wǎng)絡(luò)知識(shí)獲取的工作包括DBpedia、Freebase、KnowItAll、WikiTaxonomy和YAGO,以及BabelNet、ConceptNet、DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia等。這些知識(shí)圖譜遵循圖RDF數(shù)據(jù)模型,包含數(shù)以千萬(wàn)級(jí)或者億級(jí)規(guī)模的實(shí)體,以及數(shù)十億或百億事實(shí)(即屬性值和與其他實(shí)體的關(guān)系),并且這些實(shí)體被組織在成千上萬(wàn)的由語(yǔ)義體現(xiàn)的客觀世界的概念結(jié)構(gòu)中。 在我國(guó)知識(shí)工程領(lǐng)域研究中,中科院系統(tǒng)所陸汝鈐院士、計(jì)算所史忠植研究員等老一代知識(shí)工程研究學(xué)者為中國(guó)的知識(shí)工程研究和人才培養(yǎng)做出了突出貢獻(xiàn),陸汝鈐院士因在知識(shí)工程和基于知識(shí)的軟件工程方面作出的系統(tǒng)和創(chuàng)造性工作,以及在大知識(shí)領(lǐng)域的開(kāi)創(chuàng)性貢獻(xiàn),榮獲首屆“吳文俊人工智能最高成就獎(jiǎng)”。 2011年2月14日,IBM的“Waltson”超級(jí)計(jì)算機(jī)登上了美國(guó)最受歡迎的智力問(wèn)答節(jié)目《危險(xiǎn)邊緣》(Jeopardy),挑戰(zhàn)該節(jié)目的兩名總冠軍肯-詹寧斯和布 拉德-魯特爾,實(shí)現(xiàn)有史以來(lái)首次人機(jī)智力問(wèn)答對(duì)決,并贏取高達(dá)100萬(wàn)美元的獎(jiǎng)金。 “Waltson”由10臺(tái)IBM服務(wù)器組成。這些服務(wù)器采用Linux操作系統(tǒng),雖然沒(méi)有聯(lián)網(wǎng),但沃森存儲(chǔ)了大量圖書(shū)、新聞和電影劇本資料、辭海、文選和《世界圖書(shū)百科全書(shū)》等數(shù)百萬(wàn)份資料,每當(dāng)讀完問(wèn)題的提示后,“Waltson”就在不到三秒鐘的時(shí)間里對(duì)自己的數(shù)據(jù)庫(kù)"挖地三尺",在長(zhǎng)達(dá)2億頁(yè)的漫漫資料里展開(kāi)搜索。 那他究竟是如何能從這些浩瀚的數(shù)據(jù)中得到答案的呢?實(shí)際過(guò)程當(dāng)然很復(fù)雜,需要從雜亂無(wú)章的原始數(shù)據(jù)中提取有用的數(shù)據(jù),即信息,在此基礎(chǔ)上理解它的含義,即知識(shí),最后這些知識(shí)才能拿來(lái)為我們所用產(chǎn)生智能。 知識(shí)圖譜究竟主要是靠人工來(lái)構(gòu)建,還是靠機(jī)器自動(dòng)來(lái)構(gòu)建? 網(wǎng)絡(luò)上曾流行這樣一段打趣的對(duì)話。 A:“你是做什么的的?” B:“做人工智能的。” A: “你負(fù)責(zé)人工智能的哪部分呢?” B:“我負(fù)責(zé)人工那部分。” 雖然這是玩笑話,但實(shí)際上在構(gòu)建知識(shí)圖譜的過(guò)程中,不可或缺地需要很多人工智慧的參與。在某些垂直領(lǐng)域知識(shí)圖譜的構(gòu)建上,甚至需要非常多專家智慧的參與。盡管學(xué)術(shù)界與工業(yè)界都在努力嘗試自動(dòng)抽取實(shí)體與發(fā)現(xiàn)實(shí)體之間的關(guān)系,但是其精準(zhǔn)度的局限性導(dǎo)致在某些對(duì)錯(cuò)誤容忍性很低的領(lǐng)域,比如醫(yī)療領(lǐng)域,可能并不能很好的應(yīng)用。 三位老師大體上都認(rèn)為半自動(dòng)結(jié)合人工是目前構(gòu)建知識(shí)圖譜的理想方式。劉老師表示知識(shí)表示的手段對(duì)于我們要表現(xiàn)的知識(shí)還存在局限性,構(gòu)建某個(gè)領(lǐng)域的知識(shí)圖譜也是很困難的,需要根據(jù)需求不斷更新數(shù)據(jù)。總的來(lái)說(shuō),構(gòu)建和維護(hù)知識(shí)圖譜都是一件很費(fèi)時(shí)費(fèi)力的事,人工的參與提高了精準(zhǔn)性,不可能完全摒棄掉人工智慧。孫老師告訴大家,她的老師韓家煒教授近期的工作重點(diǎn)就在于知識(shí)圖譜的構(gòu)建自動(dòng)化。 有必要融合知識(shí)圖譜嗎? 知識(shí)圖譜可以由任何機(jī)構(gòu)和個(gè)人自由構(gòu)建,其背后的數(shù)據(jù)來(lái)源廣泛、質(zhì)量參差不齊,導(dǎo)致它們之間存在多樣性和異構(gòu)性。語(yǔ)義集成的提出就是為了能夠?qū)⒉煌闹R(shí)圖譜融合為一個(gè)統(tǒng)一、一致、簡(jiǎn)潔的形式,為使用不同知識(shí)圖譜的應(yīng)用程序間的交互建立操作性。 語(yǔ)義集成的常見(jiàn)流程 常用的技術(shù)包括本體匹配(也稱為本體映射)、實(shí)例力匹配(也稱為實(shí)體對(duì)齊、對(duì)象公共指消解)以及知識(shí)融合等。 對(duì)此,三位老師均認(rèn)為知識(shí)圖譜的融合是有必要的。因?yàn)橛行﹩?wèn)題需綜合多個(gè)領(lǐng)域的圖譜才能回答,不同知識(shí)圖譜覆蓋的信息不同,融合可構(gòu)建更全面的知識(shí)圖譜。孫老師強(qiáng)調(diào)不同語(yǔ)言之間的知識(shí)圖譜融合是最有意義的,對(duì)圖譜的要求自然是越全越好,垂直融合盡可能獲取更多知識(shí)的話,對(duì)推理的幫助更大。劉老師則表示融合時(shí)面臨著兩個(gè)問(wèn)題:一個(gè)是不同圖譜之間的關(guān)鍵詞和字符不同,另一個(gè)是不同圖譜之間的實(shí)例能否關(guān)聯(lián)。 “人工智能歷史上最有爭(zhēng)議的項(xiàng)目”之一Cyc 曾經(jīng)在美國(guó)盛極一時(shí)的Cyc項(xiàng)目代表了Web1.0 萬(wàn)維網(wǎng)時(shí)期典型的人工智能技術(shù)與思考,更神奇的是這個(gè)1984年啟動(dòng)的項(xiàng)目,直到今天還在繼續(xù),并且始終處于建設(shè)中,它稱為是“人工智能歷史上最有爭(zhēng)議的項(xiàng)目”之一,因此難免對(duì)它有批評(píng)的意見(jiàn),主要概括如下: · 系統(tǒng)的復(fù)雜度:該系統(tǒng)具有創(chuàng)建百科全書(shū)式知識(shí)庫(kù)的野心,卻由特定知識(shí)工程師手動(dòng)添加所有的知識(shí)到系統(tǒng)中 · 知識(shí)表示廣泛的具體化引發(fā)的可擴(kuò)展性問(wèn)題,特別是以常量的形式進(jìn)行 · 對(duì)物質(zhì)概念的解釋難以令人滿意,對(duì)內(nèi)在屬性和外在屬性區(qū)分不清晰 劉老師直言這是一個(gè)失敗的項(xiàng)目,孫老師也同樣表示人的速度趕不上知識(shí)增長(zhǎng)的速度,這是不可行的。 除了“搜一搜,看一看”,知識(shí)圖譜更深入的應(yīng)用場(chǎng)景有哪些? 知識(shí)應(yīng)用能夠?qū)⒅R(shí)圖譜特有的應(yīng)用形態(tài)與領(lǐng)域數(shù)據(jù)與業(yè)務(wù)場(chǎng)景相結(jié)合并助力領(lǐng)域業(yè)務(wù)轉(zhuǎn)型。知識(shí)圖譜的典型應(yīng)用包括智能推薦、語(yǔ)義搜索、智能問(wèn)答以及可視化決策支持等三種。如何針對(duì)業(yè)務(wù)需求設(shè)計(jì)實(shí)現(xiàn)知識(shí)圖譜應(yīng)用,并基于數(shù)據(jù)特點(diǎn)進(jìn)行優(yōu)化調(diào)整,是知識(shí)圖譜應(yīng)用的關(guān)鍵研究?jī)?nèi)容。 劉老師表示除了大眾看到的“搜一搜,看一看”之外,還有很多知識(shí)圖譜在背后發(fā)揮作用的場(chǎng)景,例如金融領(lǐng)域的風(fēng)險(xiǎn)評(píng)估、銀行領(lǐng)域的征信、電商領(lǐng)域的推薦場(chǎng)景和教育領(lǐng)域的APP;唐老師表示除此之外醫(yī)療領(lǐng)域也有很多場(chǎng)景有知識(shí)圖譜的應(yīng)用。 知識(shí)圖譜應(yīng)當(dāng)如何更加智能地應(yīng)用到這些場(chǎng)景中? 現(xiàn)在有很多人研究將知識(shí)圖譜應(yīng)用到智能問(wèn)答、機(jī)器翻譯和推薦等場(chǎng)景中。但是,實(shí)際在很多場(chǎng)景下,用了知識(shí)圖譜效果也不會(huì)提升多少,甚至有可能會(huì)下降。這里面可能存在的難點(diǎn)有兩個(gè),一是知識(shí)圖譜本身的不完整性導(dǎo)致其效果有限,二是將知識(shí)圖譜鏈入到各個(gè)具體任務(wù)時(shí),可能會(huì)引入大量的錯(cuò)誤。 劉老師對(duì)此表示在場(chǎng)景下應(yīng)用知識(shí)圖譜效果反而下降的原因在于兩點(diǎn),第一也是認(rèn)為知識(shí)圖譜的覆蓋度過(guò)低,第二是已有的知識(shí)和表達(dá)無(wú)法對(duì)應(yīng)上。如果能提前預(yù)知用戶需求和圖譜應(yīng)用場(chǎng)合,對(duì)數(shù)據(jù)進(jìn)行精細(xì)化后,就能更好地應(yīng)用到場(chǎng)景中去。 未來(lái)之路 如果未來(lái)的智能機(jī)器擁有一個(gè)大腦,知識(shí)圖譜就是這個(gè)大腦中的知識(shí)庫(kù),對(duì)于大數(shù)據(jù)智能具有重要意義,將對(duì)自然語(yǔ)言處理、信息檢索和人工智能等領(lǐng)域產(chǎn)生深遠(yuǎn)影響。 現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識(shí)到知識(shí)圖譜的戰(zhàn)略意義,紛紛投入重兵布局知識(shí)圖譜,并對(duì)搜索引擎形態(tài)日益產(chǎn)生重要的影響。同時(shí),我們也強(qiáng)烈地感受到,知識(shí)圖譜還處于發(fā)展初期,大多數(shù)商業(yè)知識(shí)圖譜的應(yīng)用場(chǎng)景非常有限。可以看到,在未來(lái)的一段時(shí)間內(nèi),知識(shí)圖譜將是大數(shù)據(jù)智能的前沿研究問(wèn)題,有很多重要的開(kāi)放性問(wèn)題亟待學(xué)術(shù)界和產(chǎn)業(yè)界協(xié)力解決。 學(xué)術(shù)頭條已建立知識(shí)圖譜微信交流群,想進(jìn)群的同學(xué)請(qǐng)加學(xué)術(shù)君微信:AMiner308,記得備注:KG |
|
來(lái)自: 學(xué)術(shù)頭條 > 《待分類》