【原】你負(fù)責(zé)人工智能哪部分？人工那部分；知識(shí)圖譜的構(gòu)建主要靠人工還是機(jī)器？

學(xué)術(shù)頭條 2020-11-27

展開(kāi)全文

這也是AI Time第3期主題：“論道知識(shí)圖譜：知識(shí)賦能智能與智能產(chǎn)生知識(shí)”，加州大學(xué)洛杉磯分校（UCLA）副教授孫怡舟、加拿大蒙特利爾學(xué)習(xí)算法研究所 (MILA)研究員唐建和中科院自動(dòng)化所副研究員劉康共同參與了此次論道。

現(xiàn)在請(qǐng)大家思考一個(gè)場(chǎng)景，假想你是一個(gè)醫(yī)療創(chuàng)業(yè)公司的負(fù)責(zé)人，目前想啟動(dòng)一個(gè)健康問(wèn)答的項(xiàng)目，現(xiàn)在你是選擇集中資金和人力構(gòu)建豐富的醫(yī)療知識(shí)圖譜，還是集中資金與人力去研發(fā)高效的問(wèn)答算法？你會(huì)怎么選擇？

知識(shí)工程的前世今生

在進(jìn)入知識(shí)圖譜領(lǐng)域之前，我們不妨先來(lái)回顧一下知識(shí)工程四十年多來(lái)發(fā)展歷程。對(duì)知識(shí)工程的演進(jìn)過(guò)程和技術(shù)進(jìn)展記性總結(jié)后，我們可以將知識(shí)工程分成五個(gè)標(biāo)志性的階段：圖靈測(cè)試時(shí)期、專家系統(tǒng)時(shí)期、Web1.0 萬(wàn)維網(wǎng)時(shí)期、Web2.0 群體智能時(shí)期以及Web 3.0 知識(shí)圖譜時(shí)期，如下圖所示：

知識(shí)工程發(fā)展歷程

1950-1970時(shí)期：圖靈測(cè)試—知識(shí)工程誕生前期

人工智能旨在讓機(jī)器能夠像人一樣解決復(fù)雜問(wèn)題，圖靈測(cè)試是評(píng)測(cè)智能的是手段。這一階段主要有兩個(gè)方法：符號(hào)主義和連結(jié)主義。符號(hào)主義認(rèn)為物理符號(hào)系統(tǒng)是智能行為的充要條件，連結(jié)主義則認(rèn)為大腦（神經(jīng)元及其連接機(jī)制）是一切智能活動(dòng)的基礎(chǔ)。

這一階段具有代表性的工作是通用問(wèn)題求解程序（GPS）：將問(wèn)題進(jìn)行形式化表達(dá)，通過(guò)搜索，從問(wèn)題初始狀態(tài)，結(jié)合規(guī)則或表示得到目標(biāo)狀態(tài)。其中最成功應(yīng)用是博弈論和機(jī)器定理證明等。

這一時(shí)期的知識(shí)表示方法主要有：數(shù)理邏輯、基于邏輯的知識(shí)表示、產(chǎn)生式規(guī)則和語(yǔ)義網(wǎng)絡(luò)等。

這一時(shí)代人工智能和知識(shí)工程的先驅(qū)Minsky，Mccarthy和Newell以Simon四位學(xué)者因?yàn)樗麄冊(cè)诟兄獧C(jī)、人工智能語(yǔ)言和通用問(wèn)題求解和形式化語(yǔ)言方面的杰出工作分別獲得了1969年、1971年、1975年的圖靈獎(jiǎng)。

1970-1990時(shí)期：專家系統(tǒng)—知識(shí)工程蓬勃發(fā)展期

70年開(kāi)始，人工智能開(kāi)始轉(zhuǎn)向建立基于知識(shí)的系統(tǒng)，通過(guò)“知識(shí)庫(kù)+推理機(jī)”實(shí)現(xiàn)機(jī)器智能，這一時(shí)期涌現(xiàn)出很多成功的限定領(lǐng)域?qū)＜蚁到y(tǒng)，如MYCIN醫(yī)療診斷專家系統(tǒng)、識(shí)別分子結(jié)構(gòu)的DENRAL專家系統(tǒng)以及計(jì)算機(jī)故障診斷XCON專家系統(tǒng)等。

斯坦福人工智能實(shí)驗(yàn)室的奠基人Feigenbaum教授在1980年的一個(gè)項(xiàng)目報(bào)告《Knowledge Engineering：The Applied Side of Artificial Intelligence》中提出知識(shí)工程的概念，從此確立了知識(shí)工程在人工智能中的核心地位。

這一時(shí)期知識(shí)表示方法有新的演進(jìn)，包括框架和腳本等。80年代后期出現(xiàn)了很多專家系統(tǒng)的開(kāi)發(fā)平臺(tái)，可以幫助將專家的領(lǐng)域知識(shí)轉(zhuǎn)變成計(jì)算機(jī)可以處理的知識(shí)。

1990-2000時(shí)期：Web1.0 萬(wàn)維網(wǎng)

在1990年到2000年，出現(xiàn)了很多人工構(gòu)建大規(guī)模知識(shí)庫(kù)，包括廣泛應(yīng)用的英文WordNet，采用一階謂詞邏輯知識(shí)表示的Cyc常識(shí)知識(shí)庫(kù)，以及中文的HowNet。

Web 1.0萬(wàn)維網(wǎng)的產(chǎn)生為人們提供了一個(gè)開(kāi)放平臺(tái)，使用HTML定義文本的內(nèi)容，通過(guò)超鏈接把文本連接起來(lái)，使得大眾可以共享信息。

W3C提出的可擴(kuò)展標(biāo)記語(yǔ)言XML，實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)文檔內(nèi)容的結(jié)構(gòu)通過(guò)定義標(biāo)簽進(jìn)行標(biāo)記，為互聯(lián)網(wǎng)環(huán)境下大規(guī)模知識(shí)表示和共享奠定了基礎(chǔ)。這一時(shí)期在知識(shí)表示研究中還提出了本體的知識(shí)表示方法。

2000-2006時(shí)期：Web2.0 群體智能

在2001年，萬(wàn)維網(wǎng)發(fā)明人、2016年圖靈獎(jiǎng)獲得者Tim Berners-Lee在科學(xué)美國(guó)人雜志中發(fā)表的論文《The Semantic Web》正式提出語(yǔ)義Web的概念，旨在對(duì)互聯(lián)網(wǎng)內(nèi)容進(jìn)行結(jié)構(gòu)化語(yǔ)義表示，利用本體描述互聯(lián)網(wǎng)內(nèi)容的語(yǔ)義結(jié)構(gòu)，通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行語(yǔ)義標(biāo)識(shí)得到網(wǎng)頁(yè)語(yǔ)義信息，從而獲得網(wǎng)頁(yè)內(nèi)容的語(yǔ)義信息，使人和機(jī)器能夠更好地協(xié)同工作。W3C進(jìn)一步提出萬(wàn)維網(wǎng)上語(yǔ)義標(biāo)識(shí)語(yǔ)言RDF（資源描述框架）和OWL（萬(wàn)維網(wǎng)本體表述語(yǔ)言）等描述萬(wàn)維網(wǎng)內(nèi)容語(yǔ)義的知識(shí)描述規(guī)范。

萬(wàn)維網(wǎng)的出現(xiàn)使得知識(shí)從封閉知識(shí)走向開(kāi)放知識(shí)，從集中構(gòu)建知識(shí)成為分布群體智能知識(shí)。原來(lái)專家系統(tǒng)是系統(tǒng)內(nèi)部定義的知識(shí)，現(xiàn)在可以實(shí)現(xiàn)知識(shí)源之間相互鏈接，可以通過(guò)關(guān)聯(lián)來(lái)產(chǎn)生更多的知識(shí)而非完全由固定人生產(chǎn)。這個(gè)過(guò)程中出現(xiàn)了群體智能，最典型的代表就是維基百科，實(shí)際上是用戶去建立知識(shí)，體現(xiàn)了互聯(lián)網(wǎng)大眾用戶對(duì)知識(shí)的貢獻(xiàn)，成為今天大規(guī)模結(jié)構(gòu)化知識(shí)圖譜的重要基礎(chǔ)。

2006年至今：Web 3.0 知識(shí)圖譜時(shí)期

將萬(wàn)維網(wǎng)內(nèi)容轉(zhuǎn)化為能夠?yàn)橹悄軕?yīng)用提供動(dòng)力的機(jī)器可理解和計(jì)算的知識(shí)是這一時(shí)期的目標(biāo)。從2006年開(kāi)始，大規(guī)模維基百科類富結(jié)構(gòu)知識(shí)資源的出現(xiàn)和網(wǎng)絡(luò)規(guī)模信息提取方法的進(jìn)步，使得大規(guī)模知識(shí)獲取方法取得了巨大進(jìn)展。與Cyc、WordNet和HowNet等手工研制的知識(shí)庫(kù)和本體的開(kāi)創(chuàng)性項(xiàng)目不同，這一時(shí)期知識(shí)獲取是自動(dòng)化的，并且在網(wǎng)絡(luò)規(guī)模下運(yùn)行。

當(dāng)前知識(shí)圖譜自動(dòng)構(gòu)建的知識(shí)庫(kù)已成為語(yǔ)義搜索、大數(shù)據(jù)分析、智能推薦和數(shù)據(jù)集成的強(qiáng)大資產(chǎn)，在大型行業(yè)和領(lǐng)域中正在得到廣泛使用。典型的例子是谷歌收購(gòu)Freebase后在2012年推出的知識(shí)圖譜（Knowledge Graph），F(xiàn)acebook的圖譜搜索，Microsoft Satori以及商業(yè)、金融、生命科學(xué)等領(lǐng)域特定的知識(shí)庫(kù)。最具代表性大規(guī)模網(wǎng)絡(luò)知識(shí)獲取的工作包括DBpedia、Freebase、KnowItAll、WikiTaxonomy和YAGO，以及BabelNet、ConceptNet、DeepDive、NELL、Probase、Wikidata、XLORE、Zhishi.me、CNDBpedia等。這些知識(shí)圖譜遵循圖RDF數(shù)據(jù)模型，包含數(shù)以千萬(wàn)級(jí)或者億級(jí)規(guī)模的實(shí)體，以及數(shù)十億或百億事實(shí)（即屬性值和與其他實(shí)體的關(guān)系），并且這些實(shí)體被組織在成千上萬(wàn)的由語(yǔ)義體現(xiàn)的客觀世界的概念結(jié)構(gòu)中。

在我國(guó)知識(shí)工程領(lǐng)域研究中，中科院系統(tǒng)所陸汝鈐院士、計(jì)算所史忠植研究員等老一代知識(shí)工程研究學(xué)者為中國(guó)的知識(shí)工程研究和人才培養(yǎng)做出了突出貢獻(xiàn)，陸汝鈐院士因在知識(shí)工程和基于知識(shí)的軟件工程方面作出的系統(tǒng)和創(chuàng)造性工作，以及在大知識(shí)領(lǐng)域的開(kāi)創(chuàng)性貢獻(xiàn)，榮獲首屆“吳文俊人工智能最高成就獎(jiǎng)”。

2011年2月14日，IBM的“Waltson”超級(jí)計(jì)算機(jī)登上了美國(guó)最受歡迎的智力問(wèn)答節(jié)目《危險(xiǎn)邊緣》(Jeopardy)，挑戰(zhàn)該節(jié)目的兩名總冠軍肯-詹寧斯和布拉德-魯特爾，實(shí)現(xiàn)有史以來(lái)首次人機(jī)智力問(wèn)答對(duì)決，并贏取高達(dá)100萬(wàn)美元的獎(jiǎng)金。

“Waltson”由10臺(tái)IBM服務(wù)器組成。這些服務(wù)器采用Linux操作系統(tǒng)，雖然沒(méi)有聯(lián)網(wǎng)，但沃森存儲(chǔ)了大量圖書(shū)、新聞和電影劇本資料、辭海、文選和《世界圖書(shū)百科全書(shū)》等數(shù)百萬(wàn)份資料，每當(dāng)讀完問(wèn)題的提示后，“Waltson”就在不到三秒鐘的時(shí)間里對(duì)自己的數(shù)據(jù)庫(kù)"挖地三尺"，在長(zhǎng)達(dá)2億頁(yè)的漫漫資料里展開(kāi)搜索。

那他究竟是如何能從這些浩瀚的數(shù)據(jù)中得到答案的呢？實(shí)際過(guò)程當(dāng)然很復(fù)雜，需要從雜亂無(wú)章的原始數(shù)據(jù)中提取有用的數(shù)據(jù)，即信息，在此基礎(chǔ)上理解它的含義，即知識(shí)，最后這些知識(shí)才能拿來(lái)為我們所用產(chǎn)生智能。

知識(shí)圖譜究竟主要是靠人工來(lái)構(gòu)建，還是靠機(jī)器自動(dòng)來(lái)構(gòu)建？

網(wǎng)絡(luò)上曾流行這樣一段打趣的對(duì)話。

A:“你是做什么的的？”

B:“做人工智能的。”

A: “你負(fù)責(zé)人工智能的哪部分呢？”

B:“我負(fù)責(zé)人工那部分。”

雖然這是玩笑話，但實(shí)際上在構(gòu)建知識(shí)圖譜的過(guò)程中，不可或缺地需要很多人工智慧的參與。在某些垂直領(lǐng)域知識(shí)圖譜的構(gòu)建上，甚至需要非常多專家智慧的參與。盡管學(xué)術(shù)界與工業(yè)界都在努力嘗試自動(dòng)抽取實(shí)體與發(fā)現(xiàn)實(shí)體之間的關(guān)系，但是其精準(zhǔn)度的局限性導(dǎo)致在某些對(duì)錯(cuò)誤容忍性很低的領(lǐng)域，比如醫(yī)療領(lǐng)域，可能并不能很好的應(yīng)用。

三位老師大體上都認(rèn)為半自動(dòng)結(jié)合人工是目前構(gòu)建知識(shí)圖譜的理想方式。劉老師表示知識(shí)表示的手段對(duì)于我們要表現(xiàn)的知識(shí)還存在局限性，構(gòu)建某個(gè)領(lǐng)域的知識(shí)圖譜也是很困難的，需要根據(jù)需求不斷更新數(shù)據(jù)。總的來(lái)說(shuō)，構(gòu)建和維護(hù)知識(shí)圖譜都是一件很費(fèi)時(shí)費(fèi)力的事，人工的參與提高了精準(zhǔn)性，不可能完全摒棄掉人工智慧。孫老師告訴大家，她的老師韓家煒教授近期的工作重點(diǎn)就在于知識(shí)圖譜的構(gòu)建自動(dòng)化。

有必要融合知識(shí)圖譜嗎?

知識(shí)圖譜可以由任何機(jī)構(gòu)和個(gè)人自由構(gòu)建，其背后的數(shù)據(jù)來(lái)源廣泛、質(zhì)量參差不齊，導(dǎo)致它們之間存在多樣性和異構(gòu)性。語(yǔ)義集成的提出就是為了能夠?qū)⒉煌闹R(shí)圖譜融合為一個(gè)統(tǒng)一、一致、簡(jiǎn)潔的形式，為使用不同知識(shí)圖譜的應(yīng)用程序間的交互建立操作性。

語(yǔ)義集成的常見(jiàn)流程

常用的技術(shù)包括本體匹配（也稱為本體映射）、實(shí)例力匹配（也稱為實(shí)體對(duì)齊、對(duì)象公共指消解）以及知識(shí)融合等。

對(duì)此，三位老師均認(rèn)為知識(shí)圖譜的融合是有必要的。因?yàn)橛行﹩?wèn)題需綜合多個(gè)領(lǐng)域的圖譜才能回答，不同知識(shí)圖譜覆蓋的信息不同，融合可構(gòu)建更全面的知識(shí)圖譜。孫老師強(qiáng)調(diào)不同語(yǔ)言之間的知識(shí)圖譜融合是最有意義的，對(duì)圖譜的要求自然是越全越好，垂直融合盡可能獲取更多知識(shí)的話，對(duì)推理的幫助更大。劉老師則表示融合時(shí)面臨著兩個(gè)問(wèn)題：一個(gè)是不同圖譜之間的關(guān)鍵詞和字符不同，另一個(gè)是不同圖譜之間的實(shí)例能否關(guān)聯(lián)。

“人工智能歷史上最有爭(zhēng)議的項(xiàng)目”之一Cyc

曾經(jīng)在美國(guó)盛極一時(shí)的Cyc項(xiàng)目代表了Web1.0 萬(wàn)維網(wǎng)時(shí)期典型的人工智能技術(shù)與思考，更神奇的是這個(gè)1984年啟動(dòng)的項(xiàng)目，直到今天還在繼續(xù)，并且始終處于建設(shè)中，它稱為是“人工智能歷史上最有爭(zhēng)議的項(xiàng)目”之一，因此難免對(duì)它有批評(píng)的意見(jiàn)，主要概括如下：

· 系統(tǒng)的復(fù)雜度：該系統(tǒng)具有創(chuàng)建百科全書(shū)式知識(shí)庫(kù)的野心，卻由特定知識(shí)工程師手動(dòng)添加所有的知識(shí)到系統(tǒng)中

· 知識(shí)表示廣泛的具體化引發(fā)的可擴(kuò)展性問(wèn)題，特別是以常量的形式進(jìn)行

· 對(duì)物質(zhì)概念的解釋難以令人滿意，對(duì)內(nèi)在屬性和外在屬性區(qū)分不清晰

劉老師直言這是一個(gè)失敗的項(xiàng)目，孫老師也同樣表示人的速度趕不上知識(shí)增長(zhǎng)的速度，這是不可行的。

除了“搜一搜，看一看”，知識(shí)圖譜更深入的應(yīng)用場(chǎng)景有哪些？

知識(shí)應(yīng)用能夠?qū)⒅R(shí)圖譜特有的應(yīng)用形態(tài)與領(lǐng)域數(shù)據(jù)與業(yè)務(wù)場(chǎng)景相結(jié)合并助力領(lǐng)域業(yè)務(wù)轉(zhuǎn)型。知識(shí)圖譜的典型應(yīng)用包括智能推薦、語(yǔ)義搜索、智能問(wèn)答以及可視化決策支持等三種。如何針對(duì)業(yè)務(wù)需求設(shè)計(jì)實(shí)現(xiàn)知識(shí)圖譜應(yīng)用，并基于數(shù)據(jù)特點(diǎn)進(jìn)行優(yōu)化調(diào)整，是知識(shí)圖譜應(yīng)用的關(guān)鍵研究?jī)?nèi)容。

劉老師表示除了大眾看到的“搜一搜，看一看”之外，還有很多知識(shí)圖譜在背后發(fā)揮作用的場(chǎng)景，例如金融領(lǐng)域的風(fēng)險(xiǎn)評(píng)估、銀行領(lǐng)域的征信、電商領(lǐng)域的推薦場(chǎng)景和教育領(lǐng)域的APP；唐老師表示除此之外醫(yī)療領(lǐng)域也有很多場(chǎng)景有知識(shí)圖譜的應(yīng)用。

知識(shí)圖譜應(yīng)當(dāng)如何更加智能地應(yīng)用到這些場(chǎng)景中？

現(xiàn)在有很多人研究將知識(shí)圖譜應(yīng)用到智能問(wèn)答、機(jī)器翻譯和推薦等場(chǎng)景中。但是，實(shí)際在很多場(chǎng)景下，用了知識(shí)圖譜效果也不會(huì)提升多少，甚至有可能會(huì)下降。這里面可能存在的難點(diǎn)有兩個(gè)，一是知識(shí)圖譜本身的不完整性導(dǎo)致其效果有限，二是將知識(shí)圖譜鏈入到各個(gè)具體任務(wù)時(shí)，可能會(huì)引入大量的錯(cuò)誤。

劉老師對(duì)此表示在場(chǎng)景下應(yīng)用知識(shí)圖譜效果反而下降的原因在于兩點(diǎn)，第一也是認(rèn)為知識(shí)圖譜的覆蓋度過(guò)低，第二是已有的知識(shí)和表達(dá)無(wú)法對(duì)應(yīng)上。如果能提前預(yù)知用戶需求和圖譜應(yīng)用場(chǎng)合，對(duì)數(shù)據(jù)進(jìn)行精細(xì)化后，就能更好地應(yīng)用到場(chǎng)景中去。

未來(lái)之路

如果未來(lái)的智能機(jī)器擁有一個(gè)大腦，知識(shí)圖譜就是這個(gè)大腦中的知識(shí)庫(kù)，對(duì)于大數(shù)據(jù)智能具有重要意義，將對(duì)自然語(yǔ)言處理、信息檢索和人工智能等領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

現(xiàn)在以商業(yè)搜索引擎公司為首的互聯(lián)網(wǎng)巨頭已經(jīng)意識(shí)到知識(shí)圖譜的戰(zhàn)略意義，紛紛投入重兵布局知識(shí)圖譜，并對(duì)搜索引擎形態(tài)日益產(chǎn)生重要的影響。同時(shí)，我們也強(qiáng)烈地感受到，知識(shí)圖譜還處于發(fā)展初期，大多數(shù)商業(yè)知識(shí)圖譜的應(yīng)用場(chǎng)景非常有限。可以看到，在未來(lái)的一段時(shí)間內(nèi)，知識(shí)圖譜將是大數(shù)據(jù)智能的前沿研究問(wèn)題，有很多重要的開(kāi)放性問(wèn)題亟待學(xué)術(shù)界和產(chǎn)業(yè)界協(xié)力解決。

學(xué)術(shù)頭條已建立知識(shí)圖譜微信交流群，想進(jìn)群的同學(xué)請(qǐng)加學(xué)術(shù)君微信：AMiner308，記得備注：KG

贊賞

共11人贊賞