雷鋒網(wǎng)AI科技評(píng)論按:阿里知識(shí)圖譜每天保持千萬級(jí)別的攔截量,億級(jí)別的全量智能審核次數(shù),在濫發(fā)、侵權(quán)、合規(guī)、假貨、經(jīng)營(yíng)范圍等多個(gè)場(chǎng)景全面與問題賣家正面交鋒,實(shí)時(shí)對(duì)弈,最大限度地保護(hù)知識(shí)產(chǎn)權(quán),保護(hù)消費(fèi)者權(quán)益。 什么是知識(shí)圖譜? 在互聯(lián)網(wǎng)時(shí)代,搜索引擎是人們?cè)诰€獲取信息和知識(shí)的重要工具。當(dāng)用戶輸入一個(gè)查詢?cè)~,搜索引擎會(huì)反饋它認(rèn)為與這個(gè)關(guān)鍵詞最相關(guān)的網(wǎng)頁。 直到2012年5月,搜索引擎巨頭谷歌在它的搜索頁面中首次引入“知識(shí)圖譜”:用戶除了得到搜索網(wǎng)頁鏈接外,還將看到與查詢?cè)~有關(guān)的更加智能化的答案。 從雜亂的網(wǎng)頁到結(jié)構(gòu)化的實(shí)體知識(shí),搜索引擎利用知識(shí)圖譜能夠?yàn)橛脩籼峁└邨l理的信息,甚至順著知識(shí)圖譜可以探索更深入、廣泛和完整的知識(shí)體系,讓用戶發(fā)現(xiàn)他們意想不到的知識(shí)。谷歌高級(jí)副總裁艾米特·辛格博士一語道破知識(shí)圖譜的重要意義所在:“構(gòu)成這個(gè)世界的是實(shí)體(things),而非字符串(not strings)”。 阿里知識(shí)圖譜 阿里的主要業(yè)務(wù)是電商。它的知識(shí)圖譜以商品、標(biāo)準(zhǔn)產(chǎn)品、 標(biāo)準(zhǔn)品牌、 標(biāo)準(zhǔn)條碼、標(biāo)準(zhǔn)分類為核心, 利用實(shí)體識(shí)別、實(shí)體鏈指和語義分析技術(shù),整合關(guān)聯(lián)了例如輿情、百科、國(guó)家行業(yè)標(biāo)準(zhǔn)等9大類一級(jí)本體,包含了百億級(jí)別的三元組,形成了巨大的知識(shí)網(wǎng)。雷鋒網(wǎng)AI科技評(píng)論到,這些海量的數(shù)據(jù)來源于淘寶、天貓、1688、AliExpress等多個(gè)市場(chǎng),同時(shí)品牌商、行業(yè)運(yùn)營(yíng)、治理運(yùn)營(yíng)、消費(fèi)者、國(guó)家機(jī)構(gòu)、物流商等多種角色參與其中,貢獻(xiàn)著、校正著這樣一個(gè)龐大的商品庫。這個(gè)知識(shí)圖譜對(duì)無論是知識(shí)產(chǎn)權(quán)保護(hù),還是提升消費(fèi)者購物體驗(yàn),實(shí)現(xiàn)商品數(shù)據(jù)的標(biāo)準(zhǔn)化(商品規(guī)范的統(tǒng)一和商品信息的確定性), 以及與內(nèi)外部數(shù)據(jù)之間的深度互聯(lián),意義都非常重大。比如商品標(biāo)準(zhǔn)化可以讓我們知道哪些商品是同樣一件產(chǎn)品,我們才能確切地知道一個(gè)品牌是否被授權(quán),品牌下的產(chǎn)品賣到了哪些市場(chǎng)。 阿里知識(shí)圖譜運(yùn)用 阿里的商品知識(shí)圖譜廣泛地應(yīng)用于搜索、前端導(dǎo)購、平臺(tái)治理、智能問答、品牌商運(yùn)營(yíng)等核心、創(chuàng)新業(yè)務(wù)。其中最明顯的應(yīng)用之一體現(xiàn)在阿里電商平臺(tái)的管控上。過去只能通過人工“巡檢”來對(duì)商品發(fā)布進(jìn)行審核,而現(xiàn)在面對(duì)海量的商品發(fā)布量,“巡檢”模式顯然已不太現(xiàn)實(shí)。根據(jù)阿里技術(shù)的官方介紹,
根據(jù)阿里技術(shù)的介紹,為了最大限度地保護(hù)知識(shí)產(chǎn)權(quán),保護(hù)消費(fèi)者權(quán)益,阿里知識(shí)圖譜團(tuán)隊(duì)對(duì)知識(shí)圖譜推理引擎技術(shù)提出了智能化、自學(xué)習(xí)、毫秒級(jí)響應(yīng)、可解釋等更高的技術(shù)要求。 張偉 (花名:覽圖)博士, 阿里巴巴知識(shí)圖譜團(tuán)隊(duì)負(fù)責(zé)人 引入機(jī)器學(xué)習(xí)算法搭建推理引擎據(jù)了解,阿里知識(shí)圖譜研究團(tuán)隊(duì)設(shè)計(jì)了一套框架來實(shí)現(xiàn)知識(shí)表示和推理。此外:知識(shí)圖譜實(shí)體、關(guān)系、詞林(同義詞、上下位詞)、垂直知識(shí)圖譜(例如地理位置圖譜、材質(zhì)圖譜)、機(jī)器學(xué)習(xí)算法模型等都納入進(jìn)來做統(tǒng)一的描述。 按照不同場(chǎng)景把推理分為:上下位和等價(jià)推理;不一致性推理;知識(shí)發(fā)現(xiàn)推理;本體概念推理等。例如: 1. 上下位和等價(jià)推理。檢索父類時(shí),通過上下位推理把子類的對(duì)象召回,同時(shí)利用等價(jià)推理(實(shí)體的同義詞、變異詞、同款模型等),擴(kuò)大召回。 例如,為保護(hù)消費(fèi)者我們需要攔截 “產(chǎn)地為某核污染區(qū)域的食品”,推理引擎翻譯為 “找到產(chǎn)地為該區(qū)域,且屬性項(xiàng)與“產(chǎn)地”同義,屬性值是該區(qū)域下位實(shí)體的食品,以及與命中的食品是同款的食品”。 2.不一致推理。在與問題賣家對(duì)弈過程中,我們需要對(duì)商品標(biāo)題、屬性、圖片、商品資質(zhì)、賣家資質(zhì)中的品牌、材質(zhì)、成分等基礎(chǔ)信息,做一致性校驗(yàn)。比如說標(biāo)題中的品牌是Nike而屬性或者吊牌中品牌是Nake,如下圖所示,左邊描述了商品標(biāo)題、屬性、吊牌上的品牌信息是一致的,推理為一致。右邊為吊牌和商品品牌不一致的商品,被推理引擎判斷為有問題的商品。 3. 知識(shí)發(fā)現(xiàn)推理。一致性推理的目的是確保信息的確定性,例如通過一致性推理我們能確保數(shù)據(jù)覆蓋到的食品配料表正確。但消費(fèi)者購物時(shí)很少看配料表那些繁雜的數(shù)字。消費(fèi)者真正關(guān)心的是無糖、無鹽等強(qiáng)感知的知識(shí)點(diǎn)。為了提高消費(fèi)者購物體驗(yàn),知識(shí)發(fā)現(xiàn)推理通過底層配料表數(shù)據(jù)和國(guó)家行業(yè)標(biāo)準(zhǔn)例如:
可以把配料表數(shù)據(jù)轉(zhuǎn)化為“無糖”“無鹽”等知識(shí)點(diǎn)。從而真正地把數(shù)據(jù)變成了知識(shí)。通過AB test驗(yàn)證,類似知識(shí)點(diǎn)在前端導(dǎo)購中極大地改善了消費(fèi)者購物體驗(yàn)。 推理引擎背后技術(shù)框架首先,推理引擎把自然語言通過語義解析(semantic parsing)轉(zhuǎn)換為邏輯表達(dá)式(logical form)。語義解析采用了結(jié)合神經(jīng)網(wǎng)絡(luò)和符號(hào)邏輯執(zhí)行的方式:自然語言經(jīng)過句法、語法分析、 NER、 Entity Linking, 被編碼為分布式表示(distributed representation),句子的分布式表示被進(jìn)一步轉(zhuǎn)義為邏輯表達(dá)式。 在分布式表示轉(zhuǎn)換為邏輯表達(dá)式的過程中,首先面臨表示和謂詞邏輯(predicate)操作之間映射的問題。我們把謂詞當(dāng)做動(dòng)作,通過訓(xùn)練執(zhí)行symbolicoperation,類似neural programmer中利用attention機(jī)制選擇合適的操作,即選擇最有可能的謂詞操作,最后根據(jù)分析的句法等把謂詞操作拼接為可能的邏輯表達(dá)式,再把邏輯表達(dá)式轉(zhuǎn)換為查詢等。過程示意如下圖所示。 其次,邏輯表達(dá)式會(huì)觸發(fā)后續(xù)的邏輯推理和圖推理。邏輯表達(dá)式在設(shè)計(jì)過程中遵循以下幾個(gè)原則:邏輯表達(dá)式接近人的自然語言,同時(shí)便于機(jī)器和人的理解。表達(dá)能力滿足知識(shí)圖譜數(shù)據(jù)、知識(shí)表示的要求。應(yīng)該易于擴(kuò)展,能夠非常方便的增加新的類、實(shí)體和關(guān)系,能夠支持多種邏輯語言和體系,如Datalog、OWL等,即這些語言及其背后的算法模塊是可插拔的,通過可插拔的功能,推理引擎有能力描述不同的邏輯體系。 以上下位和等價(jià)推理為例:“產(chǎn)地為中國(guó)的食品” 用邏輯表達(dá)式描述為: ?x: 食物(x) ? (? y: 同義詞(y,產(chǎn)地)) (x, (? z: 包括下位實(shí)體(中國(guó), z))) 隨后找同款: ?t, x: ($ c:屬于產(chǎn)品(x, c) ?屬于產(chǎn)品(t, c)) 此外,推理引擎還用于知識(shí)庫自動(dòng)補(bǔ)全。是基于embedding做知識(shí)庫補(bǔ)全。主要思路是把知識(shí)庫中的結(jié)構(gòu)信息等加入embedding,考慮了Trans系列的特征,還包括邊、相鄰點(diǎn)、路徑、實(shí)體的文本描述 (如詳情)、圖片等特征,用于新關(guān)系的預(yù)測(cè)和補(bǔ)全。 雷鋒網(wǎng)AI科技評(píng)論小結(jié):以上就是關(guān)于阿里知識(shí)圖譜團(tuán)隊(duì)以及業(yè)務(wù)介紹。這個(gè)團(tuán)隊(duì)已成立三年,目前已經(jīng)形成了巨大的知識(shí)圖譜和海量的標(biāo)準(zhǔn)數(shù)據(jù),同時(shí)與浙江大學(xué)陳華鈞教授團(tuán)隊(duì)成立聯(lián)合項(xiàng)目組,引入了前沿的自然語言處理、知識(shí)表示和邏輯推理技術(shù)。通過NLP、語義推理和深度學(xué)習(xí)等技術(shù),阿里知識(shí)圖譜團(tuán)隊(duì)將會(huì)以更強(qiáng)大的技術(shù)體系保障消費(fèi)者的權(quán)益。 |
|