在社會網絡中,一個著名的理論是:最多通過六個人,你就能夠認識世界上的任何一個陌生人。如果把每個人看作實體,找出人與人之間的聯系,其中涉及的就是建設知識圖譜的技術。 通過知識圖譜的圖形化展示,可以很直觀地呈現人們錯綜復雜的社交關系。據說,這種技術曾經用于情報部門反恐,并取得了良好的效果。今天,知識圖譜已經從007的神秘技能演變?yōu)榻鹑诤诳萍肌_@項金融黑科技真正應用的起點在2012年,谷歌公司將其引入搜索引擎,用于改善搜索體驗。簡單地說,就是通過對網頁信息的爬取和分析,找出不同種類信息的內在聯系,從“關系”的角度突破信息碎片化壁壘,提供包含關聯關系的搜索結果。 值得注意的是,金融領域由于對數據強烈的依賴性,被認為是人工智能最適合落地的領域之一。海量的數據為人們更好地掌握與認知事物規(guī)律,提供了越來越豐富的來源。 但是,由于非結構化數據的急劇增長,對數據的分析與理解的要求已經遠遠超過人類的生理極限,這對我們的分析手段提出了新的要求與挑戰(zhàn)。傳統(tǒng)的數據儲存方式將數據分門別類的存放,已經很難適應現實瞬息萬變的市場行情,無法滿足金融分析的實時性和全局性的要求。 金融知識圖譜是金融行業(yè)語義理解和知識搜索的關鍵性基礎技術,可以為輿情監(jiān)控、知識發(fā)現和推理決策等提供技術支撐。因此,越來越多的金融機構及企業(yè)在探索構建金融領域的知識圖譜研究,將海量非結構化信息自動化利用起來,為金融領域應用決策提供更精準可靠的依據。下面,我們做個詳細介紹。 什么是知識圖譜? 知識圖譜本質上是一種語義網絡,是基于圖的數據結構,以圖的方式存儲知識并向用戶返回經過加工和推理的知識。它由“節(jié)點”和“邊”組成,節(jié)點表示現實世界中的“實體”,邊表示實體之間的“關系”。 一般來說,知識圖譜分為通用知識圖譜和領域知識圖譜。其中,通用知識圖譜主要由各大搜索引擎公司研究,以提高搜索準確率,爭取直接給出目標答案;而領域知識圖譜可根據領域特定的情況,提供各種針對性的應用。 具體到金融領域,因為涉及到各行各業(yè),包含了經濟、產業(yè)、公司等眾多方面的知識,所以金融知識圖譜相對于其他領域比較特別。具體來說,金融知識圖譜常見的實體包括:公司、產品、證券和人員等。實體間的關系包括:股權關系、任職關系、擔保關系、供應商關系、競爭對手關系、生產關系、采購關系和上下游關系等(參見下圖)。其中,有些實體和關系,可以自動抽取生成,如股權關系和任職關系等,均可在工商局注冊登記平臺得到公開信息。而產品間的上下游關系則需要有系統(tǒng)性的數據源,這就給信息獲取和識別帶來了巨大的挑戰(zhàn)。 知識圖譜有什么特點? 知識圖譜可以最有效、最直觀地表達出實體間的關系。簡單地說,就是把大量不同種類的信息連接在一起而得到一個關系網絡,為人們提供了從“關系”的角度分析問題的能力。 相對于傳統(tǒng)的描述方式,知識圖譜具有一些自身的特點:
假設我們用知識圖譜來描述一個事實:“李四是張三的朋友”。這里的實體是張三和李四,關系是“朋友”。當然,張三和李四也可能會跟其他人存在著某種類型的關系(如王五)。如果把電話號碼也作為節(jié)點加入到知識圖譜(電話號碼也是實體),人和電話之間也可以產生一種關系,即某個電話號碼是屬于某人。 由此可見,知識圖譜是基于圖的數據結構,它的存儲方式主要有兩種形式:圖數據庫和RDF存儲格式。在此,可以使用專業(yè)的工具進行相關的工作。比如,neo4j在整個圖存儲領域里占據著重要的地位,在RDF領域里Jena是目前最為流行的存儲框架。 當然,如果需要描述的實體維度較少,而且查詢時僅僅需要知道實體間簡單的關聯關系,那么使用傳統(tǒng)的關系型數據庫即可滿足要求。但是對于復雜的關系網絡,知識圖譜的優(yōu)點非常顯著。首先,在關聯查詢的效率上,比傳統(tǒng)的存儲方式有顯著的提高,查詢效率甚至會高出幾千倍甚至幾百萬倍。其次,基于圖的存儲在設計上比關系型數據庫靈活,比如新的數據源只需在已有的圖譜上插入即可。 用知識圖譜可以做什么? 目前,知識圖譜的應用在國內還處于初始階段,但已經在金融、醫(yī)療和電商等行業(yè)得到了廣泛的探索。特別在金融行業(yè)中,知識圖譜是一個重要的反欺詐手段。例如,基于大數據的分析把不同來源的各類數據整合在一起,有效地識別出團體欺詐、身份造假、代辦包裝等欺詐行為。此外,還可應用于行業(yè)風險預測、對客戶的精準營銷以及可視化展示等一些典型的領域。相信隨著研究的深入,還會有越來越多的應用場景被發(fā)掘出來。下面,我們對已有應用場景做一個詳細介紹。 (1)風控反欺詐 反欺詐是風控中非常重要的一道環(huán)節(jié),也是知識圖譜適合應用的場景。反欺詐的核心是人,這就要求把與借款人相關的數據源打通,然后抽取該借款人的特征標簽,從而將相關的信息整合成結構化的知識圖譜。其中,不僅可以處理記錄借款人的基本信息,還可以把借款人日常生活中的消費記錄、行為記錄、關系信息、網上瀏覽記錄等整合到知識圖譜里。在此基礎上,對該借款人的借貸風險進行分析和評估。 反欺詐的應用不僅體現在貸前階段,還可以應用在貸中階段,通過構建已知的主要欺詐要素(如手機、設備、賬號和地域等)的關系圖譜,全方位了解借款人風險數據的統(tǒng)計分析,對潛在的欺詐行為作出及時的反應。當然,這要求能夠獲得借款人全方位的各種類型的信息,并且利用機器學習和自然語言處理技術從數據中提取出符合圖譜規(guī)格的數據。 相比虛假身份的識別,組團欺詐的發(fā)現難度更大。一般來說,團體欺詐往往隱藏在非常復雜的關系網絡里,很難識別。只有把其中隱含的關系網絡梳理清楚,才有可能去分析出其中潛在的風險。知識圖譜,因為天生用來描述關系網絡,因而具備了分析組團欺詐的便捷手段。 (2)風險預測 基于多維度的數據,從而建立起客戶、企業(yè)和行業(yè)間的知識圖譜,從行業(yè)關聯的角度預測行業(yè)或企業(yè)面臨的風險。例如,通過對行業(yè)進行細分,根據貸款信息、行業(yè)信息建立行業(yè)間的關系模型;通過機器學習,可發(fā)現各個行業(yè)間的關聯度,如果某一行業(yè)發(fā)生了行業(yè)風險或高風險事件,根據關聯關系可以及時預測有潛在風險的其他行業(yè)。從而可以幫助金融機構做出預判,盡早地規(guī)避風險。 除此以外,通過知識圖譜,也可以將行業(yè)和企業(yè)之間數據進行連接,借助對行業(yè)的潛在風險的預測,能夠及時發(fā)現與該行業(yè)風險或系統(tǒng)性風險相關聯的企業(yè)客戶。例如,某地區(qū)某行業(yè)連續(xù)出現了多筆逾期貸款,通過對行業(yè)和客戶的知識圖譜進行分析,可以及時發(fā)現該地區(qū)相關行業(yè)存在潛在風險的客戶。 (3)精準營銷 優(yōu)秀的企業(yè)可以比競爭對手更有效地挖掘潛在客戶,其中起關鍵作用的是分析用戶和理解用戶。知識圖譜綜合了多個數據源,挖掘出實體之間的關系,從而對用戶的行為有更好的理解,能更好、更深入地理解用戶的需求,挖掘已有客戶的潛在需求,針對性地推送相關產品,更好地為客戶提供營銷服務。比如,市場經理可以用知識圖譜來分析用戶之間的關系,發(fā)現共同的喜好,從而有針對性的對某一類人群制定營銷策略;如果對知識圖譜擴展(如增加車輛信息、個人愛好、行為等),可以更加精準地分析客戶行為,進行精準推送。 同樣,挖掘潛在客戶也是金融行業(yè)重點關注的工作。如果能夠通過全方位的數據,精準、迅速地找到相關業(yè)務的潛在客戶,對于提升銀行的業(yè)務會有很大的幫助?;阢y行客戶建立社交網絡知識圖譜,根據各種社交行為(如交往方式、頻次等)發(fā)現圖譜的關系模型,對客戶社交網中的相關主體(如親屬、朋友、同事、同學、陌生人等)進行挖掘,評估關系緊密度。 以上的業(yè)務不僅可以針對個人客戶,還可以針對企業(yè)級客戶。例如,分析企業(yè)客戶的資金關系、法人關系、上下游投資關系、相似企業(yè)業(yè)務關系等,為企業(yè)推薦合適產品、服務。 (4)智能搜索和可視化 基于知識圖譜,我們也可以提供智能搜索和數據可視化服務。智能搜索的功能指的是,知識圖譜能夠在語義上擴展用戶的搜索關鍵詞,從而返回更豐富、更全面的信息。比如,搜索某個人的身份證號,可以返回與這個人相關的所有歷史借款記錄、聯系人關系和其他相關的標簽(如黑名單等)。這些結果可以用圖形網絡的方式展示,從而把復雜的信息以直觀明了的圖像呈現出來,讓使用者對隱藏信息的來龍去脈一目了然。 如何建設企業(yè)應用的知識圖譜? 如果想要針對特定行業(yè)或企業(yè)建立知識圖譜,首先,需要分析行業(yè)特點,創(chuàng)建統(tǒng)一的數據模型和視圖;然后,要對收集的各類行業(yè)數據進行整合,并通過關聯計算找出數據間的關系,再使用圖數據庫保存及展示;最后,建立業(yè)務模型對數據進行機器學習,挖掘有價值的信息支撐業(yè)務場景。 具體到金融行業(yè),建立知識圖譜通常要經歷三個主要步驟:
先來看第一個步驟:實體的識別是從文本中抽取出特定的實體信息,如時間、人物、地點、公司、產品等等,由此確定了知識圖譜中的點。 再來看第二個步驟:關系的識別則是指實體間的各種關系,如地理位置關系、雇傭關系、股權關系等等,這些關系確定了點與點之間的邊。需要說明的是,常用的抽取關系的方法有基于專家知識庫和基于機器學習等類型。其中,基于專家知識庫的方法是由行業(yè)專家構筑大規(guī)模的領域知識庫,需要專家參與,一般耗時費力,但是質量相對比較可靠;機器學習的方法需要構造特征向量形式的訓練數據,使用機器學習算法自動構造。需要特別指出的是,對于非結構化文本,實體識別和關系抽取需要基于自然語言處理算法,以及深度學習算法(例如,用詞向量的方式尋找近義詞,提高實體模糊識別的準確度),這是一個反復迭代、不斷精進的過程。 最后來看第三個步驟:推理能力是人類智能的重要特征,是由一個或幾個已知的前提推出結論的過程,也可以從已有的知識中發(fā)現隱含的知識。在推理的過程中,往往需要一些規(guī)則的支持,例如:從“某人甲”既是“企業(yè)A”的法人也是“企業(yè)B”的法人,可以推測出“企業(yè)A”和“企業(yè)B”之間的關聯關系。當然,這里會涉及到概率的問題。當信息量特別多的時候,如何把這些信息有效地與推理算法結合在一起是最關鍵、最有挑戰(zhàn)性的工作。常用的推理算法包括基于邏輯和基于分布式表示的方法。隨著深度學習在人工智能領域取得的突破,基于分布式表示的方法已成為目前研究的熱點。 此外,金融知識圖譜還包含了很多其他的形式,例如:A股的公司、港股和美股的公司,各種基本面的數據、行情的數據都在逐漸的知識圖譜化,還有公告數據、研報數據、以及工商數據等都是金融知識圖譜的分支。 知識圖譜應用面臨哪些困難? 知識圖譜在工業(yè)界還沒有形成大規(guī)模的應用,很多仍處于調研階段,主要原因在于很多企業(yè)對知識圖譜并不了解,或者理解不深。但從目前的趨勢可以預測,知識圖譜在未來幾年內必將成為工業(yè)界的熱門工具。當然,知識圖譜在實際應用中仍然將面對很多的挑戰(zhàn)。 (1)數據的可訪問性。數據處理的最大煩惱常常是無法得到數據。由于種種原因,數據往往無法得到充分的公開,被封閉在數據孤島上;或者僅僅被用書面的方式保存,無法用電子形式讀取處理,可訪問性不好。提高可訪問性的主要手段是把數據電子化和網絡化,可以方便地通過網絡鏈接和訪問。其中涉及的技術有:網絡爬蟲、PDF格式轉文本、圖片中的字符識別和文本清理等。最后,使用大家廣泛接受的傳輸協(xié)議,提供不同平臺間的兼容。 (2)數據的可發(fā)現性。原始數據中往往存在很多的噪聲,例如,數據本身在收錄時有錯誤,必須被糾正;再如,數據會有冗余,同一家公司的名稱可能會有全名、縮寫名等形式,處理時被當作不同的公司對待等。這些都會對后繼的數據處理造成干擾,降低數據的可發(fā)現性。 (3)數據的深層關系。因為海量的數據已經遠遠超出人類的處理能力,依靠人力無法發(fā)現在數據中隱藏的眾多關系。人類也許能從數據中最多找出幾百個維度,但是機器使用自然語言處理的技術可以識別成千上萬個維度,特別是關系抽取。此外,各種推理的方法也非常重要,通過推理規(guī)則可以發(fā)現隱藏得很深的聯系。 (4)領域知識的集成。金融涉及多個行業(yè),可以分為上百個領域,這些領域都多少需要集成領域的專業(yè)知識。不管是投資還是制造,其中的主要概念、產品分類、市場競爭情況等都需要通過行業(yè)專家收集整理,并反映到領域知識庫中。其中需要的主要技術為:文檔篇章分割、中文分詞、實體提取及消歧、關系提取、規(guī)則庫建設等。金融領域中的征信、融資、資管、二級市場交易等都有具體的業(yè)務場景,都需要業(yè)務邏輯,這些邏輯在數據之上表現為模型,需要在基礎數據和領域知識的基礎上實現。 (5)策略的生成。現有階段,機器在業(yè)務場景中還無法完全替代人類的作用,而是輔助人類作出價值判斷、風險判斷,通過過往的案例或者既定的邏輯,為人類推薦可行的策略。在此,涉及到人工智能的方方面面:對用戶交互而言,有意圖理解、語言生成、用戶畫像匹配等;在業(yè)務層面,有邏輯生成、投資模型、風險模型等;涉及的數據處理有規(guī)則提取、知識庫建設,語義檢索、邏輯推理等。 最后,我們必須看到,金融和所有其他領域一樣,正在逐漸被人工智能滲透,人類將會越來越多地依靠機器的幫助,更加科學地決策。今天的金融輔助工具已經可以提供大量的幫助,讓投資人更容易地獲得數據和分析層面的支持,大大提高工作的效率。而在整個技術鏈中,知識圖譜居于核心地位,這是自金融報表電子化以來又一次質的飛躍。知識圖譜是金融數據分析從簡單的量化模型走向更為復雜的價值判斷和風險評估必經的一環(huán),把經驗逐步變成可重用、可演化、可驗證、可傳播的知識模型,從而實現數據到智能的升華。 |
|