小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

論文推薦 | 蔣秉川:多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識(shí)圖譜構(gòu)建

 沐沐閱覽室 2018-09-06

《測(cè)繪學(xué)報(bào)》

構(gòu)建與學(xué)術(shù)的橋梁        拉近與權(quán)威的距離

多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識(shí)圖譜構(gòu)建

蔣秉川1,2 , 萬(wàn)剛2 , 許劍1,3,4 , 李鋒2 , 溫薈琦2     

1. 地理信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710054; 
2. 信息工程大學(xué)地理空間信息學(xué)院, 河南 鄭州 450001; 
3. 清華大學(xué)建筑學(xué)院, 北京 100084; 
4. 西安測(cè)繪研究所, 陜西 西安 710054

收稿日期:2018-03-16;修回日期:2018-05-07

基金項(xiàng)目:國(guó)防科技基金(3601023;3601020);河南省科技攻關(guān)計(jì)劃(182102210147);地理信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室開放研究基金(SKLGIE2017-M-4-3);信息工程大學(xué)校新興科研方向培育基金(210502020)

第一作者簡(jiǎn)介:蔣秉川(1984-), 男, 博士, 講師, 研究方向?yàn)闀r(shí)空大數(shù)據(jù)分析與地理知識(shí)圖譜。E-mail:jbc021@163.com

摘要:虛擬地理環(huán)境作為新一代的地理語(yǔ)言,需要通過對(duì)多源異構(gòu)時(shí)空數(shù)據(jù)的分析與挖掘,構(gòu)建虛擬地理環(huán)境知識(shí)工程,實(shí)現(xiàn)“數(shù)據(jù)—信息—知識(shí)—智慧”的轉(zhuǎn)化,促進(jìn)智能虛擬地理環(huán)境系統(tǒng)中地理知識(shí)的快速轉(zhuǎn)換和融合,從而為虛擬地理環(huán)境中地理信息的智能化處理、地理知識(shí)的智慧化服務(wù)提供支撐。知識(shí)圖譜是人工智能與虛擬地理環(huán)境知識(shí)工程相結(jié)合的橋梁。本文系統(tǒng)評(píng)述了知識(shí)圖譜、地理知識(shí)圖譜的研究現(xiàn)狀,提出了地理知識(shí)圖譜的構(gòu)建流程,重點(diǎn)研究了地理知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù),討論和闡述了地理知識(shí)圖譜的應(yīng)用方向。本文的研究將有助于實(shí)現(xiàn)地理信息的知識(shí)化,提高虛擬地理環(huán)境系統(tǒng)的智能化服務(wù)水平。

關(guān)鍵詞:虛擬地理環(huán)境    地理知識(shí)    知識(shí)圖譜    地理知識(shí)圖譜    

Geographic Knowledge Graph Building Extracted from Multi-sourced Heterogeneous Data

JIANG Bingchuan1,2 , WAN Gang2 , XU Jian1,3,4 , LI Feng2 , WEN Huiqi2     

Abstract: As a new generation of geographic language, virtual geographic environments(VGE) needs to construct the virtual geographic knowledge engineering through the analysis and excavation of multi-sourced heterogeneous spatio-temporal data.Through the transformation about 'data-information-knowledge-wisdom', it can promote the rapid conversion and integration of geographic knowledge for intelligent VGE system, which may provide a theoretical and technical support for intelligent processing of geographic information and intelligent service of geographic knowledge.Knowledge graph plays the role of a bridge between artificial intelligence and knowledge engineering for VGE system.This paper firstly reviewed the research status in knowledge graph and geographic knowledge graph from the domestic and abroad perspectives.Then, the construction process of geographic knowledge graph is proposed.Furthermore, the key technologies of geographic knowledge graph are discussed in depth.Finally, the application direction of geographic knowledge graph is discussed and stated.The study of geographic knowledge graph in this paper may help to realize the knowledgization of geographic information and promote the intelligent service level for VGE system.

Key wordsvirtual geographic environments     geographic knowledge     knowledge graph     geographic knowledge graph    

當(dāng)前地理科學(xué)數(shù)據(jù)豐富但知識(shí)匱乏,而智能化虛擬地理環(huán)境需要構(gòu)建VGE知識(shí)工程[1],智慧城市的建設(shè)也需要構(gòu)建地理知識(shí)基礎(chǔ)設(shè)施[2](geographic knowledge infrastructure),地理信息服務(wù)必須實(shí)現(xiàn)從“數(shù)據(jù)—信息—知識(shí)—智慧”的智能化轉(zhuǎn)化,構(gòu)建面向大眾的地理空間知識(shí)服務(wù)體系[3-4]。

虛擬地理環(huán)境作為新一代的地理語(yǔ)言,改變了傳統(tǒng)的地理科學(xué)知識(shí)的表達(dá)與獲取方式,加速了地理數(shù)據(jù)、信息到知識(shí)的轉(zhuǎn)換,是協(xié)助人類認(rèn)識(shí)地理世界和解決地理問題的新型地理分析工具[5-6]。VGE知識(shí)工程是基于知識(shí)的智能虛擬地理環(huán)境系統(tǒng)的支撐理論、方法和技術(shù)體系, 其關(guān)鍵問題是地理知識(shí)的表達(dá)與建模、知識(shí)庫(kù)的構(gòu)建和管理、地理知識(shí)的智慧化服務(wù)[1]。將人工智能與地理空間信息領(lǐng)域相結(jié)合,是解決虛擬地理環(huán)境智能化的重要手段。

地理空間知識(shí)的存儲(chǔ)、共享和分類是虛擬地理環(huán)境系統(tǒng)通向智能服務(wù)的重要知識(shí)庫(kù)支撐。在大數(shù)據(jù)、人工智能等技術(shù)的推動(dòng)下,需要利用高性能計(jì)算、云計(jì)算、大數(shù)據(jù)可視分析、知識(shí)圖譜等技術(shù)體系,實(shí)現(xiàn)對(duì)多源異構(gòu)時(shí)空數(shù)據(jù)的分析與挖掘,從地理數(shù)據(jù)到地理知識(shí)的轉(zhuǎn)變,為虛擬地理環(huán)境的智能化提供技術(shù)支撐。在人工智能領(lǐng)域,知識(shí)圖譜、知識(shí)表示、知識(shí)鏈接等技術(shù)逐漸成為機(jī)器人認(rèn)知的重要手段,在智能搜索、機(jī)器翻譯、機(jī)器理解、自然語(yǔ)言問答等領(lǐng)域得到了廣泛應(yīng)用。知識(shí)圖譜核心是構(gòu)建相關(guān)領(lǐng)域的語(yǔ)義知識(shí)網(wǎng)絡(luò),對(duì)VGE知識(shí)的表達(dá)與建模、VGE知識(shí)庫(kù)的構(gòu)建和管理、VGE知識(shí)的可視化方法具有廣泛的借鑒意義。

本文將知識(shí)圖譜技術(shù)與地理知識(shí)工程相結(jié)合,提出基于多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識(shí)圖譜的構(gòu)建,目的是建立大規(guī)模的地理知識(shí)庫(kù),用于融合語(yǔ)義關(guān)系和空間關(guān)系的地理智能搜索和地理知識(shí)自然語(yǔ)言智能問答,最終為智能虛擬地理環(huán)境系統(tǒng)的構(gòu)建提供技術(shù)支撐。論文首先評(píng)述了知識(shí)圖譜及地理知識(shí)圖譜的研究現(xiàn)狀;然后,提出了地理知識(shí)圖譜構(gòu)建的技術(shù)體系和流程,探討了地理知識(shí)圖譜與其他領(lǐng)域知識(shí)圖譜的區(qū)別和聯(lián)系;最后,討論和闡述了地理知識(shí)圖譜的應(yīng)用方向。

1 國(guó)內(nèi)外研究綜述1.1 知識(shí)圖譜

知識(shí)圖譜是人工智能領(lǐng)域的分支,是大數(shù)據(jù)時(shí)代知識(shí)表示最重要的一種方式。本質(zhì)上是由具有屬性的實(shí)體通過關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫(kù),即具有有向圖結(jié)構(gòu)的一個(gè)知識(shí)庫(kù),其中圖的節(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),而圖的邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系[7]。

知識(shí)圖譜的概念起源于20世紀(jì)50年代末60年代初提出的語(yǔ)義網(wǎng)絡(luò)(semantic net)[8],知識(shí)圖譜的發(fā)展在相關(guān)文獻(xiàn)中都有了深入的闡述[7-9]。從20世紀(jì)70年代出現(xiàn)的“專家系統(tǒng)(expert system)”,70年代中后期利用哲學(xué)領(lǐng)域的本體論創(chuàng)建計(jì)算機(jī)模型,到萬(wàn)維網(wǎng)之父Berners-Lee提出的“語(yǔ)義網(wǎng)(semantic web)”[10]和“鏈接數(shù)據(jù)(linked data)”[11],都是“知識(shí)圖譜”的前身。當(dāng)前,開放域知識(shí)圖譜比較有代表性的有:DBpedia[12]、YAGO[13]、Probase[14]、BableNet[15]等,國(guó)內(nèi)的有Zhishi.me[16]、CN-DBpedia[17],見表 1。知識(shí)圖譜具有規(guī)模大、語(yǔ)義豐富、質(zhì)量高和結(jié)構(gòu)友好等特點(diǎn)。

表 1 主要開放知識(shí)圖譜的實(shí)體及關(guān)系數(shù)量Tab. 1 The number of entities and relations of open KG

知識(shí)圖譜實(shí)體/概念數(shù)量關(guān)系數(shù)量
YAGO10 Million120 Million
DBpedia28 Million9.5 Billion
Probase2.7 Million70 Billion
BableNet14 Million5 Billion

表選項(xiàng)


1.2 地理知識(shí)圖譜

對(duì)地理知識(shí)的認(rèn)識(shí),不同的學(xué)者有不同的看法,大致可以分為3類:

(1) 地理知識(shí)的專業(yè)性認(rèn)識(shí)。地理知識(shí)包括大量的地理概念、地理現(xiàn)象的描述,是關(guān)于地理時(shí)空問題的認(rèn)知、理解與規(guī)律表達(dá)[18],是高層次的地理信息[19]。

(2) 地理知識(shí)的泛在化認(rèn)識(shí)。由于泛在地理信息獲取渠道的不斷拓展,認(rèn)為地理知識(shí)是描述地球系統(tǒng)中自然和人文環(huán)境的信息[20],互聯(lián)網(wǎng)中隱含了大量的地理知識(shí)[21],是廣義GIS的知識(shí)支撐[22]

(3) 地理知識(shí)的綜合性認(rèn)識(shí)。從地理知識(shí)共享角度,按照不同的分類方法,將地理知識(shí)進(jìn)行了系統(tǒng)性的分類。代表性的有:文獻(xiàn)[3]將虛擬地理環(huán)境地理知識(shí)劃分為事實(shí)型知識(shí)、規(guī)則及控制型知識(shí)和決策型知識(shí)3個(gè)層次。文獻(xiàn)[1]認(rèn)為地理知識(shí)基礎(chǔ)(geographic knowledge base,GKB)包括地理實(shí)體(geographic objects)、地理結(jié)構(gòu)(geographic structures)、地理關(guān)系(geographic relations)、地理規(guī)則(geographic Rules)、地理本體(geographic ontology)、地名詞典(gazetteer)、物理數(shù)學(xué)模型(physico-mathematical models)和外部知識(shí)(external knowledge)。

與地理知識(shí)圖譜字面較為相近的概念是陳述彭和廖克等提出的地學(xué)信息圖譜。文獻(xiàn)[23]認(rèn)為地學(xué)信息圖譜是應(yīng)用地學(xué)分析的系列多維圖解來(lái)描述現(xiàn)狀,并通過建立時(shí)空模型來(lái)重建過去和虛擬未來(lái)。文獻(xiàn)[24]認(rèn)為其是一種空間圖形譜系,經(jīng)過空間模型與地學(xué)認(rèn)知的深入分析,可進(jìn)行推理、反演與預(yù)測(cè),形成對(duì)事物和現(xiàn)象更深層次的認(rèn)識(shí)。由此可見,地學(xué)信息圖譜是一種時(shí)空分析方法,是譜系(spectrum)的概念。地理知識(shí)圖譜(geographic knowledge graph)是地理知識(shí)工程的一種知識(shí)表示,是網(wǎng)絡(luò)圖(graph)的概念。二者有著本質(zhì)的不同。地理知識(shí)圖譜的研究,主要是作為開放語(yǔ)義網(wǎng)的一個(gè)子集出現(xiàn)的,代表性的成果有:GeoNames Ontology,LinkedGeoData,GeoWorldNet等[25]。針對(duì)地理知識(shí)圖譜構(gòu)建的相關(guān)技術(shù)研究,主要有地理實(shí)體抽取[26-27]、拓?fù)浜头轿魂P(guān)系的抽取[28-29]和地理知識(shí)圖譜存儲(chǔ)[30-32]等。在地理知識(shí)圖譜應(yīng)用方面,典型的有地理知識(shí)語(yǔ)義共享網(wǎng)絡(luò)系統(tǒng)[33](Geo-Wiki)和基于地理知識(shí)的地名詞典[34](KIDGS)。

圖 1所示,地理知識(shí)圖譜的核心是建立地理知識(shí)庫(kù),在其基礎(chǔ)上形成地理知識(shí)語(yǔ)義網(wǎng),然后通過語(yǔ)義模型,實(shí)現(xiàn)地理知識(shí)的語(yǔ)義搜索、地理知識(shí)推薦、關(guān)聯(lián)分析等功能,從而具備對(duì)地理、空間上分散的人、環(huán)境、事件等進(jìn)行大規(guī)模實(shí)時(shí)關(guān)聯(lián)和因果分析的能力。

圖 1 地理知識(shí)圖譜概念圖Fig. 1 Concept map of geographic knowledge graph

圖選項(xiàng)


2 地理知識(shí)圖譜構(gòu)建2.1 地理知識(shí)圖譜的內(nèi)涵

地理知識(shí)圖譜是知識(shí)圖譜在地理學(xué)的拓展,是結(jié)構(gòu)化的地理語(yǔ)義知識(shí)庫(kù),通過形式化地描述地理學(xué)領(lǐng)域的概念、實(shí)體、屬性及其相互關(guān)系,使得概念、實(shí)體間相互聯(lián)結(jié),構(gòu)成網(wǎng)狀知識(shí)結(jié)構(gòu)。

地理知識(shí)可采用資源描述框架(resource description framework,RDF)表示為三元組形式,即“〈s(主語(yǔ)),p(謂語(yǔ)),o(賓語(yǔ))〉”,形成由“點(diǎn)—邊”組成的大規(guī)模有向圖,如圖 2所示。其中點(diǎn)表示地理概念、地理實(shí)體及屬性值,邊表示概念與概念之間的關(guān)系、概念與實(shí)體的關(guān)系、實(shí)體與實(shí)體之間的關(guān)系、實(shí)體與屬性的關(guān)系、屬性與屬性值的關(guān)系。

圖 2 地理知識(shí)圖譜數(shù)據(jù)層構(gòu)建流程Fig. 2 Flowchart of knowledge graph data layer building

圖選項(xiàng)


舉例說明,如圖 3所示,實(shí)體與概念的關(guān)系:〈中國(guó),屬于,國(guó)家〉;實(shí)體與實(shí)體之間的關(guān)系:〈中國(guó),首都,北京〉;實(shí)體與屬性的關(guān)系:〈北京,人口,2 069.3萬(wàn)〉。

圖 3 地理知識(shí)圖譜示例Fig. 3 Example of geographic knowledge graph

圖選項(xiàng)


2.2 地理知識(shí)圖譜的特點(diǎn)

地理知識(shí)圖譜不單單是一個(gè)“增強(qiáng)型”的開放域知識(shí)圖譜,而是需要針對(duì)地理知識(shí)自身的特點(diǎn),對(duì)知識(shí)的概念、實(shí)體和關(guān)系進(jìn)行拓展,具有以下特點(diǎn):

(1) 地理知識(shí)圖譜的構(gòu)建是一項(xiàng)地理知識(shí)工程。地理知識(shí)圖譜的構(gòu)建是對(duì)地理知識(shí)的形式化表達(dá)的基礎(chǔ)上,實(shí)現(xiàn)對(duì)地理知識(shí)抽取、融合、眾包、表示、推理、鏈接、問答、語(yǔ)義搜索和可視化等,是一個(gè)系列的地理知識(shí)工程。

(2) 地理知識(shí)圖譜描述的關(guān)系包括語(yǔ)義關(guān)系、空間關(guān)系和時(shí)間關(guān)系。開放域知識(shí)圖譜描述的關(guān)系主要是實(shí)體之間的語(yǔ)義關(guān)系,地理知識(shí)圖譜除了描述語(yǔ)義關(guān)系外,還需要考慮空間關(guān)系和時(shí)間關(guān)系的描述。如何建立地理時(shí)空關(guān)系和自然語(yǔ)言空間關(guān)系的映射,是地理知識(shí)圖譜構(gòu)建的核心關(guān)鍵問題。

(3) 地理知識(shí)圖譜需要描述事實(shí)型知識(shí)和過程型知識(shí)。事實(shí)型知識(shí)主要指已經(jīng)得到地理學(xué)家或人們認(rèn)可的地理術(shù)語(yǔ)、地理名詞、地理分布、地理數(shù)據(jù)等反映地理事物外部特征和聯(lián)系的知識(shí),屬于“輕量型”知識(shí)。過程型知識(shí)是指描述地理演變規(guī)律、地理預(yù)測(cè)規(guī)律等地理時(shí)空變換的地理模型,屬于專業(yè)性較強(qiáng)的知識(shí)。知識(shí)圖譜技術(shù)能夠較好地描述、存儲(chǔ)和表示事實(shí)型知識(shí),并建立知識(shí)之間的聯(lián)系。對(duì)地理規(guī)則、地理模型等知識(shí)如何用圖譜技術(shù)建模與表示,也是需要研究的。

2.3 地理知識(shí)圖譜構(gòu)建技術(shù)體系

地理知識(shí)圖譜的構(gòu)建采用“自頂向下”的方法構(gòu)建,主要分為模式層和數(shù)據(jù)層構(gòu)建。模式層包括地理本體和概念,主要通過本體構(gòu)建方法實(shí)現(xiàn)地理本體概念分類體系的構(gòu)建。數(shù)據(jù)層包括地理實(shí)體和相關(guān)屬性,基于多源異構(gòu)地理信息數(shù)據(jù)實(shí)現(xiàn)地理知識(shí)抽取、知識(shí)融合和知識(shí)更新,構(gòu)建流程見圖 3


2.3.1 多源異構(gòu)數(shù)據(jù)的地理知識(shí)抽取

多源異構(gòu)地理實(shí)體抽取和關(guān)系建立包括地理知識(shí)抽取、關(guān)系鏈接、關(guān)系推理等過程。地理知識(shí)的來(lái)源包括地理本體庫(kù)、基礎(chǔ)地理信息數(shù)據(jù)、百科數(shù)據(jù)、微博客、微信、新聞網(wǎng)站、專題網(wǎng)站等,可從中提取地理概念、地理實(shí)體、地理屬性、語(yǔ)義關(guān)系、空間關(guān)系和時(shí)間關(guān)系。

地理概念主要源于地理本體的建立,如國(guó)家、城市、河流、草原等都是概念范疇,地理實(shí)體是概念的實(shí)例,含有具體的地理屬性,如中國(guó)、鄭州、黃河、呼倫貝爾大草原等都屬于地理實(shí)體。地理關(guān)系主要有語(yǔ)義關(guān)系和空間關(guān)系(圖 4)。語(yǔ)義關(guān)系包括“is-a關(guān)系”、等同關(guān)系、相似關(guān)系、互斥關(guān)系等[35]。is-a關(guān)系,既包括概念之間的父子關(guān)系(如“水系”與“河流”),也包括概念與實(shí)體(如“河流”與“黃河”)的實(shí)例關(guān)系;等同關(guān)系用來(lái)描述同級(jí)地理概念或?qū)嵗g的等價(jià)關(guān)系,如“黃河”與“母親河”;互斥關(guān)系用來(lái)描述同級(jí)地理概念之間及相同性質(zhì)實(shí)例之間的互斥關(guān)系,如“平原”與“山地”;相似關(guān)系用來(lái)描述意思上相近的同級(jí)地理概念或?qū)嵗?,如“第三世界”與“發(fā)展中國(guó)家”。

圖 4 地理關(guān)系分類[35]Fig. 4 Classification of geospatial relations[35]

圖選項(xiàng)


時(shí)間關(guān)系主要用于描述時(shí)變特征較為明顯的各類地理現(xiàn)象。對(duì)時(shí)間關(guān)系的形式化描述,大致可分為兩類:①地理事件、過程等地理實(shí)體之間的時(shí)變關(guān)系,如“人物→國(guó)家,人物→地點(diǎn)”等之間的關(guān)系[36]。非結(jié)構(gòu)化的地理事件主要通過新聞網(wǎng)站等網(wǎng)絡(luò)中獲取,如“2018年4月3日,普京訪問土耳其”,可對(duì)“普京—訪問—土耳其”三元組加入時(shí)間標(biāo)簽拓展為四元組,用于描述時(shí)間關(guān)系。②空間信息的時(shí)間屬性值變化??捎糜趫D譜實(shí)體和關(guān)系的更新,如城市地名、空間位置、可隨時(shí)間變化而變化,如“人行走在路上”,地點(diǎn)隨著時(shí)間不斷變化,則對(duì)人的位置屬性值(如經(jīng)緯度坐標(biāo))描述需要加入時(shí)間戳。

空間關(guān)系抽取的過程是GIS計(jì)算模型到自然語(yǔ)言空間關(guān)系的語(yǔ)義轉(zhuǎn)換[37],通過建立地理空間關(guān)系和自然語(yǔ)言描述對(duì)照詞典實(shí)現(xiàn)關(guān)聯(lián)[38],如表 2所示,拓?fù)湎嚯x關(guān)系和拓?fù)浒P(guān)系對(duì)應(yīng)方位詞,拓?fù)湎嘟魂P(guān)系對(duì)應(yīng)空間動(dòng)詞。不同的地圖要素需要建立不同的對(duì)照表,如橋和河流之間有“橫跨”動(dòng)作,道路和公園之間有“穿過”動(dòng)作等[39]。由計(jì)算機(jī)圖形學(xué)計(jì)算方法(如點(diǎn)與線、面的關(guān)系)判斷得到的空間關(guān)系類別,對(duì)應(yīng)的自然語(yǔ)言描述存在多個(gè)詞匯的情況,可根據(jù)地理實(shí)體的不同類別確定其常用的自然語(yǔ)言描述詞匯。舉例:線、面的相交關(guān)系對(duì)應(yīng)“相交、交叉、流經(jīng)、途徑……”等多種描述,根據(jù)水系、交通、居民地等不同要素類型,將河流與城市的相交關(guān)系定義為“流經(jīng)”,道路與城市的相交關(guān)系定義為“途徑”。如圖 5是通過地圖抽取出的城市、交通和河流之間的語(yǔ)義關(guān)系示例(部分)。

表 2 空間拓?fù)潢P(guān)系與自然語(yǔ)言描述對(duì)應(yīng)[37]Tab. 2 Spatial topological relations corresponding to natural language descriptions[37]

空間拓?fù)潢P(guān)系自然語(yǔ)言描述
相等相等、相當(dāng)、相同、相近、接近……
相交相交、交叉、順著、沿著、流經(jīng)、途徑……
穿越穿越、橫過、橫穿、劃分、橫越、橫斷、橫貫、穿過、經(jīng)過……
內(nèi)部內(nèi)部、里、內(nèi)、里面……
包含包含、圍繞、環(huán)繞……
相離旁路、近旁、旁邊、遠(yuǎn)處、附近……
重疊重疊、覆蓋、交迭……
相接鄰接、相鄰、連接、周圍……

表選項(xiàng)


圖 5 1:25萬(wàn)鄭州市地圖提取的地理實(shí)體語(yǔ)義關(guān)系(部分)Fig. 5 Semantic relationships of geographic entities extracted from 1:250 000 map of Zhengzhou

圖選項(xiàng)


多源異構(gòu)地理信息數(shù)據(jù)按存儲(chǔ)類型可分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。針對(duì)結(jié)構(gòu)化數(shù)據(jù)(如地圖、地名庫(kù)等),通過建立數(shù)據(jù)庫(kù)中概念與知識(shí)圖譜中本體的映射關(guān)系以及基于規(guī)則的推理,實(shí)現(xiàn)從數(shù)據(jù)庫(kù)中自動(dòng)抽取出地理實(shí)體、屬性及其關(guān)系。例如基于電子地圖和百科知識(shí)抽取地理實(shí)體,首先按照不同圖層設(shè)計(jì)不同的抽取規(guī)則,抽取實(shí)體類、屬性和屬性值,然后借助開放知識(shí)庫(kù)(如百度百科等)通過實(shí)體消歧、去重和屬性填充等操作豐富地理實(shí)體的屬性信息。

針對(duì)半結(jié)構(gòu)化數(shù)據(jù)(如百科數(shù)據(jù)等互聯(lián)網(wǎng)數(shù)據(jù)),由于互聯(lián)網(wǎng)網(wǎng)站主要通過模板方式構(gòu)建,可建立相應(yīng)的模板抽取器實(shí)現(xiàn)知識(shí)抽取。如圖 6所示,從百度百科、互動(dòng)百科和中文維基百科抽取的實(shí)體,主要抽取的是實(shí)體名、標(biāo)簽、基本描述、信息卡、擴(kuò)展鏈接、分類等信息,重點(diǎn)需要解決不同源數(shù)據(jù)的實(shí)體融合。

圖 6 多源非結(jié)構(gòu)化數(shù)據(jù)抽取Fig. 6 The example of geographic knowledge card

圖選項(xiàng)


針對(duì)非結(jié)構(gòu)化數(shù)據(jù)(如文本、微博微信等數(shù)據(jù)),主要利用已有的知識(shí)圖譜知識(shí),通過遠(yuǎn)程監(jiān)督的方式來(lái)構(gòu)建訓(xùn)練集,并利用深度學(xué)習(xí)的方法[40]學(xué)習(xí)出抽取器,利用抽取器來(lái)進(jìn)文本中的知識(shí)進(jìn)行抽取。


2.3.2 地理知識(shí)融合

由于地理知識(shí)的來(lái)源渠道眾多,必須進(jìn)行地理知識(shí)融合。地理知識(shí)融合是不同數(shù)據(jù)中不同標(biāo)識(shí)實(shí)體的語(yǔ)義理解,關(guān)聯(lián)到同一實(shí)體上,實(shí)現(xiàn)對(duì)同名、多名和縮寫等多種實(shí)體語(yǔ)義的消歧和共指消解(例如:“中國(guó)”、“中華人民共和國(guó)”等都是指同一個(gè)地理實(shí)體)。

地理知識(shí)的融合包括模式層(即概念層)和實(shí)體層的融合。概念層的融合主要是基于地理本體庫(kù)的地理本體知識(shí)擴(kuò)展。實(shí)體層的融合主要用到實(shí)體鏈接技術(shù),主要包括3個(gè)步驟[41]:①生成候選地理實(shí)體。通過地理實(shí)體指稱項(xiàng)從地理知識(shí)庫(kù)中選取候選地理實(shí)體,主要有基于名稱詞典、基于搜索引擎的方法。②候選實(shí)體排序。主要方法可分為兩類:一類是有監(jiān)督的排序方法,通過標(biāo)注訓(xùn)練數(shù)據(jù)集訓(xùn)練候選實(shí)體排序模型,包括二進(jìn)制分類方法,概率方法和基于圖的方法;另一類是無(wú)監(jiān)督的排序方法,基于無(wú)標(biāo)簽的語(yǔ)料庫(kù)進(jìn)行模型訓(xùn)練。包括向量空間模型(vector space model,VSM)[42]和信息檢索方法[43]。③無(wú)鏈接指稱項(xiàng)預(yù)測(cè)。當(dāng)?shù)乩碇R(shí)庫(kù)中沒有相關(guān)的候選實(shí)體選項(xiàng)時(shí),需要給出近似的實(shí)體。

實(shí)體鏈接技術(shù)按照不同的實(shí)體消歧方法可分為四種[7]。①基于概率生成模型方法:通過構(gòu)建候選實(shí)體與實(shí)體指稱項(xiàng)之間的概率模型[44],提高實(shí)體鏈接的效率。②基于主題模型的方法:訓(xùn)練數(shù)據(jù)集訓(xùn)練LDA主題模型,通過語(yǔ)義相似度實(shí)現(xiàn)實(shí)體消歧[45]。③基于圖的方法:建立基于圖的模型,實(shí)現(xiàn)目標(biāo)實(shí)體的選擇[46]。④基于神經(jīng)網(wǎng)絡(luò)的方法:主要是利用深度神經(jīng)網(wǎng)絡(luò)模型以監(jiān)督或半監(jiān)督的方式訓(xùn)練實(shí)體表示模型,依據(jù)語(yǔ)義相似度進(jìn)行排序[47]


2.3.3 地理知識(shí)推理

地理知識(shí)推理是指從地理知識(shí)庫(kù)中的地理實(shí)體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過計(jì)算機(jī)推理,建立地理實(shí)體間的新關(guān)聯(lián),從而拓展和豐富地理知識(shí)網(wǎng)絡(luò)[9]。地理知識(shí)推理包括概念(即本體)的推理、地理實(shí)體的推理和實(shí)體屬性值的推理等。地理本體推理,例如已知(河南,屬于,中國(guó))和(鄭州,屬于,河南),可以推出(鄭州,屬于,中國(guó))。地理實(shí)體推理,例如已知(乾隆,父親,雍正)和(雍正,父親,康熙),可以得到(乾隆,祖父,康熙)或(康熙,孫子,乾隆)。

知識(shí)推理可以粗略地分為基于符號(hào)的推理和基于統(tǒng)計(jì)的推理[7]?;诜?hào)的推理主要是利用相關(guān)規(guī)則,從已有實(shí)體關(guān)系推理出新的實(shí)體關(guān)系,并對(duì)知識(shí)圖譜進(jìn)行邏輯沖突檢測(cè)。基于統(tǒng)計(jì)的推理是利用機(jī)器學(xué)習(xí)方法,通過統(tǒng)計(jì)規(guī)律從知識(shí)圖譜中學(xué)習(xí)到新的實(shí)體間關(guān)系,主要包括實(shí)體關(guān)系學(xué)習(xí)方法、類型推理方法和模式歸納方法[7]。也可按解決方法分為:基于描述邏輯的推理[48]、基于規(guī)則挖掘的推理[49]、基于概率邏輯的推理和基于表示學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的推理。由于知識(shí)庫(kù)足夠大,知識(shí)網(wǎng)絡(luò)足夠豐富,可以從地理知識(shí)庫(kù)中推理出隱含的關(guān)系和知識(shí)。


2.3.4 地理知識(shí)的動(dòng)態(tài)感知與更新

地理知識(shí)并非一成不變的,多是隨著時(shí)間的變化而變化,在地理實(shí)體、關(guān)系和屬性值都會(huì)發(fā)生變化,需要建立地理知識(shí)庫(kù)的動(dòng)態(tài)感知與更新機(jī)制。地理知識(shí)庫(kù)的知識(shí)來(lái)源需建立不同的知識(shí)更新方法,可分為3種:

(1) 基于結(jié)構(gòu)化的地理信息數(shù)據(jù)文件更新。傳統(tǒng)的地理信息數(shù)據(jù)已經(jīng)有了一套較為完整的更新機(jī)制,地理知識(shí)庫(kù)需保持與地理信息數(shù)據(jù)的更新周期一致,完成知識(shí)的局部更新。

(2) 周期性更新。由于一些非結(jié)構(gòu)化的地理知識(shí)數(shù)據(jù),是從互聯(lián)網(wǎng)得到的,新聞?lì)悺n}類網(wǎng)站,可建立周期性更新機(jī)制,但這樣的更新方法花費(fèi)很大,效率較低。

(3) 基于新聞熱搜詞的更新方法。利用互聯(lián)網(wǎng)爬蟲系統(tǒng)實(shí)時(shí)監(jiān)控互聯(lián)網(wǎng)媒體,包括各類新聞網(wǎng)站、搜索關(guān)鍵字、微博等。從中識(shí)別出每日熱詞,根據(jù)熱詞進(jìn)行地理知識(shí)的更新。

3 地理知識(shí)圖譜應(yīng)用

按照應(yīng)用服務(wù)對(duì)象,地理知識(shí)圖譜的應(yīng)用可分為面向人的和面向智能平臺(tái)的應(yīng)用。面向人的應(yīng)用可使地理信息服務(wù)輕量化、大眾化,通過智能語(yǔ)義搜索、地理知識(shí)智能問答、知識(shí)挖掘與決策分析等更好地為人認(rèn)知地理世界服務(wù);面向智能平臺(tái)(如機(jī)器人)的地理知識(shí)應(yīng)用,主要使機(jī)器人具備地理知識(shí),從而在感知世界的基礎(chǔ)上進(jìn)一步實(shí)現(xiàn)認(rèn)知和理解現(xiàn)實(shí)世界的目標(biāo)。具體應(yīng)用可分為以下幾類:

3.1 基于地理知識(shí)庫(kù)的智能知識(shí)服務(wù)

基于地理知識(shí)圖譜的搜索結(jié)果是地理知識(shí)的形式化表達(dá),多為地理知識(shí)卡片的形式(如圖 7所示),可將地理環(huán)境、地理實(shí)體、人文要素等資源進(jìn)行融合和關(guān)聯(lián),以地理實(shí)體的形式對(duì)地理知識(shí)實(shí)現(xiàn)語(yǔ)義搜索和查詢,在統(tǒng)一視圖里進(jìn)行管控。

圖 7 地理知識(shí)卡片示例Fig. 7 The example of geographic knowledge card

圖選項(xiàng)


3.2 地理知識(shí)智能問答

自然語(yǔ)言在交互形式上更接近人類的交流習(xí)慣,基于地理知識(shí)庫(kù)的智能問答系統(tǒng)可以實(shí)現(xiàn)高度智能化,能夠適應(yīng)地理信息快速、準(zhǔn)確、啟發(fā)式獲取信息的需求。由于地理知識(shí)圖譜具有結(jié)構(gòu)化、關(guān)聯(lián)化的特征,地理知識(shí)圖譜相比純文本資料、結(jié)構(gòu)化數(shù)據(jù)庫(kù)等,具有更豐富的語(yǔ)義表達(dá)、更精確的數(shù)據(jù)內(nèi)容和更高效的檢索方式等優(yōu)勢(shì),基于地理知識(shí)庫(kù)的智能問答是地理知識(shí)圖譜的一個(gè)重要應(yīng)用方向。

3.3 基于地理知識(shí)圖譜的決策支持分析

基于地理知識(shí)圖譜,可通過相關(guān)的大數(shù)據(jù)挖掘算法,包括分類、聚類方法等,以及圖計(jì)算方法包括圖遍歷、最短路徑、路徑探尋、權(quán)威節(jié)點(diǎn)分析、族群分析、相似節(jié)點(diǎn)發(fā)現(xiàn)等,實(shí)現(xiàn)地理實(shí)體關(guān)聯(lián)分析、地理事件聚類分析等功能,實(shí)現(xiàn)時(shí)間空間上離散分布的人、環(huán)境、事件等的關(guān)聯(lián)分析與挖掘,進(jìn)而為相關(guān)決策服務(wù)。

3.4 為機(jī)器人等智能平臺(tái)提供地理空間知識(shí)庫(kù)

當(dāng)前,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的應(yīng)用,使機(jī)器人等智能平臺(tái)具備了對(duì)周圍環(huán)境的動(dòng)態(tài)感知能力,但若要使機(jī)器人能夠具備環(huán)境的理解能力,則必須要有相關(guān)知識(shí)庫(kù)的支撐。地理知識(shí)圖譜可為機(jī)器人等智能平臺(tái)提供地理空間相關(guān)知識(shí),為機(jī)器人導(dǎo)航地圖提供豐富的語(yǔ)義網(wǎng),使其具備地理空間理解能力。

4 總結(jié)與展望

虛擬地理環(huán)境的知識(shí)工程是智能虛擬地理環(huán)境的基礎(chǔ)工程。地理信息智能化服務(wù)是虛擬地理環(huán)境智能化發(fā)展的新趨勢(shì)。對(duì)多源異構(gòu)隱性的泛在地理信息處理,是地理信息向大眾化、普適化方向轉(zhuǎn)變的基礎(chǔ)。業(yè)界已經(jīng)對(duì)地理知識(shí)表示、地學(xué)信息圖譜等方面進(jìn)行了相關(guān)的研究,但其主要仍是對(duì)專業(yè)的地理學(xué)領(lǐng)域?qū)<抑R(shí)的刻畫與表示,難以適應(yīng)大規(guī)模地理知識(shí)的共享、交互與應(yīng)用。地理知識(shí)圖譜適合對(duì)事實(shí)型地理知識(shí)的大規(guī)模建模與表示,可為虛擬地理環(huán)境的知識(shí)工程建設(shè)提供基礎(chǔ)支撐。

本文重點(diǎn)剖析了地理知識(shí)圖譜的概念、內(nèi)涵及研究現(xiàn)狀,提出了基于多源異構(gòu)地理信息數(shù)據(jù)的地理知識(shí)構(gòu)建技術(shù)體系和流程。地理環(huán)境知識(shí)圖譜的構(gòu)建是地理信息服務(wù)通向智能化的橋梁,其有著廣闊的應(yīng)用前景,存在諸多挑戰(zhàn),需重點(diǎn)解決地理知識(shí)的多源數(shù)據(jù)抽取、地理實(shí)體空間關(guān)系、語(yǔ)義關(guān)系抽取、地理知識(shí)融合、地理知識(shí)鏈接、地理知識(shí)質(zhì)量評(píng)價(jià)及地理知識(shí)的更新等關(guān)鍵科學(xué)問題,為實(shí)現(xiàn)面向智能虛擬地理環(huán)境的自動(dòng)化、智能化的地理知識(shí)服務(wù)奠定理論與方法基礎(chǔ)。

?【引文格式】蔣秉川, 萬(wàn)剛, 許劍, 等. 多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識(shí)圖譜構(gòu)建[J]. 測(cè)繪學(xué)報(bào),2018,47(8):1051-1061. DOI: 10.11947/j.AGCS.2018.20180113


《測(cè)繪學(xué)報(bào)》2018年第8期網(wǎng)刊發(fā)布


頭條| 關(guān)于召開“重大工程測(cè)量新技術(shù)應(yīng)用暨北京新機(jī)場(chǎng)、 冬奧會(huì)測(cè)繪項(xiàng)目 技術(shù)交流與現(xiàn)場(chǎng)觀摩研討會(huì)” 的(二號(hào)) 通知


看《延禧攻略》,還需要配合這份故宮地圖!


當(dāng)AI表現(xiàn)出種族或性別歧視,除了震驚我們還能做什么?


你從未見過的長(zhǎng)江全貌,中華民族的象征,美到超出想象!


論文推薦| 邸凱昌:視覺SLAM技術(shù)的進(jìn)展與應(yīng)用


院士論壇| 李德仁:遙感雙院士的中國(guó)夢(mèng)


《測(cè)繪學(xué)報(bào)》 “數(shù)字?jǐn)z影測(cè)量與機(jī)器視覺專輯”在CPGIS2018北京論壇發(fā)布


聽李德仁、楊元喜、龔健雅三位院士講述“我的科研故事”


機(jī)器視覺| 晏磊:航空遙感平臺(tái)通用物理模型及可變基高比系統(tǒng)精度評(píng)價(jià)



權(quán)威 | 專業(yè) | 學(xué)術(shù) | 前沿

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多