隨著互聯(lián)網(wǎng)的普及、計(jì)算機(jī)技術(shù)的發(fā)展,每天都會(huì)產(chǎn)生海量的信息,然而,人們真正需要的知識(shí)卻很匱乏。為了解決這種信息泛濫與知識(shí)相對(duì)匱乏的矛盾,知識(shí)抽取這一研究領(lǐng)域開(kāi)始被專(zhuān)家學(xué)者們廣泛關(guān)注。知識(shí)抽取(Knowledge?eXtraction?KX)是對(duì)蘊(yùn)涵于文獻(xiàn)中的知識(shí)進(jìn)行識(shí)別、理解、篩選和格式化,從而把文獻(xiàn)中的各個(gè)知識(shí)點(diǎn)(包括常識(shí)知識(shí)和專(zhuān)家知識(shí))抽取出來(lái),以一定形式存入知識(shí)庫(kù)中。常常與之混淆的概念有數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、知識(shí)獲取、信息抽取等,然而知識(shí)抽取研究對(duì)象是顯性的、已有的知識(shí),與數(shù)據(jù)挖掘有很大的區(qū)別,其是知識(shí)獲取的有效方式之一,是信息獲取的進(jìn)一步發(fā)展。 知識(shí)抽取既是其他信息獲取手段的一種補(bǔ)充,又為其他信息處理技術(shù)提供技術(shù)支持。面對(duì)大量的信息,通過(guò)不同層次和精度的信息獲取技術(shù)可以得到用戶(hù)需要的相關(guān)文檔。知識(shí)抽取技術(shù)可以從相關(guān)文檔中抽取出粒度更小的關(guān)系和事件,以此滿(mǎn)足用戶(hù)的進(jìn)一步需求。信息抽取作為將非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息的一種方法,為進(jìn)一步的數(shù)據(jù)信息處理,如數(shù)據(jù)挖掘,數(shù)據(jù)庫(kù)查詢(xún)等打下基礎(chǔ)。從廣義上講,信息抽取的處理對(duì)象可以是語(yǔ)音、圖像、文本、視頻等眾多類(lèi)型的數(shù)據(jù)。從狹義上看,信息抽取可以只針對(duì)自然語(yǔ)言文本進(jìn)行信息的抽取。 北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的KGB知識(shí)圖譜引擎,KGB知識(shí)圖譜引擎(Knowledge Graph Builder)是基于自然語(yǔ)言理解、漢語(yǔ)詞法分析,采用KGB語(yǔ)法從結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化文檔中抽取各類(lèi)知識(shí),大數(shù)據(jù)語(yǔ)義智能分析與知識(shí)推理,深度挖掘知識(shí)關(guān)聯(lián),實(shí)時(shí)高效構(gòu)建知識(shí)圖譜。 KGB知識(shí)圖譜引擎功能介紹 一、文檔提取 1、輕松解析多種格式文檔 KGB知識(shí)圖譜引擎,可輕松解析多種格式、多種版本文檔:TXT、DOC、EXCEL、PPT、PDF、XML等。對(duì)于圖片信息,OCR可自動(dòng)識(shí)別并抽取圖片中的文字信息。 2、結(jié)構(gòu)化表格數(shù)據(jù)知識(shí)抽取 KGB能夠自適應(yīng)解讀并抽取結(jié)構(gòu)化表格數(shù)據(jù),實(shí)現(xiàn)知識(shí)的快速生成。 3、非結(jié)構(gòu)化文檔知識(shí)抽取 KGB知識(shí)規(guī)則引擎,快速定位非結(jié)構(gòu)化文檔中的關(guān)鍵信息(主體、時(shí)間、金額等),高效抽取知識(shí)。 二、知識(shí)關(guān)聯(lián) KGB知識(shí)圖譜引擎深入挖掘知識(shí)關(guān)聯(lián),將知識(shí)實(shí)體鏈接為有意義的知識(shí)事實(shí)。并具有強(qiáng)大的知識(shí)推理能力,推理暗含的知識(shí)與結(jié)論,豐富知識(shí)圖譜。 三、知識(shí)推理 KGB具有強(qiáng)大的知識(shí)推理能力,推理出暗含的知識(shí),獲取更多知識(shí)與結(jié)論,豐富知識(shí)圖譜。1、演繹歸納推理(一般—特殊) KGB能夠完成由一般特征到特殊個(gè)案的演繹知識(shí)推理和由特殊個(gè)案到一般特征的歸納知識(shí)推理,擴(kuò)充大量暗含的知識(shí),豐富知識(shí)圖譜。 2、知識(shí)計(jì)算(數(shù)值知識(shí)的加減乘除計(jì)算) 對(duì)于數(shù)值型知識(shí),KGB能夠識(shí)別并對(duì)數(shù)值型知識(shí)進(jìn)行加減乘除的知識(shí)計(jì)算推理,并可對(duì)知識(shí)計(jì)算的準(zhǔn)確性進(jìn)行核查。 3、知識(shí)庫(kù)檢查 KGB能夠?qū)崟r(shí)檢查知識(shí)庫(kù),糾正知識(shí)錯(cuò)誤與沖突,保證知識(shí)圖譜正確性與一致性。 隨著信息技術(shù)在我國(guó)社會(huì)生活各個(gè)領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場(chǎng)。這將促使中文信息處理方面的高效中文搜索引擎、實(shí)時(shí)機(jī)器翻譯、大規(guī)模中文文本處理、跨平臺(tái)中西文自動(dòng)識(shí)別轉(zhuǎn)換、泛中文語(yǔ)義理解、中文電子商務(wù)等技術(shù)實(shí)現(xiàn)重大突破。中文信息處理已成為我國(guó)信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的基礎(chǔ),在互聯(lián)網(wǎng)日益成長(zhǎng)的今天,中文信息處理技術(shù)將會(huì)更加成熟并創(chuàng)新。 |
|
來(lái)自: 飛翔oolieqaijo > 《文件夾1》