摘 要: 在這個大數(shù)據(jù)時代,空間數(shù)據(jù)正在從各個領(lǐng)域飛速累計??臻g數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一部分,現(xiàn)已成為人們研究空間數(shù)據(jù)的重點學(xué)科。主要介紹了空間數(shù)據(jù)挖掘的基本概念、一般步驟及其最新的挖掘方法,表達了對當前空間數(shù)據(jù)挖掘的看法。最后對未來空間數(shù)據(jù)挖掘的研究方向進行了更加深入的探討。 0 引言 空間數(shù)據(jù)挖掘(Spatial Data Mining,SDM)即找出開始并不知道但是卻隱藏在空間數(shù)據(jù)中潛在的、有價值的規(guī)則的過程。具體來說,空間數(shù)據(jù)挖掘就是在海量空間數(shù)據(jù)集中,結(jié)合確定集、模糊集、仿生學(xué)等理論,利用人工智能、模式識別等科學(xué)技術(shù),提取出令人相信的、潛在有用的知識,發(fā)現(xiàn)空間數(shù)據(jù)集背后隱藏的規(guī)律、聯(lián)系,為空間決策提供理論技術(shù)上的依據(jù)[1]。 1 空間數(shù)據(jù)挖掘的一般步驟 空間數(shù)據(jù)挖掘系統(tǒng)大致可以分為以下步驟: (1)空間數(shù)據(jù)準備:選擇合適的多種數(shù)據(jù)來源,包括地圖數(shù)據(jù)、影像數(shù)據(jù)、地形數(shù)據(jù)、屬性數(shù)據(jù)等。 (2)空間數(shù)據(jù)預(yù)處理和特征提?。簲?shù)據(jù)預(yù)處理目的是去除數(shù)據(jù)中的噪聲,包括對數(shù)據(jù)的清洗、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的集成等。特征提取是剔除掉冗余或不相關(guān)的特征并將特征轉(zhuǎn)化為適合數(shù)據(jù)挖掘的新特征。 (3)空間數(shù)據(jù)挖掘和知識評估:采用空間數(shù)據(jù)挖掘技術(shù)對空間數(shù)據(jù)進行分析處理和預(yù)測,從而發(fā)現(xiàn)數(shù)據(jù)背后的某種聯(lián)系。然后結(jié)合具體的領(lǐng)域知識進行評估,看是否達到預(yù)期效果。 2 空間數(shù)據(jù)挖掘的方法研究 空間數(shù)據(jù)挖掘是一門綜合型的交叉學(xué)科,結(jié)合了計算機科學(xué)、統(tǒng)計學(xué)、地理學(xué)等領(lǐng)域的很多特性,產(chǎn)生了大量處理空間數(shù)據(jù)的挖掘方法。 2.1 空間關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項之間的聯(lián)系,表達式形式是X→Y,其中X與Y是兩種不相交的數(shù)據(jù)項集,即X∩Y=?覫。KOPERSKI K等人將關(guān)聯(lián)規(guī)則與空間數(shù)據(jù)庫相結(jié)合,提出了空間關(guān)聯(lián)規(guī)則挖掘[2]??臻g關(guān)聯(lián)規(guī)則將數(shù)據(jù)項替換為了空間謂詞,一般表達形式如下: A1∧A2∧…∧An→B1∧B2∧…∧Bm(3) 令A(yù)=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個空間謂詞且A∩B=?覫。SHEKHAR S和HUANG Y針對空間關(guān)聯(lián)規(guī)則的特點提出了把關(guān)聯(lián)規(guī)則的思想泛化成空間索引點集的空間同位規(guī)則的概念,在不違背空間相關(guān)性的同時用鄰域替換掉了事務(wù)[3]。時空關(guān)聯(lián)不僅涉及事件在空間中的關(guān)聯(lián),還考慮了空間位置和時間序列因素。國內(nèi)的柴思躍、蘇奮振和周成虎提出了基于周期表的時空關(guān)聯(lián)規(guī)則挖掘方法[4]。 2.2 空間聚類 空間聚類分析是普通聚類分析的擴展,不能完全按照處理普通數(shù)據(jù)的聚類分析方法來處理空間數(shù)據(jù)。由于存在地理學(xué)第一定律,即空間對象之間都存在一定的相關(guān)性,因此在空間聚類分析中,對于簇內(nèi)的定義,要考慮空間自相關(guān)這一因素。通過對空間數(shù)據(jù)進行自相關(guān)分析,可判斷對象之間是否存在空間相關(guān)性,從而可合理判斷出對象是否可以分為一簇。 基本的聚類挖掘算法有: (1)劃分聚類算法:存在n個數(shù)據(jù)對象,對于給定k個分組(k≤n),將n個對象通過基于一定目標劃分規(guī)則,不停迭代、優(yōu)化,直到將這n個對象分配到k個分組中,使得每組內(nèi)部對象相似度大于組之間相似度。 (2)層次聚類算法:通過將數(shù)據(jù)不停地拆分與重組,最終把數(shù)據(jù)轉(zhuǎn)為一棵符合一定標準的具有層次結(jié)構(gòu)的聚類樹。 (3)密度聚類算法:用低密度的區(qū)域?qū)?shù)據(jù)對象進行分割,最終將數(shù)據(jù)對象聚類成為若干高密度的區(qū)域。 (4)圖聚類算法:用空間結(jié)點表示每個數(shù)據(jù)對象,然后基于一定標準形成若干子圖,最后把所有子圖聚類成一個包含所有空間對象的整圖,子圖則代表一個個空間簇。 (5)網(wǎng)格聚類算法:把空間區(qū)域分割成具有多重分辨率的和有網(wǎng)格結(jié)構(gòu)特性的若干網(wǎng)格單元,在網(wǎng)格單元上對數(shù)據(jù)進行聚類。 (6)模型聚類算法:借助一定的數(shù)學(xué)模型,使用最佳擬合數(shù)據(jù)的數(shù)學(xué)模型來對數(shù)據(jù)進行聚類,每一個簇用一個概率分布表示。 僅采用一種算法通常無法達到令人滿意的預(yù)期結(jié)果,王家耀、張雪萍、周海燕將遺傳算法與K-均值算法結(jié)合提出了用于空間聚類分析的遺傳K-均值算法[5]?,F(xiàn)實空間環(huán)境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把K-Medoids算法與量子粒子群算法結(jié)合進行帶有空間障礙約束的聚類分析[6]。 2.3 空間分類 分類,簡單地說是通過學(xué)習(xí)得到一定的分類模型,然后把數(shù)據(jù)對象按照分類模型劃分至預(yù)先給定類的過程??臻g分類時,不僅考慮數(shù)據(jù)對象的非空間屬性,還要顧及鄰近對象的非空間屬性對其類別的影響,是一種監(jiān)督式的分析方法。 空間分類挖掘方法有統(tǒng)計方法、機器學(xué)習(xí)的方法和神經(jīng)網(wǎng)絡(luò)方法等。貝葉斯分類器是基于統(tǒng)計學(xué)的方法,利用數(shù)據(jù)對象的先驗概率和貝葉斯公式計算出其后驗概率,選擇較大后驗概率的類作為該對象映射的類別。決策樹分類器是機器學(xué)習(xí)的方法,采取從上到下的貪心策略,比較決策樹內(nèi)部節(jié)點的屬性值來往下建立決策樹的各分支,每個葉節(jié)點代表滿足某個條件的屬性值,從根節(jié)點到葉節(jié)點的路徑表示一條合適的規(guī)則。支持向量機也是機器學(xué)習(xí)的方法,思路是使用非線性映射把訓(xùn)練數(shù)據(jù)集映射到較高維,然后尋找出最大邊緣超平面,將數(shù)據(jù)對象分類。神經(jīng)網(wǎng)絡(luò)是一種模擬人神經(jīng)的網(wǎng)絡(luò),由一組連接的輸入和輸出單元組成,賦予各個連接相應(yīng)的權(quán)值,通過調(diào)節(jié)各連接的權(quán)值使得數(shù)據(jù)對象得到正確分類。 針對融入空間自相關(guān)性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基于貝葉斯的馬可夫隨機場進行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機場與支持向量機結(jié)合并將其用于遙感圖像的信息提取[8]。 2.4 其他空間挖掘方法 空間數(shù)據(jù)挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術(shù)和理論對空間數(shù)據(jù)進行加工處理,從而找出未知有用的信息模式;基于模糊集、粗糙集和云理論的方法可用來分析具有不確定性的空間數(shù)據(jù);可視化方法是對空間數(shù)據(jù)對象的視覺表示,通過一定技術(shù)用圖像的形式表達要分析的空間數(shù)據(jù),從而得到其隱含的信息;國內(nèi)張自嘉、岳邦珊、潘琦等人將蟻群算法與自適應(yīng)濾波的模糊聚類算法相結(jié)合用以對圖像進行分割[9]。 3 結(jié)論 空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的延伸,有很好的傳統(tǒng)數(shù)據(jù)挖掘方法理論的基礎(chǔ),雖然取得了很大進步,然而其理論和方法仍需進一步的深入研究。伴隨著大數(shù)據(jù)時代,面對越來越多的空間數(shù)據(jù),提升數(shù)據(jù)挖掘的準確度和精度是一個有待研究的問題。同時現(xiàn)在流行的空間數(shù)據(jù)挖掘算法的時間復(fù)雜度仍停留在O(nlog(n))~O(n3)之間,處理大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)挖掘算法的效率也需要進一步提高。數(shù)據(jù)挖掘在云環(huán)境下已經(jīng)得到很好的應(yīng)用[10],對于處理空間數(shù)據(jù)的空間云計算是有待學(xué)者們研究的方向。大多數(shù)空間數(shù)據(jù)挖掘算法沒有考慮含有障礙約束的情況,如何解決現(xiàn)實中障礙約束問題值得探討。帶有時間屬性的空間數(shù)據(jù)呈現(xiàn)出了一種動態(tài)、可變的空間現(xiàn)象,時空數(shù)據(jù)挖掘?qū)⑹俏磥硌芯康闹攸c。 由于數(shù)據(jù)挖掘涉及多種學(xué)科,其基本理論與方法也已經(jīng)比較成熟,針對空間數(shù)據(jù)挖掘,如何合理地利用和拓展這些理論方法以實現(xiàn)對空間數(shù)據(jù)的挖掘仍將是研究人員們需要長期努力的方向。 參考文獻 [1] 李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應(yīng)用(第2版)[M].北京:科學(xué)出版社,2013. [2] KOPERSKI K, HAN J W. Discovery of spatial association rules in geographic information databases[C]. Procedings of the 4th International Symposium on Advances in Spatial Databases, 1995: 47-66. [3] SHEKHAR S, HUANG Y. Discovering spatial co-location patterns: a summary of results[C]. Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases, 2001:236-256. [4] 柴思躍,蘇奮振,周成虎.基于周期表的時空關(guān)聯(lián)規(guī)則挖掘方法與實驗[J].地球信息科學(xué)學(xué)報,2011,13(4):455-464. [5] 王家耀,張雪萍,周海燕.一個用于空間聚類分析的遺傳K-均值算法[J].計算機工程,2006,32(3):188-190. [6] Zhang Xueping, Du Haohua, Yang Tengfei, et al. A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C]. Advances in Swarm Intelligence, Lecture Notes in Computer Science (LNCS), 2010: 476-483. [7] SHEKHAR S, SCHRATER P R, VATSAVAI R R, et al.Spatial contextual classification and prediction models for mining geospatial data[J]. IEEE Transactions on Multimedia, 2002, 4(2):174-187. [8] 汪閩,駱劍承,周成虎,等.結(jié)合高斯馬爾可夫隨機場紋理模型與支撐向量機在高分辨率遙感圖像上提取道路網(wǎng)[J].遙感學(xué)報,2005,9(3):271-275. [9] 張自嘉,岳邦珊,潘琦,等.基于蟻群和自適應(yīng)濾波的模糊聚類圖像分割[J].電子技術(shù)應(yīng)用,2015,41(4):144-147. [10] 石杰.云計算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用[J].微型機與應(yīng)用,2015,34(5):13-15. |
|