IBM SPSS Modeler數(shù)據(jù)庫內(nèi)建模

學(xué)習(xí)雪雪 2017-11-25

展開全文

IBM SPSS Modeler Server 支持對數(shù)據(jù)庫供應(yīng)商的數(shù)據(jù)挖掘工具和建模工具進(jìn)行整合，其中包括IBM Netezza、IBM DB2 InfoSphere Warehouse、Oracle Data Miner和Microsoft Analysis Services。實(shí)現(xiàn)了在IBM SPSS Modeler的分析功能和易用性將與數(shù)據(jù)庫的功能和性能相結(jié)合，同時(shí)還兼?zhèn)鋽?shù)據(jù)庫供應(yīng)商提供的數(shù)據(jù)庫自有算法。模型在數(shù)據(jù)庫創(chuàng)建，然后可以借助 IBM SPSS Modeler 界面以正常方式瀏覽模型并為之評分。

那么使用 IBM SPSS Modeler 訪問數(shù)據(jù)庫自有算法有什么優(yōu)勢呢？主要是兩方面：

1.數(shù)據(jù)庫內(nèi)的算法常常與數(shù)據(jù)庫服務(wù)器緊密集成，這有助于提高性能。

2.在“數(shù)據(jù)庫內(nèi)”構(gòu)建和存儲(chǔ)的模型不僅由可訪問數(shù)據(jù)庫的應(yīng)用程序共享，且更易于在這些應(yīng)用程序中部署。

ADVERTISEMENT

接下來我們以Microsoft Analytics Services為例，介紹如何配置以及使用數(shù)據(jù)庫內(nèi)建模功能。

IBM SPSS Modeler 支持集成下列Analysis Services算法包括：

決策樹
聚類
關(guān)聯(lián)規(guī)則
樸素貝葉斯
線性回歸
神經(jīng)網(wǎng)絡(luò)
Logistic回歸
時(shí)間序列
序列聚類

安裝與配置：

在您的機(jī)器上，必須安裝以下模塊：

IBM SPSS Modeler Client
IBM SPSS Modeler Server
Microsoft Analysis Services,與相應(yīng)數(shù)據(jù)庫建立ODBC連接

1. 配置IBM SPSS Modeler：

ADVERTISEMENT

在IBM SPSS Modeler中，在菜單欄的工具--gt;選項(xiàng)--gt;幫助應(yīng)用程序，選擇Microsoft面板，如下圖：

勾上之后，會(huì)在下面的面板節(jié)點(diǎn)上多了一項(xiàng)數(shù)據(jù)庫建模，列出了Microsoft Analysis Services支持的數(shù)據(jù)庫內(nèi)建模算法，如下圖：

2. 配置 SQL Server

該配置可實(shí)現(xiàn)在數(shù)據(jù)庫內(nèi)進(jìn)行評分。

在 SQL Server 主機(jī)上創(chuàng)建以下注冊表鍵：

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\MSSQLServer\Providers\MSOLAP

為該鍵添加如下 DWORD 鍵值：

AllowInProcess 1

完成上述更改后，重新啟動(dòng)SQL Server。

ADVERTISEMENT

3. 配置Microsoft Analysis Services

建立IBM SPSS Modeler 與Microsoft Analysis Services 進(jìn)行通信。

通過MS SQL Server Management Studio 登錄到分析服務(wù)器。

訪問“屬性”對話框，右鍵單擊服務(wù)器名稱，然后選擇屬性。

選中顯示高級（所有）屬性復(fù)選框。

更改以下屬性：

將 DataMining\AllowAdHocOpenRowsetQueries 的值更改為 True（缺省值為False）。

將 DataMining\AllowProvidersInOpenRowset 的值更改為 [all] （無缺省值）。

4. 為SQL Server 創(chuàng)建 ODBC DSN

ADVERTISEMENT

通過使用 Microsoft SQL Native Client ODBC 驅(qū)動(dòng)程序，創(chuàng)建一個(gè)指向數(shù)據(jù)挖掘過程中使用的 SQL Server 數(shù)據(jù)庫的 ODBC DSN。余下的驅(qū)動(dòng)程序設(shè)置應(yīng)使用缺省設(shè)置。

對于此DSN，請確保選中了使用集成的 Windows 認(rèn)證。

5. 啟用 SQL 生成和優(yōu)化

從IBM SPSS Modeler菜單中選擇：工具—gt;流屬性—gt;選項(xiàng)—gt;優(yōu)化面板，勾選上所有選項(xiàng)內(nèi)容如下圖：

使用Microsoft Analysis Services 算法生成模型

以上內(nèi)容配置完成后，即可使用數(shù)據(jù)庫內(nèi)的算法生成模型。如下圖：

源節(jié)點(diǎn)從SQL Server數(shù)據(jù)庫中讀取，終端節(jié)點(diǎn)又寫回到SQL Server數(shù)據(jù)庫中，中間使用的是Microsoft的決策樹算法，整個(gè)計(jì)算過程都在數(shù)據(jù)庫中實(shí)現(xiàn)。

介紹到這里，我們就了解了，如何使用數(shù)據(jù)庫內(nèi)算法進(jìn)行建模的過程，經(jīng)常會(huì)有朋友問說，使用這里的決策樹算法和使用IBM SPSS Modeler封裝好的決策樹算法，結(jié)果會(huì)有什么不同？預(yù)測結(jié)果當(dāng)然是會(huì)有差異的了。本身決策樹算法就包含多種，像Camp;R、CHAID、C5.0、QUEST等，每個(gè)算法計(jì)算邏輯就不一樣，因此計(jì)算得到的結(jié)果自然也不一樣，前面我們已經(jīng)介紹過Camp;R、CHAID、C5.0這三種算法，他們核心的差異就是選擇最佳分組變量和分割點(diǎn)的標(biāo)準(zhǔn)，而Microsoft Analysis Services決策樹是使用線性回歸來確定決策樹分割位置，它可以用于分類屬性和連續(xù)屬性的預(yù)測建模。那么到底選擇什么算法為優(yōu)呢，前面已經(jīng)介紹了，使用數(shù)據(jù)庫內(nèi)建模的好處，大家可以綜合考慮，結(jié)合實(shí)際場景和數(shù)據(jù)預(yù)測結(jié)果的評估再做選擇。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：學(xué)習(xí)雪雪 > 《數(shù)據(jù)》

舉報(bào)/認(rèn)領(lǐng)