數(shù)據(jù)猿導(dǎo)讀】 大數(shù)據(jù)時(shí)代正在改變著我們的生活、工作和思維,要讓大數(shù)據(jù)發(fā)揮出最大價(jià)值,最重要的手段就是進(jìn)行數(shù)據(jù)可視化挖掘。利用可視化數(shù)據(jù)挖掘工具和技術(shù),分析人員能夠從全新的角度快速、輕松地挖掘信息。 編輯 | abby 官網(wǎng) | www.datayuan.cn 微信公眾號(hào)ID | datayuancn 當(dāng)前,經(jīng)典的數(shù)據(jù)挖掘算法日趨成熟,相關(guān)標(biāo)準(zhǔn)和技術(shù)已經(jīng)在各行各業(yè)得到廣泛應(yīng)用。為了使數(shù)據(jù)挖掘技術(shù)滿足不同層次用戶的需要,可視化數(shù)據(jù)挖掘技術(shù)被提出,通過可視化的手段將數(shù)據(jù)挖掘過程的各個(gè)階段展示給用戶,使用戶能更好地理解過程,目前該技術(shù)已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)。 今天小編為大家推薦的《數(shù)據(jù)可視化與數(shù)據(jù)挖掘——基于Tableau和SPSS Modeler圖形界面》就旨在為讀者介紹最新的可視化數(shù)據(jù)挖掘技術(shù)。本書內(nèi)容主要基于 Tableau 10.3和 IBM SPSS Modeler 18.0 編寫,詳細(xì)介紹了 Tableau 的數(shù)據(jù)連接、圖形編輯、創(chuàng)建地圖、表計(jì)算和聚合計(jì)算等功能,以及 IBM SPSS Modeler 的數(shù)據(jù)連接、CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)等功能。通過實(shí)際案例,重點(diǎn)介紹了可視化數(shù)據(jù)挖掘技術(shù)在電信、電力、醫(yī)藥、銀行、電商和房地產(chǎn)等行業(yè)中的應(yīng)用,可以作為互聯(lián)網(wǎng)、銀行證券、電商等行業(yè)的從業(yè)者,以及高等院校相關(guān)專業(yè)學(xué)生參考使用。 大數(shù)據(jù)時(shí)代正在改變著我們的生活、工作和思維,要讓大數(shù)據(jù)發(fā)揮出最大價(jià)值,最重要的手段就是進(jìn)行數(shù)據(jù)可視化挖掘。利用可視化數(shù)據(jù)挖掘工具和技術(shù),分析人員能夠從全新的角度快速、輕松地挖掘信息??梢暬瘮?shù)據(jù)挖掘使數(shù)據(jù)挖掘變得更簡(jiǎn)單,建模過程不需要編寫代碼,非技術(shù)出身的業(yè)務(wù)人員等也可以利用數(shù)據(jù)做出決策。 本書從內(nèi)容方面主要分為15個(gè)章節(jié): 第1章:介紹數(shù)據(jù)可視化和可視化數(shù)據(jù)挖掘的基本理論及主要軟件,前者包括Tableau、QlikView和Power BI,后者包括IBM SPSS Modeler、Intelligent Miner和SAS Enterprise Miner。 第2章:介紹Tableau Desktop 10.3軟件簡(jiǎn)介、數(shù)據(jù)類型、運(yùn)算符及優(yōu)先級(jí)、軟件的安裝與激活和Tableau的文件類型等。 第3章:介紹Tableau Desktop可以連接的數(shù)據(jù)源,包括Excel文件、文本文件、Access文件、JSON文件、PDF文件、空間文件和統(tǒng)計(jì)文件等,還介紹了如何連接各類數(shù)據(jù)庫(kù),如Tableau Server、SQL Server、MySQL和Oracle等。 第4章:首先介紹Tableau Desktop的維度和度量、連續(xù)和離散的概念和操作,然后介紹工作區(qū)和工作表的基礎(chǔ)操作,最后詳細(xì)介紹表計(jì)算、創(chuàng)建字段、創(chuàng)建參數(shù)和聚合計(jì)算等高級(jí)操作。 第5章:介紹如何使用Tableau生成一些統(tǒng)計(jì)圖形,如條形圖、餅圖、直方圖、折線圖、散點(diǎn)圖、并排圖、甘特圖等。 第6章:介紹IBM SPSS Modeler的發(fā)展歷史、軟件特點(diǎn)、軟件算法、軟件功能、安裝過程和授權(quán)許可等。 第7章:介紹使用IBM SPSS Modeler進(jìn)行數(shù)據(jù)挖掘的6個(gè)基本步驟:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、評(píng)估模型和應(yīng)用模型。 第8章:介紹IBM SPSS Modeler的基本操作,包括連接到文件和連接到數(shù)據(jù)庫(kù),前者包括Excel文件、SAS文件、SPSS Statistics文件、變量文件和固定文件等,后者包括Oracle、SQL Server、DB2、MySQL等數(shù)據(jù)庫(kù)。 第9章:介紹IBM SPSS Modeler的數(shù)據(jù)流操作,包括生成數(shù)據(jù)流、添加和刪除節(jié)點(diǎn)、連接數(shù)據(jù)流、修改連接節(jié)點(diǎn)和執(zhí)行數(shù)據(jù)流等。 第10章:介紹可視化數(shù)據(jù)挖掘在電信行業(yè)中的應(yīng)用,根據(jù)客戶流失數(shù)據(jù),運(yùn)用Logistic回歸算法,建立了基于客戶屬性、服務(wù)屬性和客戶消費(fèi)信息的客戶流失預(yù)警模型。 第11章:介紹可視化數(shù)據(jù)挖掘在電力行業(yè)中的應(yīng)用,由于用電負(fù)荷具有季節(jié)性和周期性的特點(diǎn),因此運(yùn)用時(shí)間序列模型,同時(shí)選擇時(shí)間序列中的專家建模器進(jìn)行建模。 第12章:介紹可視化數(shù)據(jù)挖掘在醫(yī)藥行業(yè)中的應(yīng)用,根據(jù)患者的用藥數(shù)據(jù),應(yīng)用K-Means聚類算法,建立基于藥物在人體的類膽固醇TC、Na、Ka等因素的藥物效果聚類模型。 第13章:介紹可視化數(shù)據(jù)挖掘在銀行業(yè)中的應(yīng)用,根據(jù)銀行客戶的登記記錄數(shù)據(jù),運(yùn)用判別分析算法,建立基于客戶的屬性數(shù)據(jù)、信用等級(jí)和資產(chǎn)狀況等因素的客戶類型判別模型。 第14章:介紹可視化數(shù)據(jù)挖掘在電商行業(yè)中的應(yīng)用,根據(jù)促銷的費(fèi)用、促銷前的銷售額和促銷后的銷售額等數(shù)據(jù),運(yùn)用神經(jīng)網(wǎng)絡(luò)模型,建立基于促銷費(fèi)用、促銷前的銷售額和促銷后的銷售額等因素的促銷效果評(píng)價(jià)模型。 第15章:介紹可視化數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)中的應(yīng)用,根據(jù)購(gòu)房者的個(gè)人信息數(shù)據(jù)等,運(yùn)用CHAID決策樹算法,建立基于年齡、性別、學(xué)歷、月薪和家庭人數(shù)等因素的購(gòu)房決策樹模型。 適度人群 本書的內(nèi)容和案例適用于互聯(lián)網(wǎng)、銀行證券、電商、醫(yī)藥等行業(yè)數(shù)據(jù)分析用戶進(jìn)行可視化數(shù)據(jù)挖掘,可供高等院校相關(guān)專業(yè)學(xué)生及從事可視化數(shù)據(jù)挖掘的研究人員參考使用,也可作為Tableau和IBM SPSS Modeler軟件培訓(xùn)和自學(xué)的教材。 |
|