10月23日下午,第一期「數(shù)據(jù)分析成長交流會」在CDA數(shù)據(jù)分析研究院成功舉辦啦! 數(shù)據(jù)分析成長交流會主要針對行業(yè)小白,讓更多的人了解數(shù)據(jù)分析,理清學(xué)習(xí)思路,制定學(xué)習(xí)計(jì)劃。 本次活動邀請了CDA數(shù)據(jù)分析就業(yè)培訓(xùn)班的錢小菲老師帶來了「數(shù)據(jù)分析成長」主題分享,還與現(xiàn)場的小伙伴們進(jìn)行了面對面交流。小編現(xiàn)將主要內(nèi)容整理如下,以饗讀者: 我們首要考慮的是如何真正的踏入這個(gè)門檻,而不是徘徊在數(shù)據(jù)分析門外。 大概可以分為三個(gè)階段:初識分析、進(jìn)階工具、定位方向。 首先初識分析階段,你需要掌握的工具大概為:Excel中級水平、SPSS初級水平、MySQL入門,而需要掌握的知識有 :統(tǒng)計(jì)基礎(chǔ)、概率論、數(shù)據(jù)分析師的流程概念、數(shù)據(jù)庫的概念和基礎(chǔ)的知識。 Excel作為初級分析者的中流砥柱是必須要的,而初級的SPSS知識,再結(jié)合Excel和統(tǒng)計(jì)知識,就可以做很多初級的統(tǒng)計(jì)分析相關(guān)的工作了,此時(shí)你就勉強(qiáng)算得了半個(gè)數(shù)據(jù)分析師了,當(dāng)然也只能算半個(gè)。 然后,你需要學(xué)習(xí)一些必須要的進(jìn)階的工具,SPSS的進(jìn)一步掌握,有助于你學(xué)習(xí)了解常用的算法模型,并且對數(shù)據(jù)分析的流程步驟的方法有個(gè)概覽。然后學(xué)習(xí)R,進(jìn)一步掌握各類統(tǒng)計(jì)分析方法和算法模型,并對編程有一定的了解。 在R之后是Python或者SAS的學(xué)習(xí),根據(jù)你的行業(yè)需要去選擇,你需要能夠使用編程語言完成自己的工作。 在學(xué)習(xí)了解這么多的工具算法模型之后,你需要結(jié)合自己的特點(diǎn)對自己的方向做一個(gè)定位,R/SAS/Python你需要精通一門,然后你還需要熟悉掌握mysql常用的命令,當(dāng)然Office系列的你也需要熟悉。同時(shí)你需要針對性的去學(xué)習(xí)掌握自己行業(yè)的業(yè)務(wù)背景和精通那些使用的最多的算法。 前面介紹的那么多的數(shù)據(jù)分析的工具,但是當(dāng)一些公司的數(shù)據(jù)量級達(dá)到了較高級別,比如TB或者PB級的時(shí)候,前面?zhèn)鹘y(tǒng)的數(shù)據(jù)分析工具就無能為力了。尤其是需要實(shí)時(shí)計(jì)算,或者本身就需要使用這些大量數(shù)據(jù)進(jìn)行運(yùn)算的算法的時(shí)候,就必須要使用大數(shù)據(jù)的技術(shù)了。 說到大數(shù)據(jù)就不得不提Hadoop,那么它到底是一個(gè)什么呢? Hadoop是一個(gè)由Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu),很多不足以自己開發(fā)大數(shù)據(jù)平臺的具有大數(shù)據(jù)需求的公司基本都在使用它,所以大家應(yīng)該對它有一定了解。 大數(shù)據(jù)必定有大量級的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫自然是無法實(shí)現(xiàn)存儲功能,那么這些數(shù)據(jù)是如何存儲的呢?Hive就展示出了它的特色,Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具,它可以通過類SQL語句快速實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析,既簡單又快捷。相對前面的SAS、SPSS等分析軟件,大數(shù)據(jù)分析更多是用的是Spark,Spark是一種與Hadoop相似的開源集群計(jì)算環(huán)境,不同之處在于Spark基于內(nèi)存計(jì)算,工作負(fù)載更優(yōu)越,計(jì)算更快速,可以用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序,也是目前很多公司在使用的一個(gè)大數(shù)據(jù)分析工具,而且它有許多接口,可以和java、R、Python實(shí)現(xiàn)無縫銜接,更加方便。 那么在你學(xué)習(xí)的過程中,你自己處于什么樣的位置呢? 當(dāng)你掌握了Excel的常用函數(shù),了解了VBA,并且掌握SPSS,能夠進(jìn)行常用的統(tǒng)計(jì)分析,初步了解一些sql語言,那么你就能算得上是一個(gè)業(yè)務(wù)分析師。 如果你想做一個(gè)高級數(shù)據(jù)分析師,或者是數(shù)據(jù)挖掘工程師,那么你就需要熟練掌握SQL語言,理解常用的算法模型,并能夠用于解決企業(yè)的實(shí)際問題,當(dāng)然你至少需要精通R/SAS/Python中的一種或幾種。 如果你在大數(shù)據(jù)平臺下工作,除此之外你還需要熟練使用spark和Hive。 問答整理如下:
其實(shí)并沒有說文科理科哪個(gè)更有優(yōu)勢的說法,可能理科出身的人能夠用更短的時(shí)間學(xué)習(xí),但并不意味著就是一個(gè)好的數(shù)據(jù)分析師了,文科對于業(yè)務(wù)等等的理解能力相對也會更好一點(diǎn),所以這個(gè)是各有特長,沒有說是不是吃虧的說法。
并不是這樣,只有少數(shù)的傳統(tǒng)行業(yè)不怎么需要數(shù)據(jù)分析師,其他的像零售、餐飲、制造、金融以及絕大多數(shù)的互聯(lián)網(wǎng)相關(guān)行業(yè)都需要配備數(shù)據(jù)分析人才。比如SPSS就是中小企業(yè)用的多,所以不存在之余大公司才需要數(shù)據(jù)分析師的現(xiàn)象。
|
|