數(shù)據(jù)分析師如今逐漸已經(jīng)成為一個熱門的崗位,在這個流量為王的年代,數(shù)據(jù)的重要性也日益增高,許多企業(yè)都是意識到了這一點,紛紛開始招募相關的數(shù)據(jù)型人才。 數(shù)據(jù)分析師的基本職業(yè)發(fā)展道路為:初級數(shù)據(jù)分析師-中級數(shù)據(jù)分析師-高級數(shù)據(jù)分析師。 這三個不同階段的數(shù)據(jù)分析師,在工作內(nèi)容、核心技能、薪資待遇方面層層遞進,這不僅說明數(shù)據(jù)分析師需要保持不斷學習的能力也說明了數(shù)據(jù)分析師崗位是個不斷上升、十分有發(fā)展前景的工作。 那么每個階段需要擁有哪些技能和需要處理哪些業(yè)務呢?讓我們一起來看一看。 初級數(shù)據(jù)分析師 初級的數(shù)據(jù)分析中最常見的工作有三種:數(shù)據(jù)提取、報表開發(fā)、撰寫分析報告。 數(shù)據(jù)提取將會是你的主要工作,也是一切分析的基礎。 不夸張的說,大部分分析項目中80%的精力都在數(shù)據(jù)獲取和加工的階段。 從數(shù)據(jù)庫中想盡一切辦法把數(shù)據(jù)提取出來,看似并不復雜,但對你的SQL功力是個考驗。 有時候一個over函數(shù)可以節(jié)省幾百行的代碼,一段SQL的優(yōu)化可以提高十倍以上的效率。所以踏踏實實的把數(shù)據(jù)提取做好,不要認為這個毫無意義。 當你可以高效準確的把數(shù)據(jù)提取做好之后,就可以著手進行報表開發(fā)的學習:將常用的數(shù)據(jù)提取固化下來,形成表格或可視化的圖表。 這時候你會發(fā)現(xiàn)之前學習的Excel和數(shù)據(jù)庫設計等知識要發(fā)揮作用了。 需要進一步學習BI方面的基礎知識,了解什么是星型模型、數(shù)據(jù)倉庫、Cube等。推薦一本《數(shù)據(jù)科學與大數(shù)據(jù)分析》。 Excel也是可視化工具,但只能在單機上查看,所以更多時候會學習一些報表開發(fā)工具或可視化分析工具,比如:PowerBI、Tableau等。在網(wǎng)上可以搜到這些工具的視頻教學,下載試用版自行練習就行。 撰寫分析報告,就是把眾多報表組合成一篇可以讓人讀懂的PPT。 這時候考驗的就是你的PPT功力了。一份好的分析報告除了簡潔和漂亮的PPT,更重要的抓住主題、清晰的分析思路和有價值的結論。如果你還能夠生動的把PPT的內(nèi)容講出來,那就更完美了。 做好了以上三個方面,恭喜你,你應該已經(jīng)成為了一名略有小成的數(shù)據(jù)分析師。 中級數(shù)據(jù)分析師 在初級的要求基礎上,要求掌握多元統(tǒng)計、時間序列、數(shù)據(jù)挖掘等理論知識,掌握高級數(shù)據(jù)分析方法與數(shù)據(jù)挖掘算法,能夠熟練運用 SPSS Moderler、SAS、Python、R 等至少一門專業(yè)分析軟件。 熟悉適用 SQL 訪問企業(yè)數(shù)據(jù)庫,結合業(yè)務,能從海量數(shù)據(jù)提取相關信息,從不同維度進行建模分析,形成邏輯嚴密能夠體現(xiàn)整體數(shù)據(jù)挖掘流程化的數(shù)據(jù)分析報告。 數(shù)據(jù)庫技術(必修):用 SQL 訪問企業(yè)數(shù)據(jù)庫,結合業(yè)務,能從海量數(shù)據(jù)提取相關信息,從不同維度進行建模分析,形成邏輯嚴密能夠體現(xiàn)整體數(shù)據(jù)挖掘流程化的數(shù)據(jù)分析報告;簡單了解關系型數(shù)據(jù)庫與非關系型數(shù)據(jù)庫的關系,數(shù)據(jù)庫增刪改查,高級查詢,高級應 實用型大數(shù)據(jù)挖掘算法、(Apriori 算法、Tanagra 工具、決策樹):深入淺出數(shù)據(jù)挖掘技術。所謂“深入”,指得是從數(shù)據(jù)挖掘的原理與經(jīng)典算法入手。其一是要了解算法,知道什么場景應當應用什么樣的方法;其二是學習算法的經(jīng)典思想,可以將它應用到其他的實際項目之中;其三是理解算法,讓數(shù)據(jù)挖掘的算法能夠應用到您的項目開發(fā)之中去。所謂“淺出”,指得是將數(shù)據(jù)挖掘算法的應用落實到實際的應用中。課程會通過三個不同的方面來講解算法的應用:一是微軟公司的 SQL Server 與 Excel 等工具實現(xiàn)的數(shù)據(jù)挖掘;二是著名開源算法的數(shù)據(jù)挖掘,如 Weka等開源工具;三是利用 Java、C#語言兩種語言做演示來完成數(shù)據(jù)挖掘算法的實現(xiàn)。 SPSS Modeler 數(shù)據(jù)挖掘:將挖掘技術所涉及的思想、方法、參數(shù)與統(tǒng)計學基礎聯(lián)系起來,了解包括維度、數(shù)據(jù)、分析、數(shù)據(jù)流等在內(nèi)的功能、參數(shù)的實際義和選擇、組合等應用方法。 Python 網(wǎng)絡爬蟲技術 :掌握應用 Python 爬蟲基礎庫;掌握使用 Python 爬蟲利器;掌握使用 Scrapy 項目構建;熟練掌握 Scrapy 流化開發(fā);熟練使用 Scrapy 拓展;掌握使用 Scrapy 與 Mysql 交互。 機器學習擴展深入(Python 語言、算法、Numpy 庫、MatplotLib):兩大類機器學習的方法:有監(jiān)督學習和無監(jiān)督學習,其中有監(jiān)督學習里面,又分為分類和預測數(shù)值型數(shù)據(jù)。這些算法都是基礎的算法。通過深入學習Python來實現(xiàn)數(shù)據(jù)挖掘下方算法。 人工智能之機器學習(擴展):了解線性回歸、掌握決策樹的應用、熟練使用SVM支持向量機、熟練使用聚類+貝葉斯、掌握EM-HMM-LDA-ML。 文章來源:網(wǎng)絡 版權歸原作者所有 上文內(nèi)容不用于商業(yè)目的,如涉及知識產(chǎn)權問題,請權利人聯(lián)系小編,我們將立即處理 |
|