首先你要有自己職業(yè)規(guī)劃,知道數(shù)據(jù)分析和大數(shù)據(jù)是做什么的、能解決什么問題,給自己定一個小目標。一個有經(jīng)驗的數(shù)據(jù)科學(xué)家:最少要有2到3年工作經(jīng)驗,而工作經(jīng)驗體現(xiàn)在運用數(shù)據(jù)科學(xué)處理各種商業(yè)問題的能力上,同時需要具備以下技能:
未來數(shù)據(jù)分析是一種工具,在金融、互聯(lián)網(wǎng)、電子商務(wù)、公共服務(wù)、醫(yī)療健康等領(lǐng)域非常廣泛,職位上面偏業(yè)務(wù)的有數(shù)據(jù)分析師、數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)規(guī)劃師等職位,偏技術(shù)的有大數(shù)據(jù)工程師、大數(shù)據(jù)架構(gòu)師、算法工程師等職位。你需要了解自己的興趣和特長并選擇合適的職業(yè)通道。具體可以看下《與大數(shù)據(jù)相關(guān)的工作職位有哪些?》這篇文章。 在大學(xué)本科階段,沒有什么比學(xué)好數(shù)學(xué)更為重要的了:先關(guān)課程包括《高等數(shù)學(xué)》《線性代數(shù)》《概率與數(shù)理統(tǒng)計》《數(shù)值分析》《多元分析》《泛函分析》。數(shù)學(xué)是一門基礎(chǔ)學(xué)科,需要長時間的學(xué)習(xí)和知識積累,而且數(shù)學(xué)課程離開學(xué)校是沒地方補的。其他能力大部分是可以通過其他渠道學(xué)習(xí)的: 一、數(shù)據(jù)分析技能: 數(shù)據(jù)清洗 建立數(shù)學(xué)模型 運用合適的統(tǒng)計方法來分析數(shù)據(jù) 運用機器學(xué)習(xí)算法 檢驗?zāi)P偷恼_與否 實現(xiàn)數(shù)據(jù)可視化 二、編程技能: 精通一種或多種數(shù)據(jù)分析工具(R/Matlab/SPSS/SAS) 精通一種或多種面向?qū)蔷幊陶Z言(Python、C++、Java、C#、perl 等) 其他IT公司經(jīng)常需要的技能(熟悉HTML/CSS,互聯(lián)網(wǎng)公司可能會要求) 三、數(shù)據(jù)管理技能(尤其是針對大規(guī)模數(shù)據(jù)): hadoop(尤其是hive/HBase、HDFS和MapRdeuce) SQL NoSL 其他IT公司常用的數(shù)據(jù)管理技能 四、商業(yè)知識:熟悉瀑布模型和敏捷模型等軟件開發(fā)模式 理解公司運行規(guī)則 對于產(chǎn)業(yè)所屬領(lǐng)域有所了解 其他公司常用商業(yè)技巧 五、交流技巧(軟實力): 做演講和PPT演示來展示產(chǎn)品 撰寫報名 懂得傾聽重點信息 能夠?qū)⒂脩舻男枨筠D(zhuǎn)換為實際產(chǎn)品 其他公司常用交流交往技能 作為第一批“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”的科班學(xué)生,你們無疑是幸運的,仰望星空,你們已經(jīng)走在數(shù)據(jù)科學(xué)的大路上,前途一片光明。希望你們能想老一輩統(tǒng)計學(xué)家和人工智能專家學(xué)習(xí),繼往開來,早日成才!最后推薦幾本課外學(xué)習(xí)教材給大家僅供參考! 推薦書籍《統(tǒng)計學(xué):從數(shù)據(jù)到結(jié)論》吳喜之著 《復(fù)雜數(shù)據(jù)統(tǒng)計方法 基于R的應(yīng)用》吳喜之著 《模式分類》第二版:除了保留了第1版的關(guān)于統(tǒng)計模式識別和結(jié)構(gòu)模式識別的主要內(nèi)容以外,讀者將會發(fā)現(xiàn)新增了許多近25年來的新理論和新方法,其中包括神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)、數(shù)據(jù)挖掘、進化計算、不變量理論、隱馬爾可夫模型、統(tǒng)計學(xué)習(xí)理論和支持向量機等。 《推薦系統(tǒng)實踐》:過大量代碼和圖表全面系統(tǒng)地闡述了和推薦系統(tǒng)有關(guān)的理論基礎(chǔ),介紹了評價推薦系統(tǒng)優(yōu)劣的各種標準(比如 覆蓋率、滿意度)和方法(比如AB測試),總結(jié)了當今互聯(lián)網(wǎng)領(lǐng)域中各種和推薦有關(guān)的產(chǎn)品和服務(wù)。 《深入搜索引擎–海量信息的壓縮、索引和查詢》:理論和實踐并重,深入淺出地給出了海量信息數(shù)據(jù)處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在于不僅僅滿足信息檢索理論學(xué)習(xí)的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。 《大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理》:主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。 《Web數(shù)據(jù)挖掘》:信息檢索領(lǐng)域的書籍,該書深入講解了從大量非結(jié)構(gòu)化Web數(shù)據(jù)中提取和產(chǎn)生知識的技術(shù)。書中首先論述了Web的基礎(chǔ)(包括Web信息采集機制、Web標引機制以及基于關(guān)鍵字或基于相似性搜索機制),然后系統(tǒng)地描述了Web挖掘的基礎(chǔ)知識,著重介紹基于超文本的機器學(xué)習(xí)和數(shù)據(jù)挖掘方法,如聚類、協(xié)同過濾、監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),最后講述了這些基本原理在Web挖掘中的應(yīng)用。《Web數(shù)據(jù)挖掘》為讀者提供了堅實的技術(shù)背景和最新的知識。 《數(shù)據(jù)之巔》:對大數(shù)據(jù)追根溯源,提出當前信息技術(shù)的發(fā)展,已經(jīng)讓中國獲得了后發(fā)優(yōu)勢,中國要在大數(shù)據(jù)時代的全球競爭中勝出,必須把大數(shù)據(jù)從科技符號提升成為文化符號,在全社會倡導(dǎo)數(shù)據(jù)文化。、 《深入淺出統(tǒng)計學(xué)》:本書涵蓋的知識點包括:信息可視化、概率計算、幾何分布、二項分布及泊松分布、正態(tài)分布、統(tǒng)計抽樣、置信區(qū)間的構(gòu)建、假設(shè)檢驗、卡方分布、相關(guān)與回歸等等,完整涵蓋AP考試范圍。 《矩陣分析》:本書從數(shù)學(xué)分析的角度論述矩陣分析的經(jīng)典方法和現(xiàn)代方法,取材新,有一定的深度,并給出在多元微積分、復(fù)分析、微分方程、量優(yōu)化、逼近理論中的許多重要應(yīng)用。主要內(nèi)容包括:特征值、特征向量和相似性,酉等價和正規(guī)矩陣,標準形,Hermite矩陣和對稱矩陣,向量范數(shù)和矩陣范數(shù),特征值和估計和擾動,正定矩陣,非負矩陣。 《機器學(xué)習(xí)導(dǎo)論》:對機器學(xué)習(xí)的定義和應(yīng)用實例進行了介紹,涵蓋了監(jiān)督學(xué)習(xí)。貝葉斯決策理論。參數(shù)方法、多元方法、維度歸約、聚類、非參數(shù)方法、決策樹。線性判別式、多層感知器,局部模型、隱馬爾可夫模型。分類算法評估和比較,組合多學(xué)習(xí)器以及增強學(xué)習(xí)等。 《機器學(xué)習(xí)及其應(yīng)用》:全書共分14章,內(nèi)容分別涉及因果推斷、流形學(xué)習(xí)與降維、遷移學(xué)習(xí)、類別不平衡學(xué)習(xí)、演化聚類、多標記學(xué)習(xí)、排序?qū)W習(xí)、半監(jiān)督學(xué)習(xí)等技術(shù)和協(xié)同過濾、社區(qū)推薦、機器翻譯等應(yīng)用,以及互聯(lián)網(wǎng)應(yīng)用對機器學(xué)習(xí)技術(shù)需求的探討。 END. |
|