小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)分析師的職業(yè)路徑,那些大?,F(xiàn)在都是什么狀態(tài)?

 快讀書(shū)館 2017-03-08

故事摘自知乎,鑒于有較大的啟發(fā)意義,整理分享給大家。

大牛A:工作6年,咨詢公司+數(shù)據(jù)公司

1、分析與挖掘工具的選擇

數(shù)據(jù)分析、數(shù)據(jù)挖掘的相關(guān)軟件發(fā)展速度相當(dāng)快。不必糾結(jié)于學(xué)習(xí)哪個(gè)軟件,一方面要考慮自身?xiàng)l件,另一方要考慮團(tuán)隊(duì)情況,不要大家都在用R,你去用python,不是不可以,而是會(huì)加大了學(xué)習(xí)工作的成本,SQL和Excel是基礎(chǔ)。

2.不要迷戀算法

體現(xiàn)你在公司中的價(jià)值不是你用的算法多高明,報(bào)告多華麗,一切分析和挖掘的終極目的是解決問(wèn)題。只要你解決了問(wèn)題,你就是牛逼的,即使你用線性回歸,也沒(méi)有人去說(shuō)你,你也不要因?yàn)橛昧撕?jiǎn)單算法而自慚形考,因?yàn)殡S著你對(duì)算法的了解,你會(huì)發(fā)現(xiàn)很多算法是殊途同歸,一種算法可能是另外一種算法的擴(kuò)展。算法的重要性體現(xiàn)在你可以有多種方法去解決同一個(gè)問(wèn)題,甚至有時(shí)一個(gè)問(wèn)題也許就只有唯一解。

3. 拓展知識(shí),統(tǒng)計(jì)學(xué)和概率方面的知識(shí)要學(xué)一下,基礎(chǔ)之一。

4.與其他人員的交流溝通

坊間流傳著一種說(shuō)法,好事從來(lái)輪不到做數(shù)據(jù)的,出問(wèn)題了做數(shù)據(jù)的來(lái)背鍋。我可以告訴你這中情況很可能發(fā)生。數(shù)據(jù)人員在一個(gè)公司中面對(duì)的人員非常多,包括技術(shù)開(kāi)發(fā)、運(yùn)維、運(yùn)營(yíng)、市場(chǎng)、高層等等。人多了,打起交道來(lái)有時(shí)候并不那么簡(jiǎn)單,單單一個(gè)指標(biāo)的制定就可能設(shè)計(jì)到不同部門的部門利益。做分析或者挖掘都是要結(jié)合業(yè)務(wù)來(lái)的,如果你不了解業(yè)務(wù)或者業(yè)務(wù)人員故意不告訴你一個(gè)東西,你做出來(lái)的東西很可能把自己給坑了。一定不要拿著做出來(lái)的結(jié)果想當(dāng)然的去告訴別人該怎么做,一切分析的結(jié)果都是執(zhí)行的參考,特別是對(duì)高層,尤其要注意。有時(shí)候一個(gè)政策的執(zhí)行會(huì)設(shè)及到很多方面,一些事情你并不一定了解。對(duì)自己輸出的結(jié)果有充分的了解,因?yàn)閿?shù)據(jù)既可以指導(dǎo)業(yè)務(wù),也可能傷及到業(yè)務(wù),甚至傷人。

5.獨(dú)立完成一個(gè)項(xiàng)目,從數(shù)據(jù)采集、數(shù)據(jù)清洗、模型建立、模型優(yōu)化、結(jié)果輸出等等所有的工作都要自己來(lái)完成。任何一個(gè)數(shù)據(jù)分析或者挖掘項(xiàng)目,不管多么小,相關(guān)的流程都要走一遍,做多了就會(huì)知道自己的瓶頸。

6.用有一定的編程能力,如果你畢業(yè)自計(jì)算機(jī)相關(guān)專業(yè),那么你要更關(guān)注3,如果你畢業(yè)于統(tǒng)計(jì)學(xué)或者數(shù)學(xué)等專業(yè),那么一定要提高自己的編程能力。好處多多,例如可以把一些復(fù)雜性不高但重復(fù)性高的工作自動(dòng)化。另外很多數(shù)據(jù)分析挖掘工作要有較強(qiáng)的工程能力來(lái)配合,而編程是不可或缺的。

數(shù)據(jù)分析師的職業(yè)路徑,那些大?,F(xiàn)在都是什么狀態(tài)?

大牛B:某Amazon-機(jī)器學(xué)習(xí)及數(shù)據(jù)科學(xué)家

【履歷】

10年至12年,谷歌公司的實(shí)習(xí)生;

12年到17年,博士畢業(yè),于Amazon擔(dān)任機(jī)器學(xué)習(xí)及數(shù)據(jù)科學(xué)家。

【見(jiàn)聞】當(dāng)年一起從事數(shù)據(jù)研究(數(shù)據(jù)挖掘)的小伙伴都去哪兒了?

  • 轉(zhuǎn)純程序員(50%左右):數(shù)據(jù)科學(xué)家的價(jià)值體現(xiàn)其實(shí)非常曲折,有些時(shí)候心累了,就直接轉(zhuǎn)純程序員了。中間牛逼無(wú)敵的大有人在,因?yàn)槌绦騿T的選擇面很寬,所以不乏薪資比我多兩三倍的牛人~

  • 轉(zhuǎn)PM(40%左右):數(shù)據(jù)科學(xué)家免不了忽悠,忽悠多了失去了自己,有的就變成了會(huì)寫SQL的產(chǎn)品經(jīng)理。

  • 變成全棧數(shù)據(jù)科學(xué)家(10%左右):能在數(shù)據(jù)科學(xué)方面混到很多年的,大多都最后變成了全棧科學(xué)家,我現(xiàn)在就在這條路上走。全?;暮锰幨乔懊婵梢酝ǔ绦騿T、系統(tǒng)構(gòu)架,后面可以通管理層,大侃價(jià)值觀,對(duì)全局把控強(qiáng)了之后,做的東西更容易落地。壞處是頭發(fā)白的特別多。

經(jīng)驗(yàn):機(jī)器學(xué)習(xí)技術(shù)方面

模型是平的,很容易獲得。經(jīng)驗(yàn)是曲折的,必須耗費(fèi)無(wú)數(shù)血汗去獲得。這點(diǎn)不管對(duì)于做研究還是做業(yè)務(wù)都是如此。模型方面,現(xiàn)在不外乎五大生態(tài)系統(tǒng):

  1. Python + Scikit Learn,最適合生產(chǎn)環(huán)境和數(shù)據(jù)研究混用

  2. Spark + MLLib

  3. Java + Weka

  4. TensorFlow等深度學(xué)習(xí)生態(tài)

  5. 微軟等內(nèi)部重造輪子生態(tài)

上面五種生態(tài)除了最后一個(gè),其實(shí)都非常容易入門,有基本的數(shù)學(xué)、統(tǒng)計(jì)知識(shí),看看github源代碼,鼓搗鼓搗基本上都是可以出東西的。但是具體參數(shù)怎么調(diào),這些都是費(fèi)力不一定討好的地方,具體出多少成果,完全要看自己的具體領(lǐng)域和上下游情況。

數(shù)據(jù)分析師的職業(yè)路徑,那些大?,F(xiàn)在都是什么狀態(tài)?

大牛C:某IT從業(yè)者,轉(zhuǎn)行數(shù)據(jù)分析;2年IT,3年數(shù)據(jù)分析經(jīng)驗(yàn)

【履歷】

2012-2014年,從事數(shù)據(jù)報(bào)表開(kāi)發(fā),學(xué)SQL,用Java;期間學(xué)習(xí)BI的項(xiàng)目實(shí)施。

2014年-2017年,方向轉(zhuǎn)為數(shù)據(jù)分析。公司開(kāi)發(fā)大數(shù)據(jù),轉(zhuǎn)而學(xué)習(xí)Hive sql,研究linux,目前在學(xué)R

【經(jīng)驗(yàn)】

1、學(xué)一門通一門,以后難有機(jī)會(huì)回頭。一年的finereport報(bào)表開(kāi)發(fā)讓我有了業(yè)務(wù)基礎(chǔ),期間沒(méi)有丟棄老技能Java,后重拾起Java做接口開(kāi)發(fā)。有了Java的基礎(chǔ)很好上手Hadoop,之前學(xué)的SQL也再Hive SQL上派上了用場(chǎng)。linux學(xué)習(xí)有些困難,R語(yǔ)言視為了數(shù)據(jù)挖掘需要。

2、業(yè)務(wù)督促是最好的導(dǎo)師,有的學(xué)習(xí)是自發(fā)的,也是業(yè)務(wù)逼的。

數(shù)據(jù)分析師的職業(yè)路徑,那些大牛現(xiàn)在都是什么狀態(tài)?

大牛D:兩年數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)

互聯(lián)網(wǎng)數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)的日常工作:

  1. 了解需求,考察數(shù)據(jù)。和產(chǎn)品和運(yùn)營(yíng)開(kāi)會(huì),了解需求,自己去數(shù)據(jù)倉(cāng)庫(kù)中考察各種數(shù)據(jù)(寫HiveQL,類SQL語(yǔ)言)。

  2. 生成原始特征表。考察完之后將要用的數(shù)據(jù)匯總到一張Hive表中,作為原始特征表,這張表為后面的特征工程提供原始數(shù)據(jù)(寫ETL)。

  3. 模型選擇。將問(wèn)題抽象成分類、聚類或者是標(biāo)注問(wèn)題,然后選擇一個(gè)模型(熟悉機(jī)器學(xué)習(xí)算法)。

  4. 實(shí)現(xiàn)模型,或者用開(kāi)源工具包。用開(kāi)源工具包需要先熟悉接口(熟悉機(jī)器學(xué)習(xí)算法或是開(kāi)源工具包,自己實(shí)現(xiàn)的話用CPP或是Python,Java寫矩陣運(yùn)算有點(diǎn)尷尬)。

  5. 特征工程。根據(jù)2中的原始特征表生成4中模型需要的數(shù)據(jù),特征的增刪改都需要在特征工程中完成。特征工程是整個(gè)過(guò)程中用時(shí)最長(zhǎng),影響最大的環(huán)節(jié),需要工程師對(duì)業(yè)務(wù)深刻了解。(一般是計(jì)算密集型程序,單機(jī)跑太慢,用分布式集群跑,就得用MR程序或者Spark程序,現(xiàn)在比較流行Spark)。

  6. 將結(jié)果數(shù)據(jù)寫回Hive,然后生成抽查數(shù)據(jù),讓運(yùn)營(yíng)檢驗(yàn)(寫HiveQL)。

經(jīng)驗(yàn)總結(jié):一個(gè)數(shù)據(jù)挖掘工程師工作中用到的技能包括HiveQL、ETL、機(jī)器學(xué)習(xí)算法、一種強(qiáng)類型語(yǔ)言(CPP/Python/Java也行吧)、Spark/Hadoop。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多