故事摘自知乎,鑒于有較大的啟發(fā)意義,整理分享給大家。 大牛A:工作6年,咨詢公司+數(shù)據(jù)公司 1、分析與挖掘工具的選擇 數(shù)據(jù)分析、數(shù)據(jù)挖掘的相關(guān)軟件發(fā)展速度相當(dāng)快。不必糾結(jié)于學(xué)習(xí)哪個(gè)軟件,一方面要考慮自身?xiàng)l件,另一方要考慮團(tuán)隊(duì)情況,不要大家都在用R,你去用python,不是不可以,而是會(huì)加大了學(xué)習(xí)工作的成本,SQL和Excel是基礎(chǔ)。 2.不要迷戀算法 體現(xiàn)你在公司中的價(jià)值不是你用的算法多高明,報(bào)告多華麗,一切分析和挖掘的終極目的是解決問(wèn)題。只要你解決了問(wèn)題,你就是牛逼的,即使你用線性回歸,也沒(méi)有人去說(shuō)你,你也不要因?yàn)橛昧撕?jiǎn)單算法而自慚形考,因?yàn)殡S著你對(duì)算法的了解,你會(huì)發(fā)現(xiàn)很多算法是殊途同歸,一種算法可能是另外一種算法的擴(kuò)展。算法的重要性體現(xiàn)在你可以有多種方法去解決同一個(gè)問(wèn)題,甚至有時(shí)一個(gè)問(wèn)題也許就只有唯一解。 3. 拓展知識(shí),統(tǒng)計(jì)學(xué)和概率方面的知識(shí)要學(xué)一下,基礎(chǔ)之一。 4.與其他人員的交流溝通 坊間流傳著一種說(shuō)法,好事從來(lái)輪不到做數(shù)據(jù)的,出問(wèn)題了做數(shù)據(jù)的來(lái)背鍋。我可以告訴你這中情況很可能發(fā)生。數(shù)據(jù)人員在一個(gè)公司中面對(duì)的人員非常多,包括技術(shù)開(kāi)發(fā)、運(yùn)維、運(yùn)營(yíng)、市場(chǎng)、高層等等。人多了,打起交道來(lái)有時(shí)候并不那么簡(jiǎn)單,單單一個(gè)指標(biāo)的制定就可能設(shè)計(jì)到不同部門的部門利益。做分析或者挖掘都是要結(jié)合業(yè)務(wù)來(lái)的,如果你不了解業(yè)務(wù)或者業(yè)務(wù)人員故意不告訴你一個(gè)東西,你做出來(lái)的東西很可能把自己給坑了。一定不要拿著做出來(lái)的結(jié)果想當(dāng)然的去告訴別人該怎么做,一切分析的結(jié)果都是執(zhí)行的參考,特別是對(duì)高層,尤其要注意。有時(shí)候一個(gè)政策的執(zhí)行會(huì)設(shè)及到很多方面,一些事情你并不一定了解。對(duì)自己輸出的結(jié)果有充分的了解,因?yàn)閿?shù)據(jù)既可以指導(dǎo)業(yè)務(wù),也可能傷及到業(yè)務(wù),甚至傷人。 5.獨(dú)立完成一個(gè)項(xiàng)目,從數(shù)據(jù)采集、數(shù)據(jù)清洗、模型建立、模型優(yōu)化、結(jié)果輸出等等所有的工作都要自己來(lái)完成。任何一個(gè)數(shù)據(jù)分析或者挖掘項(xiàng)目,不管多么小,相關(guān)的流程都要走一遍,做多了就會(huì)知道自己的瓶頸。 6.用有一定的編程能力,如果你畢業(yè)自計(jì)算機(jī)相關(guān)專業(yè),那么你要更關(guān)注3,如果你畢業(yè)于統(tǒng)計(jì)學(xué)或者數(shù)學(xué)等專業(yè),那么一定要提高自己的編程能力。好處多多,例如可以把一些復(fù)雜性不高但重復(fù)性高的工作自動(dòng)化。另外很多數(shù)據(jù)分析挖掘工作要有較強(qiáng)的工程能力來(lái)配合,而編程是不可或缺的。 大牛B:某Amazon-機(jī)器學(xué)習(xí)及數(shù)據(jù)科學(xué)家 【履歷】 10年至12年,谷歌公司的實(shí)習(xí)生; 12年到17年,博士畢業(yè),于Amazon擔(dān)任機(jī)器學(xué)習(xí)及數(shù)據(jù)科學(xué)家。 【見(jiàn)聞】當(dāng)年一起從事數(shù)據(jù)研究(數(shù)據(jù)挖掘)的小伙伴都去哪兒了?
經(jīng)驗(yàn):機(jī)器學(xué)習(xí)技術(shù)方面 模型是平的,很容易獲得。經(jīng)驗(yàn)是曲折的,必須耗費(fèi)無(wú)數(shù)血汗去獲得。這點(diǎn)不管對(duì)于做研究還是做業(yè)務(wù)都是如此。模型方面,現(xiàn)在不外乎五大生態(tài)系統(tǒng):
上面五種生態(tài)除了最后一個(gè),其實(shí)都非常容易入門,有基本的數(shù)學(xué)、統(tǒng)計(jì)知識(shí),看看github源代碼,鼓搗鼓搗基本上都是可以出東西的。但是具體參數(shù)怎么調(diào),這些都是費(fèi)力不一定討好的地方,具體出多少成果,完全要看自己的具體領(lǐng)域和上下游情況。 大牛C:某IT從業(yè)者,轉(zhuǎn)行數(shù)據(jù)分析;2年IT,3年數(shù)據(jù)分析經(jīng)驗(yàn) 【履歷】 2012-2014年,從事數(shù)據(jù)報(bào)表開(kāi)發(fā),學(xué)SQL,用Java;期間學(xué)習(xí)BI的項(xiàng)目實(shí)施。 2014年-2017年,方向轉(zhuǎn)為數(shù)據(jù)分析。公司開(kāi)發(fā)大數(shù)據(jù),轉(zhuǎn)而學(xué)習(xí)Hive sql,研究linux,目前在學(xué)R 【經(jīng)驗(yàn)】 1、學(xué)一門通一門,以后難有機(jī)會(huì)回頭。一年的finereport報(bào)表開(kāi)發(fā)讓我有了業(yè)務(wù)基礎(chǔ),期間沒(méi)有丟棄老技能Java,后重拾起Java做接口開(kāi)發(fā)。有了Java的基礎(chǔ)很好上手Hadoop,之前學(xué)的SQL也再Hive SQL上派上了用場(chǎng)。linux學(xué)習(xí)有些困難,R語(yǔ)言視為了數(shù)據(jù)挖掘需要。 2、業(yè)務(wù)督促是最好的導(dǎo)師,有的學(xué)習(xí)是自發(fā)的,也是業(yè)務(wù)逼的。 大牛D:兩年數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)互聯(lián)網(wǎng)數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)的日常工作:
經(jīng)驗(yàn)總結(jié):一個(gè)數(shù)據(jù)挖掘工程師工作中用到的技能包括HiveQL、ETL、機(jī)器學(xué)習(xí)算法、一種強(qiáng)類型語(yǔ)言(CPP/Python/Java也行吧)、Spark/Hadoop。 |
|
來(lái)自: 快讀書(shū)館 > 《數(shù)據(jù)分析》