一、去大廠還是去小廠? 我們做每件事之前,都要先明確做這件事的目的和意義是什么。 先來問問自己,做數(shù)據(jù)分析的目的和價(jià)值是什么?我的理解是,致力于用數(shù)據(jù)幫助企業(yè)解決業(yè)務(wù)問題,輔助業(yè)務(wù)決策。 關(guān)于這個(gè)問題,你可以花3-5年時(shí)間來思考和領(lǐng)悟,不急,但需要想清楚。 你還面臨一個(gè)抉擇,到底是去大廠還是去小廠? 之前接到很多獵頭電話,不少都會(huì)問:“你是做分析還是做挖掘的呀?” 剛開始,也常會(huì)和獵頭在電話里“理論”一番。后來在大廠待過才明白,大廠分工比較細(xì),分析是偏向經(jīng)營分析,即取數(shù)分析寫報(bào)告,而挖掘則是建模調(diào)參部署等。 小廠就不一樣了,談需求、確定思路、指標(biāo)設(shè)計(jì)、平臺(tái)搭建、接入數(shù)據(jù)、處理數(shù)據(jù)、建立寬表、模型訓(xùn)練、結(jié)果分析、撰寫報(bào)告、模型部署、報(bào)表計(jì)算、數(shù)據(jù)可視化等一整個(gè)流程,一個(gè)人幾乎都可能會(huì)參與。 如果有機(jī)會(huì),請(qǐng)一定要去大廠歷練幾年!大廠大多都很開放,常常敢為天下先,敢于引入一些新的東西,包括技術(shù)、思維、制度,技術(shù)比較先進(jìn),優(yōu)秀的人也很多。大廠的管理制度也很完善,福利待遇當(dāng)然會(huì)更好些。大廠的數(shù)據(jù)規(guī)模絕對(duì)夠大,而且應(yīng)用場景也多,可施展的空間應(yīng)該會(huì)比較大。所以,抱著學(xué)習(xí)的態(tài)度在大廠里混幾年,是可以成長很快的。 有好,當(dāng)然也有不好。大廠流程繁雜,整體效率偏低,提一個(gè)取數(shù)申請(qǐng)可能需要1-2周。大廠的內(nèi)部競爭也大,存在于不同項(xiàng)目團(tuán)隊(duì),也存在于同一部門不同成員之間。大項(xiàng)目資源投入大,小項(xiàng)目資源申請(qǐng)很困難,重視程度也不一樣。 最主要的,大廠分工很明細(xì),不同職位的輪換似乎不大容易,從入職到幾年后離開一直做經(jīng)營分析都是有可能的,容易導(dǎo)致能力的單一,不利于個(gè)人綜合素質(zhì)的培養(yǎng)。 相比之下,小廠就靈活多了,人和事都不會(huì)很復(fù)雜,而且效率也高。小廠可能會(huì)優(yōu)先考慮做這件事情的投入和產(chǎn)出,即看應(yīng)用效果。(大廠反而愿意給資源去試,短期內(nèi)不怎么關(guān)注投入產(chǎn)出。)所以,在小廠工作,既要學(xué)會(huì)幫公司賺錢,也要學(xué)會(huì)幫公司省錢。 小廠分工不會(huì)很細(xì),大多需要一個(gè)人做多種工作。所以,小廠里面的程序員常常身懷多技。但小廠數(shù)據(jù)規(guī)模小,技術(shù)實(shí)力較弱,團(tuán)隊(duì)成員整體素質(zhì)不高,而且項(xiàng)目流程不大規(guī)范,常常怎么簡單怎么來,怎么高效怎么來。 有些小公司的碼農(nóng),除了對(duì)外發(fā)過一兩封郵件,平時(shí)的溝通幾乎是在QQ里,結(jié)果待了幾年之后連寫一封郵件都不會(huì)。有些小廠自己沒有數(shù)據(jù),重要是作為乙方給大企業(yè)做項(xiàng)目,這種模式常常受甲方牽制,可發(fā)揮的空間很小,而且一個(gè)項(xiàng)目周期往往比想象中要長(我本人之前就厭倦做乙方),因此不大建議去這樣的公司。 不管大廠還是小廠,在選擇時(shí),建議都要看看所要加入的團(tuán)隊(duì)。 綜合來說,建議先去大廠混幾年,再去小廠找個(gè)Title高點(diǎn)的職位發(fā)揮自己所長。 再來說幾句,什么場景下分析,什么場景下挖掘呢? 分析其實(shí)是一個(gè)很籠統(tǒng)的概念。把當(dāng)前營業(yè)額跟去年同期做對(duì)比發(fā)現(xiàn)增長了不少,這個(gè)也可以認(rèn)為是分析。分析是從數(shù)據(jù)中發(fā)現(xiàn)問題或規(guī)律,并提出合理的建議。分析常常伴隨著要寫報(bào)告,進(jìn)而要給業(yè)務(wù)方匯報(bào)分析結(jié)果。最好是給決策層匯報(bào),因?yàn)闆Q策層有拍板的權(quán)力,而且對(duì)數(shù)據(jù)結(jié)果的感知和可能的應(yīng)用有自己獨(dú)到的認(rèn)知。 如果需要把分析的結(jié)果固化下來,定期輸出結(jié)果,提供給業(yè)務(wù)方,這個(gè)時(shí)候就需要開發(fā)數(shù)據(jù)產(chǎn)品了。 挖掘是用算法解決某個(gè)具體的復(fù)雜問題,用常規(guī)分析方法解決不了的,如客戶流失預(yù)警、商品最優(yōu)推薦組合、最有投遞路線規(guī)劃等。 所以,我一般認(rèn)為,分析是從數(shù)據(jù)中發(fā)現(xiàn)問題或規(guī)律,而挖掘是其中的一塊。 數(shù)據(jù)技能知識(shí)一覽 二、1-3年,“所見即所得”,打磨基礎(chǔ)技術(shù)在職業(yè)生涯的初期,請(qǐng)牢記,“所見即所得,所感即所知,多見即多得,多感即多知”。 不管在大廠還是在小廠,一定要參與到實(shí)際項(xiàng)目當(dāng)中,好好打磨自己的技術(shù)。不管是大項(xiàng)目還是小項(xiàng)目,一定要借助來之不易的機(jī)會(huì),以極致的工匠精神修煉自身。 你最好能從基礎(chǔ)數(shù)據(jù)處理做起。只有這樣,你才能早點(diǎn)知道,數(shù)據(jù)并不像在學(xué)校里做實(shí)驗(yàn)用到的數(shù)據(jù)那樣“好”,它可能看起來“又臟又亂”。只有這樣,你才能早點(diǎn)知道,給你取數(shù)的那個(gè)程序員是如何花了2-3天甚至一周時(shí)間才把數(shù)算好。 如果你精通SQL,那就太好了,這樣就可以直接能夠在數(shù)據(jù)平臺(tái)查看原始的數(shù)據(jù)了。 最好要看一看最原始的數(shù)據(jù)長什么樣。你不一定能一下子理解這些數(shù)據(jù),但你可以慢慢地感受它們,因?yàn)樗鼈兯渡涑鰜淼氖亲钫鎸?shí)的業(yè)務(wù)場景。 舉個(gè)例子吧,原始的會(huì)員注冊(cè)信息數(shù)據(jù)里面,性別一般填“男”、“男性”、“女”、“女性”、“未知”、“其它”等值,但處理好之后的二手?jǐn)?shù)據(jù)里面,性別就變成了“男”、“女”、“未知”等三個(gè)值了。僅看這三個(gè)值,可能會(huì)漏掉一些業(yè)務(wù)場景,填“男”可能是從移動(dòng)端輸入時(shí)選擇的,填“男性”則可能是手工填寫注冊(cè)表格時(shí)勾選上的。而漏掉的這個(gè)場景,說不定就是所要找的那個(gè)分析點(diǎn)。 你最好還能熟練掌握一兩門編程語言,比如當(dāng)下流行的Python,作為入行的基礎(chǔ)技能。(順便說一下,碼農(nóng)界普遍認(rèn)為只會(huì)SQL的不算真正的程序員~~) 當(dāng)今時(shí)代,編程已經(jīng)從娃娃開始抓起。早在5年前,英國規(guī)定5歲以上兒童必須學(xué)習(xí)編程課,法國將編程列入初等教育選修課程,美國已有40個(gè)州制定政策支持計(jì)算機(jī)科學(xué),有35個(gè)州將計(jì)算機(jī)科學(xué)課程納入高中畢業(yè)學(xué)分體系。美國前總統(tǒng)奧巴馬就曾在全美發(fā)起“編程一小時(shí)”的運(yùn)動(dòng),旨在讓全美小學(xué)生開始學(xué)習(xí)編程。 2017年,浙江、北京、山東等省確定要把Python編程基礎(chǔ)納入信息技術(shù)課程和高考的內(nèi)容體系。編程將是一項(xiàng)很基礎(chǔ)的技能,也將是承接其他知識(shí)的基石。在未來,會(huì)編程很可能跟使用智能手機(jī)一樣普遍。 當(dāng)處理基礎(chǔ)數(shù)據(jù)的時(shí)候,必然會(huì)在數(shù)據(jù)庫或數(shù)據(jù)平臺(tái)上進(jìn)行。 你可能需要對(duì)這些存儲(chǔ)數(shù)據(jù)的環(huán)境加以了解,如傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫Oracle、Mysql、DB2等,又如當(dāng)下流行的Nosql數(shù)據(jù)庫HBase、Redis、MongoDB、Cassandra等,再如大數(shù)據(jù)集群平臺(tái)、原理及其相關(guān)概念,類似Hadoop、Hive、Hue、MapReduce、Spark、Scala、Sqoop、Pig、Zookeeper、Flume、Oozie等。 你或者也需要了解數(shù)據(jù)傳輸?shù)墓ぞ撸鏒ataStage、Kafka、Sqoop等。你甚至也可能被安排做安裝系統(tǒng)、部署軟件、配置環(huán)境、同步數(shù)據(jù)等一些瑣碎的工作。 關(guān)于這些,如果你非常感興趣,可以考慮往大數(shù)據(jù)平臺(tái)方向發(fā)展,成為數(shù)據(jù)開發(fā)工程師、數(shù)據(jù)平臺(tái)運(yùn)維工程師、或者數(shù)據(jù)平臺(tái)架構(gòu)師。 你不必理解太深,可僅僅停留在了解層面,但知道這些知識(shí)會(huì)讓你和數(shù)據(jù)開發(fā)工程師、運(yùn)維工程師和平臺(tái)架構(gòu)師溝通起來順暢很多。 當(dāng)處理和分析數(shù)據(jù)時(shí),有些關(guān)于數(shù)據(jù)的操作是必然需要掌握的。首先是常見格式的數(shù)據(jù)導(dǎo)入導(dǎo)出,如TXT、CSV、XLS,然后是主要的數(shù)據(jù)加工技巧,包括建表/視圖、插入、更新、查詢、并聯(lián)、串聯(lián)、匯總、排序、格式轉(zhuǎn)換、循環(huán)、常用的函數(shù)、描述統(tǒng)計(jì)量、變量,等等。 這些操作很基礎(chǔ),但不簡單。你可能經(jīng)常會(huì)遇到各種情況,如花了一個(gè)下午時(shí)間就是沒能把一個(gè)很小的CSV數(shù)據(jù)文件正確地導(dǎo)入到數(shù)據(jù)庫中,不是亂碼就是錯(cuò)位,或者兩表關(guān)聯(lián)時(shí)老是報(bào)一些煩人的錯(cuò)誤,或者日期字段進(jìn)行格式轉(zhuǎn)換時(shí)出現(xiàn)空值……反正狀況百出,防不勝防。 關(guān)于這些基礎(chǔ)操作,需要不斷積累經(jīng)驗(yàn),盡量能夠做到在不同場景下快速高效地完成,輕松應(yīng)付。 如果有人已經(jīng)給你取好了數(shù),而你的工作是分析數(shù)據(jù)寫報(bào)告,那么分析技巧首先是你需要培養(yǎng)起來的。 對(duì)拿到的數(shù)據(jù),要時(shí)刻保持疑問,不能太樂觀,因?yàn)閯e人算好的數(shù)據(jù)未必完全是你想要的數(shù)據(jù),又或者數(shù)據(jù)質(zhì)量并不是你想的那樣好。 在分析之前,需要進(jìn)行數(shù)據(jù)探索,看看數(shù)據(jù)質(zhì)量如何。比如,你需要清楚有多少數(shù)據(jù)量,有什么信息,可衍生什么指標(biāo),缺失情況如何,如何填補(bǔ)缺失值,值的分布情況如何,如何處理極值,名義/字符變量是否需要轉(zhuǎn)換,等等。 分析時(shí),要清楚指標(biāo)不同形態(tài)的含義,如絕對(duì)值、占比、同比、趨勢(shì)、均值、標(biāo)準(zhǔn)差,等等。 在這里,我想指出,數(shù)據(jù)有對(duì)比才有意義。如果一個(gè)窮人撿到100元,他會(huì)很高興,這夠他吃好幾天了。但如果讓一個(gè)富人去撿100元,那感覺就不一樣了,他可能覺得他不值得這么做,因?yàn)橛脧澭斓臅r(shí)間掙到的錢遠(yuǎn)遠(yuǎn)不止這么多。 統(tǒng)計(jì)學(xué)知識(shí)是必須要掌握的,這是基礎(chǔ)。如果你非數(shù)學(xué)或統(tǒng)計(jì)學(xué)專業(yè)出身,那么請(qǐng)自學(xué)。 另外,也請(qǐng)你一定要掌握主流算法的原理,比如線性回歸、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析、聚類、協(xié)同過濾、隨機(jī)森林,再深入一點(diǎn),還可以掌握文本分析、深度學(xué)習(xí)、圖像識(shí)別等相關(guān)的算法。 關(guān)于這些算法,不僅需要了解其原理,你最好可以流暢地闡述出來,還需要你知曉其在各行業(yè)的一些應(yīng)用場景。 關(guān)于這些算法,你最好能夠參與關(guān)于模型開發(fā)的具體項(xiàng)目實(shí)踐。那樣的話,你就可以清楚關(guān)于建模的大概流程是怎么樣的,不同算法在建模中有不同,需要注意哪些地方。 如果你打字速度不快,那也最好重視起來,這雖然是一個(gè)不痛不癢的問題,但也在較大程度上影響你的工作效率,進(jìn)而影響到你的工作產(chǎn)出,當(dāng)然也可能因此會(huì)影響到你的薪資哦! 另外,還有一些提高工作效率的小技巧,也可以多學(xué)多掌握。例如,一些電腦的快捷鍵,定期保存文件,文件的歸類存放和快速查找,等等。 作為職場新人,你不僅需要打磨技術(shù),純技術(shù)之外的技能也需要不斷修煉。 職場的做事方式方法、為人處事以及一些潛規(guī)則,更多時(shí)候只能靠悟,說出來就可能不大好了,因此需要不斷領(lǐng)悟。畢竟,悟性這東西是很重要的。 還有,溝通是碼農(nóng)普遍的老大難問題,建議重視起來并加強(qiáng)。 你甚至可以學(xué)一下投影儀或打印機(jī)怎么用。(說不定可以靠這個(gè)技能在老板或同事前面大攢人品哦~~) 如果你有機(jī)會(huì)和很牛的人在一起工作,那你太幸運(yùn)了。你可以多請(qǐng)教優(yōu)秀的人一些問題,也可以平時(shí)多觀察那些優(yōu)秀之人的做事方式、工作習(xí)慣,看看有哪些好的地方、好的品質(zhì)值得你學(xué)習(xí)。只要吸納進(jìn)來,就可以轉(zhuǎn)化為你的優(yōu)點(diǎn),推動(dòng)你進(jìn)步。 我畢業(yè)的第三年,看到俞敏洪老師在一些演講中提及他大學(xué)時(shí)讀了800多本書,很受觸動(dòng),真正認(rèn)識(shí)到了讀書的重要性,于是給自己制定了一年讀50本書的計(jì)劃,什么書都讀,三年左右時(shí)間,我的心智和心態(tài)都發(fā)生了很大的改變,完全不一樣了。 俗話說:“三人行,必有我?guī)煛!泵總€(gè)人都有每個(gè)人的優(yōu)點(diǎn),對(duì)于所遇到的每個(gè)人,建議多欣賞別人的優(yōu)點(diǎn),少抨擊別人的缺點(diǎn),這樣你就可以“兼收并蓄”,逐步塑造更好的自己。 三、3-5年,“技多不壓身”,拓展能力邊界當(dāng)邁過了最初的3個(gè)年頭后,你的技術(shù)越來越好,也做了不少項(xiàng)目,也越來越清楚自己未來的方向,但你也會(huì)發(fā)現(xiàn)有越來越多的東西還需要去學(xué)習(xí)和加強(qiáng)。 這個(gè)時(shí)候,你的知識(shí)是零散的,還遠(yuǎn)未形成體系。你也許還需要花些時(shí)間好好梳理和總結(jié)過去幾年積累的經(jīng)驗(yàn)和知識(shí),不斷沉淀,形成自己的知識(shí)體系和方法論。在梳理的過程中,你會(huì)不斷清楚自己有什么,缺什么,哪些地方弱,哪些地方強(qiáng),未來需要花多少時(shí)間補(bǔ)強(qiáng)哪項(xiàng)技能,等等。 你可以沿著數(shù)據(jù)的整個(gè)流程,即數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析/開發(fā)模型、報(bào)表計(jì)算、數(shù)據(jù)可視化,不斷拓展自己的能力邊界,最好在流程中的各個(gè)環(huán)節(jié)都做過項(xiàng)目。 例如,在數(shù)據(jù)采集環(huán)節(jié),你可以學(xué)一下爬蟲技術(shù)。 這個(gè)時(shí)候,你不再是新人。新人大多是等著別人安排工作,并在詳細(xì)的指導(dǎo)之下完成。而你慢慢成長為老司機(jī)了,需要獨(dú)立完成一個(gè)個(gè)任務(wù)了,如獨(dú)立開發(fā)一個(gè)模型、寫一份會(huì)員分析報(bào)告、梳理關(guān)于近期營業(yè)額下降原因分析的思路,等等。 你需要不斷適應(yīng)在無人指點(diǎn)的情況自己去尋求問題解決辦法,也可能需要應(yīng)對(duì)此前沒有遇到過的新情況并獨(dú)立展開調(diào)查研究。幾乎沒有人幫你,你也沒法指望別人明確告訴你怎么做。而你需要的是,歷經(jīng)3年之后成長路上的一個(gè)質(zhì)變。 在這過程中,你可能需要不斷查找資料,咨詢別人,并加以思考,梳理出有效的方案,最后落地執(zhí)行。在這過程中,可以有效訓(xùn)練以下幾方面的能力:
關(guān)于總結(jié)梳理,建議定期做,常常做,每天做,建議養(yǎng)成一個(gè)日常習(xí)慣。 對(duì)于不同問題和場景的思路整理總結(jié),常常需要方法論指導(dǎo),如麥肯錫金字塔原理、結(jié)構(gòu)化思維等。關(guān)于這些方法論,不僅要諳熟于心,也需要將其應(yīng)用到實(shí)際工作當(dāng)中。這是受用一生的知識(shí),你也可將其運(yùn)用到你的日常生活中,用以解決你日常的問題和需求。 關(guān)于思路的整理,可以借助思維導(dǎo)圖工具。 另外,請(qǐng)注重培養(yǎng)自己的數(shù)據(jù)敏感性和數(shù)據(jù)思維,越早開始越好。關(guān)于如何培養(yǎng)數(shù)據(jù)思維,將以另外的文章單獨(dú)闡述。 EXCEL是操作和處理數(shù)據(jù)最方便的工具,也是必須掌握的辦公軟件。很多人會(huì)用EXCEL,但根本不精通EXCEL。簡歷里那句“精通EXCEL等辦公軟件”(你的簡歷里是否也這樣寫~~),常常是一個(gè)謊言。 |
|