大數(shù)據(jù)指無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的大體量數(shù)據(jù)集合。
海量數(shù)據(jù)處理指判斷數(shù)據(jù)的價(jià)值。
目前我了解大數(shù)據(jù)的職位:
大數(shù)據(jù)架構(gòu)工程師
大數(shù)據(jù)算法工程師(數(shù)據(jù)分析工程師,數(shù)據(jù)挖掘工程師)
大數(shù)據(jù)運(yùn)維工程師
二、系統(tǒng)建設(shè)技術(shù)
目前常用的hadoop生態(tài)圈技術(shù),結(jié)構(gòu)如圖:
一些應(yīng)用上的算法具體問(wèn)題再詳細(xì)學(xué)習(xí),項(xiàng)目驅(qū)動(dòng)方式學(xué)習(xí)技術(shù)。
三、海量數(shù)據(jù)應(yīng)用
算法是數(shù)據(jù)的表現(xiàn)形式,必須兼具計(jì)算機(jī)科學(xué)基礎(chǔ)和統(tǒng)計(jì)基礎(chǔ)。
現(xiàn)在有一個(gè)高大上的職業(yè)叫數(shù)據(jù)科學(xué)家,有人說(shuō)數(shù)據(jù)科學(xué)家就是一個(gè)比程序員更懂統(tǒng)計(jì)的統(tǒng)計(jì)學(xué)家,一個(gè)比統(tǒng)計(jì)學(xué)家更會(huì)編程的程序員。覺(jué)得說(shuō)得很形象。
基礎(chǔ)中的基礎(chǔ):
線性代數(shù),概率論
核心知識(shí):
數(shù)理統(tǒng)計(jì)
預(yù)測(cè)模型
機(jī)器學(xué)習(xí)
數(shù)據(jù)挖掘方法,例如:線性回歸,邏輯回歸,決策樹(shù)分群,聚類、關(guān)聯(lián)分析、SVM,貝葉斯,神經(jīng)網(wǎng)絡(luò)等;
|
|