目前來說是不行的,ETL任然是大數(shù)據(jù)時代下數(shù)據(jù)遷移不可缺少的 首先說一下什么是ETL,ETL是英文Extract-Transform-Load的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。也就是說幾乎所有的數(shù)據(jù)的移動都需要ETL的參與! 目前用到的ETL工具常見的有Datastage,informatica,kettle三種,前兩者是收費(fèi)的,并且占據(jù)了大多數(shù)國內(nèi)市場,而kettle是來源免費(fèi)的!但是在大數(shù)據(jù)量下Informatica 與Datastage的處理速度是比較快的,比較穩(wěn)定。Kettle的處理速度相比之下稍慢。所以很多公司尤其是金融機(jī)構(gòu)選Informatica 與Datastage。但是kettle由于是開源的所以有很強(qiáng)的擴(kuò)展性。 數(shù)據(jù)要想有價值,就必須把它進(jìn)行分析,挖掘出來它潛藏的價值,人們?nèi)粘;顒赢a(chǎn)生的數(shù)據(jù)一般是放在業(yè)務(wù)系統(tǒng)中,而在業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)是不能直接進(jìn)行分析處理的,這個時候我就得把這些數(shù)據(jù)搬運(yùn)到一個倉庫里,再進(jìn)行分析!也就是所說的數(shù)據(jù)倉庫,在而這個數(shù)據(jù)的搬運(yùn)工就是ETL,在搬運(yùn)的過程中我們還要做一些初步的清洗,去掉一些無用的不全的數(shù)據(jù),這也是ETL的功能!最后我們那這些處理過的數(shù)據(jù)進(jìn)行商業(yè)分析!這就是一個ETL的過程。 在數(shù)據(jù)就是價值的今天我們更加離不開ETL,當(dāng)然這個過程也在不斷的改進(jìn),運(yùn)用也越來越智能越來越方便 說到ETL,很多開發(fā)伙伴可能會有些陌生,我也是在近幾年的工作過程中才接觸到ETL的,現(xiàn)在的項目是比較依賴于ETL,可以說是項目中重要的一部分。 先看一看ETL是做什么用的:ETL是將各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),通過抽取、清洗、轉(zhuǎn)換之后,加載到數(shù)據(jù)倉庫的過程;ETL可以將分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起。完整的ETL功能有很多(ETL是三個三次的縮寫...),我只從我實際使用的場景出發(fā),說明我對ETL的理解和實際應(yīng)用。 我接觸過的項目,使用ETL工具的場景有這個幾種: 報表、BI系統(tǒng):
跨系統(tǒng)的數(shù)據(jù)加工或查詢:我們現(xiàn)在所在公司,業(yè)務(wù)系統(tǒng)有幾百個,由于業(yè)務(wù)流程比較復(fù)雜,前端系統(tǒng)在做業(yè)務(wù)操作的時候,在正式提交交易之前,有很多業(yè)務(wù)校驗;比如要查詢客戶在A系統(tǒng)的交易歷史,在B系統(tǒng)的交易歷史,在C系統(tǒng)的交易歷史;那么就需要分別調(diào)用A、B、C系統(tǒng)的接口,這個對前端系統(tǒng)很不友好,那么通常的解決方案是什么?
所以,至少在我們項目,ETL是很難被替換掉的。 |
|