DataOps 是一種數(shù)據(jù)工程方法,旨在為分析和數(shù)據(jù)科學(xué)快速、可靠和可重復(fù)地交付生產(chǎn)就緒數(shù)據(jù)。除了速度和可靠性之外,DataOps 還通過支持?jǐn)?shù)據(jù)版本控制、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)沿襲的工程學(xué)科(專業(yè))來增強(qiáng)和推進(jìn)數(shù)據(jù)治理。DataOps支持業(yè)務(wù)運(yùn)營的敏捷性,能夠快速滿足新的和不斷變化的數(shù)據(jù)需求。它還支持可移植性和技術(shù)運(yùn)營敏捷性,能夠跨本地、云、多云和混合數(shù)據(jù)生態(tài)系統(tǒng)中的多個(gè)平臺(tái)快速重新部署數(shù)據(jù)管道。上面的定義是準(zhǔn)確但不完整的。它代表了對(duì)DataOps 的常見誤解——僅僅關(guān)注數(shù)據(jù)工程。缺失的部分是缺乏對(duì)數(shù)據(jù)消費(fèi)的關(guān)注,尤其是數(shù)據(jù)科學(xué)應(yīng)用。讓我們重新定義它:DataOps 是一種工程方法論和一套實(shí)踐方法,旨在快速、可靠和可重復(fù)地交付生產(chǎn)就緒數(shù)據(jù)以及運(yùn)營就緒分析和數(shù)據(jù)科學(xué)模型。DataOps 通過支持?jǐn)?shù)據(jù)版本控制、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)沿襲和分析模型的工程學(xué)科來增強(qiáng)和推進(jìn)數(shù)據(jù)治理。DataOps 支持業(yè)務(wù)運(yùn)營敏捷性,能夠快速滿足新的和不斷變化的數(shù)據(jù)和分析需求。它還支持可移植性和技術(shù)運(yùn)營敏捷性,能夠在本地、云、多云和混合生態(tài)系統(tǒng)中的多個(gè)平臺(tái)上快速重新部署數(shù)據(jù)管道和分析模型。盡管此定義主要是技術(shù)性的,但重要的是要認(rèn)識(shí)到DataOps 具有業(yè)務(wù)驅(qū)動(dòng)力和優(yōu)勢(shì),并且還具有重大的組織和文化影響。DataOps 的成功需要關(guān)注四個(gè)方面——業(yè)務(wù)、流程、文化和技術(shù)。Wayne Eckerson 先生的DataOps 框架提供了流程和技術(shù)解讀。基于DevOps——一種經(jīng)過驗(yàn)證的提高新軟件功能交付速度的方法——DataOps 應(yīng)用了具備自動(dòng)化支持的持續(xù)構(gòu)建、測(cè)試和發(fā)布周期的相同原則。軟件的構(gòu)建是通過一系列快速迭代完成的,可以做到快速發(fā)現(xiàn)需求、開發(fā)軟件的工作模型并與業(yè)務(wù)相關(guān)方合作測(cè)試這些模型。當(dāng)構(gòu)建和測(cè)試流程交付了具有足夠功能以用于業(yè)務(wù)運(yùn)營的工作軟件時(shí),軟件將被發(fā)布并從開發(fā)級(jí)提升到生產(chǎn)級(jí)。其底層的方法學(xué)稱為持續(xù)集成/持續(xù)開發(fā)或CI/CD。圖1 說明了用于DevOps 軟件開發(fā)和集成的CI/CD。在開發(fā)過程中,副需求有兩個(gè)來源——基于業(yè)務(wù)要求的新軟件需求的傳統(tǒng)流程,以及已發(fā)布軟件的運(yùn)營使用反饋。兩者都有助于使用敏捷方法通過快速的項(xiàng)目開發(fā)以解決現(xiàn)存的產(chǎn)品需求(或積壓的需求)。當(dāng)軟件投入運(yùn)營時(shí),它最初會(huì)減少運(yùn)營積壓,但新的需求和軟件缺陷會(huì)推動(dòng)產(chǎn)品積壓并進(jìn)而推動(dòng)下一階段的開發(fā)。該過程是不斷開發(fā)新軟件功能以及將新功能不斷集成到現(xiàn)有運(yùn)營環(huán)境中的過程之一。運(yùn)營和開發(fā)之間的協(xié)作至關(guān)重要。圖1. 用于軟件開發(fā)和運(yùn)營的DevOps 針對(duì)DataOps 調(diào)整DevOps 模型會(huì)產(chǎn)生一個(gè)稍微復(fù)雜一些的流程模型,該模型由兩個(gè)交互的CI/CD 循環(huán)組成——一個(gè)用于開發(fā)和操作分析模型,另一個(gè)用于開發(fā)和操作數(shù)據(jù)管道。(見圖2。)分析需求通常來自業(yè)務(wù)相關(guān)方。他們填充模型積壓并驅(qū)動(dòng)CI/CD 以進(jìn)行報(bào)告、商業(yè)智能(BI)(分析)、分析軟件和數(shù)據(jù)科學(xué)。雖然我們指的是分析需求和模型積壓,但DataOps 流程可以應(yīng)用于更廣泛的數(shù)據(jù)產(chǎn)品,包括報(bào)告和商業(yè)智能分析(BI)以及分析和數(shù)據(jù)科學(xué)。數(shù)據(jù)管道需求來自許多來源,包括模型積壓。他們填充(數(shù)據(jù))管道積壓的內(nèi)容并驅(qū)動(dòng)數(shù)據(jù)管道的CI/CD。DataOps 可應(yīng)用于全方位的數(shù)據(jù)管道,包括ETL 等批處理、實(shí)時(shí)變化數(shù)據(jù)捕獲(CDC) 和流數(shù)據(jù)。圖2. 用于模型和管道開發(fā)和運(yùn)營的DataOps 需要注意的是,在此圖中,上部循環(huán)描述了用于分析和數(shù)據(jù)科學(xué)的CI/CD,下部循環(huán)描述了用于數(shù)據(jù)管道的CI/CD。關(guān)鍵是分析推動(dòng)了對(duì)數(shù)據(jù)管道的需求,而不是相反。DataOps 從分析開始。兩種積壓工作是模型積壓和管道積壓——都是產(chǎn)品積壓,但針對(duì)不同類型的產(chǎn)品。當(dāng)分析模型投入使用時(shí),如果沒有新的數(shù)據(jù)供應(yīng),它們就無法持續(xù),因此數(shù)據(jù)管道至關(guān)重要。在數(shù)據(jù)可用之前,不可能開發(fā)新模型,因此數(shù)據(jù)管道再次至關(guān)重要。圖2 中的紅線表示兩個(gè)循環(huán)之間的主要依賴關(guān)系。當(dāng)模型積壓被理解后,它用于識(shí)別開發(fā)和操作積壓模型所需的數(shù)據(jù)管道。模型積壓成為供給管道積壓的新需求來源。沒有自動(dòng)化,DataOps 是不切實(shí)際的。強(qiáng)大的DataOps 技術(shù)為數(shù)據(jù)管道和分析模型的模型編排、數(shù)據(jù)管道編排、測(cè)試自動(dòng)化和部署自動(dòng)化提供了特性和功能。具有AI/ML 自動(dòng)化功能的新興Data Fabric 技術(shù)將在DataOps 的未來發(fā)揮重要作用。圖3 說明了DataOps 的構(gòu)建-測(cè)試-發(fā)布周期,并突出了自動(dòng)化中至關(guān)重要的點(diǎn)。自動(dòng)化對(duì)于DataOps 至關(guān)重要,其中包括測(cè)試自動(dòng)化至關(guān)重要的八個(gè)點(diǎn)、部署自動(dòng)化的兩個(gè)點(diǎn)和操作編排的兩個(gè)點(diǎn)。圖3. DataOps 構(gòu)建-測(cè)試-發(fā)布周期中的自動(dòng)化點(diǎn)首先看一下數(shù)據(jù)科學(xué)和分析的CI/CD 周期,我們可以看到:· 構(gòu)建活動(dòng)以沖刺(或快速)的形式進(jìn)行,其中包括構(gòu)建和訓(xùn)練模型(和報(bào)告、儀表盤、記分卡等)。單元測(cè)試和用戶測(cè)試是每個(gè)沖刺的組成部分,依靠測(cè)試自動(dòng)化來實(shí)現(xiàn)高速的全面測(cè)試。· 在一系列沖刺結(jié)束時(shí),可能需要進(jìn)行集成測(cè)試以確保構(gòu)建活動(dòng)中的所有軟件組件能夠很好地協(xié)同工作。同樣,需要測(cè)試自動(dòng)化。· 執(zhí)行部署前測(cè)試以確認(rèn)模型已準(zhǔn)備好部署并交付運(yùn)營價(jià)值,并為部署后比較,提供基礎(chǔ)。早期的測(cè)試階段——單元、用戶和集成——專注于構(gòu)建正確的東西,部署前測(cè)試專注于部署正確的軟件(或組件)。在準(zhǔn)備將修訂版部署到先前部署的模型時(shí),部署前測(cè)試還可能包括回歸測(cè)試。在準(zhǔn)備部署時(shí),測(cè)試自動(dòng)化扮演著重要的角色。· 發(fā)布出現(xiàn)在將模型從開發(fā)級(jí)提升到生產(chǎn)級(jí)的部署步驟。部署自動(dòng)化支持作為重要發(fā)布步驟的源代碼管理、版本控制和版本(修訂)跟蹤實(shí)踐。· 執(zhí)行部署后測(cè)試以確認(rèn)模型在生產(chǎn)環(huán)境中的運(yùn)行方式與其在開發(fā)和測(cè)試環(huán)境中的運(yùn)行方式完全相同,確認(rèn)環(huán)境因素未影響軟件行為。再一次,測(cè)試自動(dòng)化扮演著重要的角色。· 模型編排技術(shù)支持操作環(huán)境中的模型執(zhí)行,該技術(shù)可自動(dòng)配置、協(xié)調(diào)和管理執(zhí)行模型的計(jì)算環(huán)境。數(shù)據(jù)管道的CI/CD 周期遵循與分析模型高度相似的模式:· 構(gòu)建以一系列沖刺的方式進(jìn)行,包括單元和用戶測(cè)試。測(cè)試自動(dòng)化有助于實(shí)現(xiàn)快速但完整的測(cè)試。· 集成測(cè)試確保所有管道組件協(xié)同工作良好。測(cè)試自動(dòng)化支持高速的綜合測(cè)試。· 執(zhí)行部署前測(cè)試以確認(rèn)管道已準(zhǔn)備好部署并交付應(yīng)用程序所需的數(shù)據(jù)。部署前測(cè)試還為部署后比較提供了基礎(chǔ)。· 當(dāng)管道實(shí)現(xiàn)從開發(fā)到生產(chǎn)的部署或提升到生產(chǎn)級(jí)時(shí),進(jìn)行發(fā)布。部署自動(dòng)化支持作為重要發(fā)布步驟的源代碼管理、版本控制和修訂跟蹤實(shí)踐。· 部署后測(cè)試確認(rèn)管道在生產(chǎn)環(huán)境中的功能與它在開發(fā)和測(cè)試環(huán)境中的功能完全一樣,確保環(huán)境因素不會(huì)改變軟件行為——這是測(cè)試自動(dòng)化的另一個(gè)用例。· 管道編排技術(shù)支持操作環(huán)境中的管道執(zhí)行,并對(duì)計(jì)算環(huán)境的配置、協(xié)調(diào)和管理實(shí)現(xiàn)自動(dòng)化。數(shù)據(jù)管道的開發(fā)和部署,分析模型的開發(fā)和部署,以及管道和模型操作的不斷發(fā)展的實(shí)踐和流程應(yīng)該是您數(shù)據(jù)策略的一部分。真正的回報(bào)來自于將您的數(shù)和分析文化發(fā)展為一種快速可靠地交付數(shù)據(jù),并且要以正確的數(shù)據(jù)和模型以及確的速度滿足業(yè)務(wù)經(jīng)理知識(shí)需求的文化。請(qǐng)記住,對(duì)數(shù)據(jù)和分析的需求將繼續(xù)長(zhǎng),沒有自動(dòng)化的開發(fā)、部署和運(yùn)營將無法擴(kuò)展以滿足需求。Dave Wells 是一名咨詢顧問、教育家和行業(yè)分析師,致力于在從數(shù)據(jù)到商業(yè)價(jià)值的整個(gè)過程中建立有意義的關(guān)聯(lián)聯(lián)系。他從事信息管理和業(yè)務(wù)管理的交叉工作,通過分析、商業(yè)智能和主動(dòng)數(shù)據(jù)管理推動(dòng)業(yè)務(wù)影響。四十多年的信息系統(tǒng)經(jīng)驗(yàn)加上十多年的業(yè)務(wù)管理經(jīng)驗(yàn),讓他對(duì)業(yè)務(wù)、信息、數(shù)據(jù)和技術(shù)之間的聯(lián)系有著獨(dú)特的見解。Dave 的熱情所在是通過咨詢、演講、教學(xué)和寫作開展知識(shí)共享和技能培養(yǎng)。Stonebranch 構(gòu)建IT 編排和自動(dòng)化解決方案,將業(yè)務(wù)的IT 環(huán)境從簡(jiǎn)單的IT任務(wù)轉(zhuǎn)變?yōu)閺?fù)雜的實(shí)時(shí)業(yè)務(wù)服務(wù)自動(dòng)化,幫助組織機(jī)構(gòu)實(shí)現(xiàn)盡可能高的自動(dòng)化回報(bào)。無論自動(dòng)化程度如何,Stonebranch 平臺(tái)都是簡(jiǎn)單、現(xiàn)代且安全的。使用Stonebranch 通用自動(dòng)化平臺(tái),企業(yè)可以跨技術(shù)生態(tài)系統(tǒng)和數(shù)據(jù)庫實(shí)現(xiàn)無縫編排工作負(fù)載和數(shù)據(jù)。Stonebranch 總部位于佐治亞州亞特蘭大,在美洲、歐洲和亞洲設(shè)有聯(lián)絡(luò)點(diǎn)和支持點(diǎn),為世界上一些最大的金融、制造、醫(yī)療、旅游、交通、能源和技術(shù)機(jī)構(gòu)提供服務(wù)。
|