小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

大模型時代下的技術(shù)變革:部署、效率、安全……都遇到了新挑戰(zhàn)?

 天承辦公室 2023-10-16 發(fā)布于北京

隨著互聯(lián)網(wǎng)的快速發(fā)展,AI 大模型算的上是當前行業(yè)里最“熾手可熱”的技術(shù),大模型是 AI 領(lǐng)域的重要發(fā)展趨勢。大模型需要大量的數(shù)據(jù)和計算資源,同時也需要強大的應(yīng)用場景支持,對各行各業(yè)都有深遠的影響,各廠商開始了“千模大戰(zhàn)”。

當前,在 AI 大模型的研發(fā)和應(yīng)用方面,產(chǎn)業(yè)界和學(xué)術(shù)界在很多方面都有深入的合作和探索。產(chǎn)業(yè)界和學(xué)術(shù)界都有各自的優(yōu)勢——產(chǎn)業(yè)界在數(shù)據(jù)采集、計算資源、應(yīng)用需求理解等方面有獨特的優(yōu)勢,學(xué)術(shù)界則在理論創(chuàng)新、方法研究、前沿技術(shù)探索等方面有顯著的優(yōu)勢。

然而,在這個大模型時代,算力資源、數(shù)據(jù)質(zhì)量和規(guī)模都對模型的性能有著至關(guān)重要的影響,包括數(shù)據(jù)安全也是當前亟需解決的問題。所以,在產(chǎn)業(yè)界和學(xué)術(shù)屆深度融合探索下的 AI 大模型技術(shù)都有了哪些進展和變化?在這個過程中,是否釋放出了新機遇?這兩個問題的答案似乎在英特爾及其伙伴的實踐中找到了。

一、大模型的訓(xùn)練與負載:算力與成本之間需要尋找一個平衡

隨著人工智能和深度學(xué)習(xí)的發(fā)展,模型訓(xùn)練所需的數(shù)據(jù)量和處理能力在不斷增加。多家研究報告顯示,當前大型模型的訓(xùn)練數(shù)據(jù)量通常都達到了數(shù)百萬甚至數(shù)千萬級別。這些大型模型在進行訓(xùn)練時,需要處理的參數(shù)量相當龐大,例如 GPT-3 在訓(xùn)練時使用了 28.5 萬 CPU 核心,總算力為 17.5 億億次,消耗了大約 250 萬美元的 GPU 算力。大模型對大規(guī)模數(shù)據(jù)和計算資源的需求,對算力相關(guān)的硬件和軟件都提出了更高要求。

為了提高模型的效果,往往需要采用更復(fù)雜的模型結(jié)構(gòu)和訓(xùn)練策略,這也進一步增加了算力需求。同時,由于模型訓(xùn)練需要大量的時間和資源,訓(xùn)練時間也成了制約大模型發(fā)展的一個重要因素。對于一般企業(yè)而言,擁有如此強大的計算資源并不現(xiàn)實,因此企業(yè)都在積極尋找可以迭代優(yōu)化模型訓(xùn)練和推理的基礎(chǔ)設(shè)施。

然而算力與成本之間存在著明顯的矛盾。首先,大模型訓(xùn)練需要大量的算力資源,而這些資源通常需要花費高昂的成本來獲取。其次,數(shù)據(jù)傳輸和處理也會產(chǎn)生大量的成本,因為需要將大量數(shù)據(jù)從存儲設(shè)備傳輸?shù)接嬎阍O(shè)備進行處理。此外,硬件維護和軟件開發(fā)也需要投入大量的人力物力。因此,在提高大模型訓(xùn)練效果的同時,廠商需要考慮如何平衡算力與成本之間的關(guān)系。

從整個模型的生態(tài)來看,其對于整個生態(tài)的部署要求肯定是“效率越來越高、成本越來越低”越好。英特爾院士、大數(shù)據(jù)技術(shù)全球 CTO 戴金權(quán)對此也表示:“從計算的角度來看,大模型需要很多的預(yù)訓(xùn)練,把模型預(yù)訓(xùn)練出一些比較好的基數(shù)。訓(xùn)練之后如何去用它、部署它,包括推理效率、微調(diào)效率,包括大模型其實是嵌入在一個端到端的一個工作流里面去后還能保持工作負載平衡。從這種計算角度來說,除預(yù)訓(xùn)練外,還需要做更多計算場景的策略和優(yōu)化。”

戴金權(quán)的觀點也顯示出了英特爾的技術(shù)探索路徑。為了保證負載平衡,英特爾提出了 Habana?Gaudi?2 的解決方案,其專注于深度學(xué)習(xí)的高性能解決方案,可滿足大規(guī)模、高復(fù)雜性生成式 AI 和大型語言模型 (LLM) 訓(xùn)練工作負載的需求。

Gaudi2 采用經(jīng)過驗證的高性能深度學(xué)習(xí) AI 訓(xùn)練處理器架構(gòu),利用 Habana 完全可編程的 TPC 和 GEMM 引擎,支持面向 AI 的高級數(shù)據(jù)類型,如 FP8、BF16、FP16、TF32 和 FP32 等,是一款性能更高的計算架構(gòu)。值得一提的是,TPC 是一款 VLIW SIMD 矢量處理器,其指令集和郵件經(jīng)過定制,不僅支持深度學(xué)習(xí)訓(xùn)練和推理工作負載,還可高效處理工作負載。

除了計算能力突出,Gaudi2 的內(nèi)存帶寬和容量也十分突出,其采用先進的 HBM 內(nèi)存技術(shù),內(nèi)存容量高達 96GB,內(nèi)存帶寬高達 2.4TB/s。Gaudi 先進的 HBM 控制器已針對隨機訪問和線性訪問進行了優(yōu)化,在各種訪問模式下均可提供高內(nèi)存帶寬。

Gaudi2 的能力其實就是幫助企業(yè)通過優(yōu)化訓(xùn)練流程來降低成本——通過提高訓(xùn)練效率來減少訓(xùn)練時間,同時優(yōu)化模型結(jié)構(gòu),減少參數(shù)量,從而降低算力和成本。除了這兩種方式,企業(yè)其實還可以采用更加經(jīng)濟的算法和硬件資源來實現(xiàn)“算力與成本之間的平衡”,例如使用 GPU 代替 CPU 進行計算,目前很多硬件廠商也都在此方向上進行發(fā)力。

比如英特爾?Data Center GPU Max 系列則是專為應(yīng)對最嚴苛的高性能計算 (HPC) 和 AI 工作負載而設(shè)計。英特爾 ?Xe Link 高速、一致的統(tǒng)一架構(gòu)可靈活運行任何外形規(guī)格,實現(xiàn)縱向擴展和橫向擴展。其利用“基于獨立 SRAM 技術(shù)”的高達 408 MB 的 L2 高速緩存 (Rambo)、64 MB 的 L1 高速緩存,以及高達 128 GB 的高帶寬內(nèi)存,確保高容量和高帶寬。同時還利用每個英特爾? Max 系列 GPU 上高達 128 個光線追蹤單元,加速了科學(xué)可視化和動畫過程;利用搭載深度脈動陣列的英特爾? Xe Matrix Extensions (XMX),在單個設(shè)備上加速了 AI 工作負載,并啟用矢量和矩陣功能,極好地幫助企業(yè)找到了算力與成本之間的平衡。

二、大模型的部署:除了解決多場景,更重要的是提高效率

戴金權(quán)對于“未來 AI 大模型技術(shù)創(chuàng)新及發(fā)展?jié)摿Α庇性S多值得行業(yè)從業(yè)者咂摸的觀點:“大模型給了我們一個啟示,大模型技術(shù)的前提不只是計算,而是訓(xùn)練本身,比如三階段的訓(xùn)練,舉個例子——很多大模型“詩寫的好”,但是“寫代碼”不行,然后你就會發(fā)現(xiàn)它一般都會再發(fā)一個相應(yīng)的“code 大模型”;而“什么都行”的大模型可能寫代碼就沒有“code 大模型”寫的好。其實本質(zhì)上它是一個多任務(wù)或多目標的學(xué)習(xí),所以是不是有辦法來提升通用大模型的單項能力,這是一個很有意思的探索方向。但不管算力也好、成本也好、效率也好,怎么樣利用是需要大家共同去探索的問題。比如大模型有很多不同的部署的場景,預(yù)訓(xùn)練、微調(diào)、推理、嵌入到工作流里去等等。如何通過硬件的 XPU 不同計算平臺、軟件上的各種技術(shù)能力來提高它的部署效率,這是另一個需要各廠商要去探索的問題?!?/span>

從戴金權(quán)的觀點出發(fā),并基于筆者對于行業(yè)的觀察,我們基本上是可以總結(jié)出大模型當前的部署現(xiàn)狀的:

  • 模型部署難度較高:隨著模型規(guī)模的不斷擴大,需要消耗的計算資源、存儲資源、網(wǎng)絡(luò)資源等也越來越多,部署難度逐漸增大。
  • 對硬件資源需求大:大模型需要大量的 GPU 內(nèi)存來進行計算,需要高性能的服務(wù)器來存儲和傳輸數(shù)據(jù),對硬件資源的需求非常大。
  • 需要支持并發(fā)處理:為了提高模型推理速度和效率,需要支持并發(fā)處理,這對服務(wù)器的并發(fā)處理能力提出了更高的要求。

從部署問題上,英特爾的合作伙伴騰訊云的解決方案就非常值得借鑒,在易用性方面,騰訊云訓(xùn)練集群的開啟涉及復(fù)雜的系統(tǒng)設(shè)計,如 HCC 集群和分布式計算網(wǎng)絡(luò)互通,并在實例設(shè)計時呈現(xiàn)給 AI 開發(fā)者一鍵部署功能,實現(xiàn)工程化效率提升;此外在供訓(xùn)練過程中,HCC 還具有高穩(wěn)性能和故障自愈能力。從成本方面,騰訊云通過資源調(diào)度(如潮汐算力)實現(xiàn)集群效率最高。例如,在訓(xùn)練過程中,可能不會對加速芯片本身進行調(diào)度,而是將數(shù)據(jù)預(yù)處理或 DLC 業(yè)務(wù)與邏輯計算單元混部,以提高算力集群利用率。在部署效率方面,AI 開發(fā)者常遇到驅(qū)動版本不一致、兼容性等問題。騰訊云致力于在云原生環(huán)境中為大家提供更多一鍵部署和開發(fā)工具鏈,以縮短開發(fā)時間并提高效率?!?/span>

當然了,為了解決大模型的部署問題,英特爾確實沒有少做努力。比如專為大模型時代發(fā)展而生的 Gaudi? 2 在第一代基礎(chǔ)上做了許多升級,第二代 Gaudi AI 深度學(xué)習(xí)夾層卡 HL-225B 專為數(shù)據(jù)中心實現(xiàn)大規(guī)模橫向擴展而設(shè)計。其 AI 處理器基于第一代 Gaudi 的高效架構(gòu)打造而成,目前采用 7 納米制程工藝,在性能、可擴展性和能效方面均實現(xiàn)了飛躍,是一個“名副其實”的用于生成式 AI 和 LLM 訓(xùn)練的功能強大且經(jīng)濟高效的深度學(xué)習(xí)解決方案。

尤其值得說的是,在擴展性方面,Gaudi2 處理器具備出色的 2.1 Tbps 網(wǎng)絡(luò)容量可擴展性,原生集成 21 個 100 Gbps RoCE v2 RDMA 端口,可通過直接路由實現(xiàn) Guadi 處理器間通信。Gaudi2 處理器集成了專用媒體處理器,用于圖像和視頻解碼及預(yù)處理。此外,Gaudi2 深度學(xué)習(xí)夾層卡還符合 OCP OAM 1.1(開放計算平臺之開放加速器模塊)等多種規(guī)范,可以為企業(yè)業(yè)務(wù)帶來系統(tǒng)設(shè)計的靈活性。

在 2023 英特爾 On 技術(shù)創(chuàng)新峰會上,英特爾介紹的一臺大型 AI 超級計算機,便是完全采用了英特爾至強處理器和 4000 個英特爾 Gaudi2 加速器打造的,據(jù)說它將躋身全球 TOP15 超算,目前熱門 AIGC 應(yīng)用 Stable Diffusion 的開發(fā)商 Stability AI 已經(jīng)在全面使用它。同時英特爾首席執(zhí)行官帕特·基辛格在本次峰會上還向大家透露了 Gaudi 3 的推出進程,“采用 5nm 制程的 Gaudi 3 將于明年推出,其算力是 Gaudi 2 的兩倍,網(wǎng)絡(luò)帶寬、HBM 容量是 Gaudi 2 的 1.5 倍?!边@意味著,大模型的部署效率問題可能在明年將實現(xiàn)一個飛躍式發(fā)展。

事實上,除了 Gaudi 2,為了更好地完成大模型的部署,英特爾? 至強? 可擴展處理器也一直在升級迭代,其無處不在的計算解決方案,配備英特爾? AMX 和其他集成式 AI 加速器,可在數(shù)據(jù)中心或邊緣應(yīng)用運行實時、中等吞吐量、低延遲的模型及應(yīng)用。像阿里云通義千問大模型便是內(nèi)置 AI 加速器的第四代英特爾至強可擴展處理器用于其生成式 AI 和大語言模型,英特爾技術(shù)大幅縮短了該模型的響應(yīng)時間,平均加速可達 3 倍。

基辛格表示,第五代英特爾? 至強? 可擴展處理器未來將在同樣功耗下,將有效提升數(shù)據(jù)中心的性能和存儲速度,相比于第四代,該處理器在 AI 方面的性能將提升 2-3 倍。據(jù)悉,該處理器將于 12 月 14 日發(fā)布,非常值得大家密切關(guān)注。

三、大模型的安全:將成為未來需要重點關(guān)注的問題

今年 8 月底,首批通過備案的人工智能大模型名單出爐,這意味著這些生成式 AI 產(chǎn)品可以正式面向公眾開放注冊、提供服務(wù)。那在發(fā)布前后,大模型應(yīng)用技術(shù)的開發(fā)速度或者供應(yīng)商方面的技術(shù)演進上有何變化?對于該問題,戴金權(quán)表示——“如何更好地保護模型、保護數(shù)據(jù)、保護業(yè)務(wù)問題等安全問題變得越來越重要?!?/span>

所有技術(shù)在經(jīng)歷了爆火和高速發(fā)展的過程后,最終都會落到“安全”問題上,所以大模型也不例外。伴隨著 AI 大模型的復(fù)雜性和應(yīng)用范圍將進一步擴大,其安全隱患將越來越多。例如,隨著量子計算等新技術(shù)的出現(xiàn),AI 大模型將面臨更高級別的安全威脅。同時,隨著數(shù)據(jù)隱私保護等法律法規(guī)的出臺,企業(yè)當前越來越重視 AI 大模型的數(shù)據(jù)隱私保護工作。因此,未來需要加強技術(shù)研發(fā),完善 AI 大模型的安全保障機制。

當前 AI 大模型安全現(xiàn)狀并不樂觀,技術(shù)漏洞是當前 AI 大模型面臨的主要安全問題之一。例如,模型被黑客攻擊、惡意注入病毒等問題時有發(fā)生。代碼實現(xiàn)不當也可能導(dǎo)致 AI 大模型出現(xiàn)安全問題,比如有些模型在實現(xiàn)過程中可能存在未經(jīng)驗證的功能或邏輯漏洞,給惡意攻擊者留下可乘之機。

我們溯源一下問題根本,數(shù)據(jù)質(zhì)量差是影響 AI 大模型安全的重要因素之一。例如,如果數(shù)據(jù)本身存在大量噪聲或缺失,將直接影響模型的訓(xùn)練效果和安全性。為了保護、清洗這些數(shù)據(jù),英特爾在機密計算領(lǐng)域投入大量研發(fā)資源,在 2015 年推出了英特爾? SGX,其是一種安全相關(guān)的指令,被內(nèi)置于一些現(xiàn)代 Intel 中央處理器(CPU)中,它可以在基于硬件的可信執(zhí)行環(huán)境中執(zhí)行計算,確保任務(wù)和數(shù)據(jù)的安全性,防止被惡意程序竊取。在管理敏感數(shù)據(jù)和受監(jiān)管數(shù)據(jù)方面,機密計算技術(shù)可以提高相關(guān)組織的安全級別。

此外,英特爾? TDX 是另一項前沿安全技術(shù),其在虛擬機層面支持機密計算,滿足虛擬機安全需求。所以英特爾的“機密計算”也被戴金權(quán)稱為是一個“端到端”的能力,“大模型安全并不是只需要在一個環(huán)節(jié)安全,整個流程都需要安全,而英特爾的機密計算從數(shù)據(jù)存儲、加密、整個分布式計算、網(wǎng)絡(luò)通訊,包括遠程驗證等都完成了實現(xiàn)了安全保護?!蹦壳坝⑻貭栕鳛椤皺C密計算聯(lián)盟(Confidential Computing Consortium)”成員之一,正在持續(xù)積極推動機密計算技術(shù)的標準化和普及。

四、寫在最后:AI 大模型對基礎(chǔ)設(shè)施、硬件提出了更高要求

隨著大模型技術(shù)逐漸進入深水期,各企業(yè)在相關(guān)技術(shù)方面的驗證逐漸全面,大家都已經(jīng)非常明確,如果想要充分釋放 AI 大模型的潛力,僅依靠軟件層面的優(yōu)化是不夠的,基礎(chǔ)設(shè)施硬件設(shè)備的性能和穩(wěn)定性也在 AI 大模型的高效運行中扮演著至關(guān)重要的角色。

當前大模型對基礎(chǔ)設(shè)施的要求非常高。就單從硬件方面來看,大模型需要大量的高性能計算資源,包括 CPU、GPU 和 TPU 等。這些計算資源需要具備高并發(fā)、低延遲的特點,以滿足 AI 大模型的計算需求。同時,為了提高計算效率,需要采用先進的芯片設(shè)計和制造技術(shù),加強芯片間的通信和協(xié)作。

為了滿足大模型對硬件性能的高要求,硬件廠商需要不斷提升自身的研發(fā)實力和技術(shù)積累。這包括對先進制程技術(shù)的掌握,以及對各種處理器架構(gòu)的深入理解。此外,硬件廠商還需要與軟件廠商緊密合作,共同優(yōu)化大模型的性能。通過軟硬件的協(xié)同創(chuàng)新,可以充分發(fā)揮硬件設(shè)備的性能潛力,為大模型的發(fā)展提供強大的支持,無論是從算力、效率、成本還是安全等各個方面。

于此,大模型對硬件廠商的技術(shù)能力也提出了更高的要求。這意味著硬件廠商需要具備跨學(xué)科的能力,以整合不同領(lǐng)域的技術(shù)資源,為企業(yè)提供更加完善的解決方案,以滿足不同行業(yè)和應(yīng)用場景的需求。

不僅是硬件廠商,大模型技術(shù)的發(fā)展離不開產(chǎn)業(yè)鏈上的每一個角色,眾人拾柴才能火焰高,大模型時代需要學(xué)術(shù)界和產(chǎn)業(yè)界進行深入地合作和聯(lián)動。通過聯(lián)動,學(xué)術(shù)界的研究成果可以更快地應(yīng)用于產(chǎn)業(yè)界,推動技術(shù)的發(fā)展和進步,同時產(chǎn)業(yè)界的需求和反饋也可以引導(dǎo)學(xué)術(shù)界的研究方向,使其更加貼近實際應(yīng)用場景。在當前這個大模型時代的背景下,合作和聯(lián)動可以促進不同組織之間的協(xié)作,實現(xiàn)資源的共享和整合,提高研究的效率和成果的質(zhì)量。

正如戴金權(quán)所說的那樣,“英特爾一直堅持開源開放,無論是從客戶側(cè)的產(chǎn)業(yè)界合作,還是從學(xué)術(shù)界的高校合作,英特爾都在持續(xù)推動,相信在多方的努力下,大模型技術(shù)的發(fā)展將會越來越好?!?/span>

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多