NVIDIA TAO Toolkit 提供了一個(gè)低代碼人工智能框架,用于加速視覺人工智能模型開發(fā),適用于從新手到專家數(shù)據(jù)科學(xué)家的所有技能水平。借助 NVIDIA TAO (訓(xùn)練、適應(yīng)、優(yōu)化)工具包,開發(fā)人員可以利用遷移學(xué)習(xí)的力量和效率,通過適應(yīng)和優(yōu)化,在創(chuàng)紀(jì)錄的時(shí)間內(nèi)實(shí)現(xiàn)最先進(jìn)的精度和生產(chǎn)級吞吐量。
在 NVIDIA GTC 2023 上, NVIDIA 發(fā)布了 NVIDIA TAO Toolkit5.0 ,帶來了突破性的功能來增強(qiáng)任何人工智能模型的開發(fā)。新功能包括開源架構(gòu)、基于 transformer 的預(yù)訓(xùn)練模型、人工智能輔助的數(shù)據(jù)注釋,以及在任何平臺上部署模型的能力。
圖 1 :NVIDIA TAO Toolkit 工作流程圖
NVIDIA TAO Toolkit 5.0 支持 ONNX 中的模型導(dǎo)出。這使得在邊緣或云中的任何計(jì)算平臺 GPU 、 CPU 、 MCU 、 DLA 、 FPGA 上部署使用 NVIDIA TAO Toolkit 訓(xùn)練的模型成為可能。NVIDIA TAO 工具包簡化了模型訓(xùn)練過程,優(yōu)化了模型的推理吞吐量,為數(shù)千億臺設(shè)備的人工智能提供了動(dòng)力。
圖 2: NVIDIA TAO Toolkit 體系結(jié)構(gòu)
嵌入式微控制器的全球領(lǐng)導(dǎo)者 STMicroelectronics 將 NVIDIA TAO 工具包集成到其 STM32Cube AI 開發(fā)人員工作流程中。這使 STMicroelectronics 的數(shù)百萬開發(fā)人員掌握了最新的人工智能功能。它首次提供了將復(fù)雜的人工智能集成到 STM32Cube 提供的廣泛物聯(lián)網(wǎng)和邊緣用例中的能力。
現(xiàn)在有了 NVIDIA TAO 工具包,即使是最新手的人工智能開發(fā)人員也可以在微控制器的計(jì)算和內(nèi)存預(yù)算內(nèi)優(yōu)化和量化人工智能模型,使其在 STM32 MCU 上運(yùn)行。開發(fā)人員還可以帶來自己的模型,并使用 TAO Toolkit 進(jìn)行微調(diào)。STMicroelectronics 在下面的演示中捕捉到了有關(guān)這項(xiàng)工作的更多信息。
,時(shí)長08:40視頻 1 :了解如何在 STM 微控制器上部署使用 TAO Toolkit 優(yōu)化的模型
雖然 TAO Toolkit 模型可以在任何平臺上運(yùn)行,但這些模型在使用 TensorRT 進(jìn)行推理的 NVIDIA GPU 上實(shí)現(xiàn)了最高吞吐量。在 CPU 上,這些模型使用 ONNX-RT 進(jìn)行推理。一旦軟件可用,將提供復(fù)制這些數(shù)字的腳本和配方。
表 1 :幾種 NVIDIA TAO Toolkit 視覺模型的性能比較(以 FPS 為單位),包括 NVIDIA GPU 上的新視覺轉(zhuǎn)換器模型
人工智能輔助的數(shù)據(jù)注釋和管理
對于所有人工智能項(xiàng)目來說,數(shù)據(jù)注釋仍然是一個(gè)昂貴且耗時(shí)的過程。對于像分割這樣需要在對象周圍的像素級生成分割遮罩的 CV 任務(wù)來說尤其如此。通常,分割掩模的成本是對象檢測或分類的 10 倍。
使用 TAO Toolkit 5.0 ,使用新的人工智能輔助注釋功能對分割掩碼進(jìn)行注釋,速度更快,成本更低。現(xiàn)在,您可以使用弱監(jiān)督分割架構(gòu) Mask Auto Labeler ( MAL )來幫助進(jìn)行分割注釋,以及固定和收緊用于對象檢測的邊界框。地面實(shí)況數(shù)據(jù)中對象周圍的松散邊界框可能會(huì)導(dǎo)致次優(yōu)檢測結(jié)果,但通過人工智能輔助注釋,您可以將邊界框收緊到對象上,從而獲得更準(zhǔn)確的模型。
圖 3 :NVIDIA TAO Toolkit 自動(dòng)標(biāo)記工作流程
MAL 是一個(gè)基于 transformer 的掩碼自動(dòng)標(biāo)記框架,用于僅使用方框注釋的實(shí)例分割。MAL 將方框裁剪圖像作為輸入,并有條件地生成掩碼偽標(biāo)簽。它對輸入和輸出標(biāo)簽都使用了 COCO 注釋格式。
MAL 顯著減少了自動(dòng)標(biāo)注和人工標(biāo)注之間的差距,以獲得遮罩質(zhì)量。使用 MAL 生成的掩碼訓(xùn)練的實(shí)例分割模型可以幾乎匹配完全監(jiān)督的對應(yīng)模型的性能,保留了高達(dá) 97.4% 的完全監(jiān)督模型的性能。
圖 4 :Mask Auto Labeler ( MAL )網(wǎng)絡(luò)架構(gòu)
在訓(xùn)練 MAL 網(wǎng)絡(luò)時(shí),任務(wù)網(wǎng)絡(luò)和教師網(wǎng)絡(luò)(共享相同的 transformer 結(jié)構(gòu))一起工作,以實(shí)現(xiàn)類不可知的自我訓(xùn)練。這使得能夠細(xì)化具有條件隨機(jī)場( CRF )損失和多實(shí)例學(xué)習(xí)( MIL )損失的預(yù)測掩碼。
TAO Toolkit 在自動(dòng)標(biāo)記管道和數(shù)據(jù)擴(kuò)充管道中都使用了 MAL 。具體而言,用戶可以在空間增強(qiáng)的圖像上生成偽掩模(例如,剪切或旋轉(zhuǎn)),并使用生成的掩模細(xì)化和收緊相應(yīng)的邊界框。
最先進(jìn)的愿景 transformer
transformer 已經(jīng)成為 NLP 中的標(biāo)準(zhǔn)架構(gòu),這主要是因?yàn)樽晕谊P(guān)注。它們還因一系列視覺人工智能任務(wù)而廣受歡迎。一般來說,基于 transformer 的模型可以優(yōu)于傳統(tǒng)的基于 CNN 的模型,因?yàn)樗鼈兙哂恤敯粜?、可推廣性和對大規(guī)模輸入執(zhí)行并行處理的能力。所有這些都提高了訓(xùn)練效率,對圖像損壞和噪聲提供了更好的魯棒性,并在看不見的對象上更好地泛化。
TAO Toolkit 5.0 為流行的 CV 任務(wù)提供了幾種最先進(jìn)的( SOTA )愿景 transformer ,具體如下。
全注意力網(wǎng)絡(luò)
全注意力網(wǎng)絡(luò)( FAN )是 NVIDIA Research 的一個(gè)基于 transformer 的主干家族,它在抵御各種破壞方面實(shí)現(xiàn)了 SOTA 的魯棒性。這類主干可以很容易地推廣到新的領(lǐng)域,并且對噪聲、模糊等更具魯棒性。
FAN 塊背后的一個(gè)關(guān)鍵設(shè)計(jì)是注意力通道處理模塊,它可以實(shí)現(xiàn)穩(wěn)健的表征學(xué)習(xí)。FAN 可以用于圖像分類任務(wù)以及諸如對象檢測和分割之類的下游任務(wù)。
圖 5 :與 FAN Small (右)相比, ResNet50 (中)損壞圖像的激活熱圖
FAN 系列支持四個(gè)主干,如表 2 所示。
表 2 :具有尺寸和精度的風(fēng)扇背板
全球環(huán)境愿景 transformer
全局上下文視覺 transformer ( GC ViT )是 NVIDIA Research 的一種新架構(gòu),可實(shí)現(xiàn)非常高的準(zhǔn)確性和計(jì)算效率。GC ViT 解決了視覺中缺乏誘導(dǎo)性偏倚的問題 transformer 。通過使用局部自注意,它在 ImageNet 上使用較少的參數(shù)獲得了更好的結(jié)果。
局部自我注意與全局上下文自我注意相結(jié)合,可以有效地模擬長距離和短距離的空間交互。圖 6 顯示了 GC ViT 模型體系結(jié)構(gòu)。有關(guān)更多詳細(xì)信息,請參見 Global Context Vision Transformers 。
圖 6 :GC ViT 模型架構(gòu)
如表 3 所示, GC ViT 家族包含六個(gè)主干,從 GC ViT xxTiny (計(jì)算效率高)到 GC ViT Large (非常準(zhǔn)確)。GC ViT 大型模型在 ImageNet-1K 數(shù)據(jù)集上可以實(shí)現(xiàn) 85.6 的 Top-1 精度,用于圖像分類任務(wù)。該體系結(jié)構(gòu)還可以用作其他 CV 任務(wù)的主干,如對象檢測、語義和實(shí)例分割。
表 3 :具有尺寸和精度的 GC ViT 骨干
DINO
DINO ( d 檢測 transformer ,帶有 i 改進(jìn)的 n oising anch o r )是最新一代 de 檢測 tr 編碼器( DETR )。它實(shí)現(xiàn)了比前代更快的訓(xùn)練收斂時(shí)間??勺冃?DETR ( D-DETR )至少需要 50 個(gè)歷元才能收斂,而 DINO 可以在 COCO dataset 上收斂 12 個(gè)歷元。與 D-DETR 相比,它還實(shí)現(xiàn)了更高的精度。
DINO 通過在訓(xùn)練過程中使用去噪來實(shí)現(xiàn)更快的收斂,這有助于在提案生成階段進(jìn)行二分匹配過程。由于二分匹配的不穩(wěn)定性,類 DETR 模型的訓(xùn)練收斂較慢。二部分匹配消除了手工制作和計(jì)算量大的 NMS 操作的需要。然而,它通常需要更多的訓(xùn)練,因?yàn)樵诙制ヅ溥^程中,不正確的基本事實(shí)與預(yù)測相匹配。
為了解決這個(gè)問題, DINO 引入了有噪聲的正地面實(shí)況盒和負(fù)地面實(shí)況盒來處理“無對象”場景。因此, DINO 的訓(xùn)練收斂得非???。有關(guān)更多信息,請參閱 DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 。
圖 7 :DINO 建筑
TAO Toolkit 中的 DINO 是靈活的,可以與傳統(tǒng)細(xì)胞神經(jīng)網(wǎng)絡(luò)的各種骨干(如 ResNets )和基于 transformer 的骨干(如 FAN 和 GC ViT )相結(jié)合。表 4 顯示了流行 YOLOv7 的各種版本的 DINO 上的 COCO 數(shù)據(jù)集的準(zhǔn)確性。有關(guān)更多詳細(xì)信息,請參見 YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors 。
表 4 :COCO 數(shù)據(jù)集上的 DINO 和 D-DETR 準(zhǔn)確性
分段窗體
SegFormer 是一種基于 transformer 的輕量級語義分割。解碼器由輕量級 MLP 層制成。它避免了使用位置編碼(主要由 transformer s 使用),這使得推理在不同分辨率下高效。
將 FAN 骨干網(wǎng)添加到 SegFormer MLP 解碼器中會(huì)產(chǎn)生一個(gè)高度魯棒和高效的語義分割模型。FAN-based hybrid SegFormer 是 Robust Vision Challenge 2022 語義分割的獲勝架構(gòu)。
[版本x88]
【VZX89】
目標(biāo)檢測和分割之外的 CV 任務(wù)
NVIDIA TAO 工具包加速了傳統(tǒng)對象檢測和分割之外的各種 CV 任務(wù)。TAO Toolkit 5.0 中新的字符檢測和識別模型使開發(fā)人員能夠從圖像和文檔中提取文本。這自動(dòng)化了文檔轉(zhuǎn)換,并加速了保險(xiǎn)和金融等行業(yè)的用例。
當(dāng)被分類的對象變化很大時(shí),檢測圖像中的異常是有用的,這樣就不可能用所有的變化進(jìn)行訓(xùn)練。例如,在工業(yè)檢測中,缺陷可以是任何形式的。如果訓(xùn)練數(shù)據(jù)之前沒有發(fā)現(xiàn)缺陷,那么使用簡單的分類器可能會(huì)導(dǎo)致許多遺漏的缺陷。
對于這樣的用例,將測試對象直接與黃金參考進(jìn)行比較將獲得更好的準(zhǔn)確性。TAO Toolkit 5.0 的特點(diǎn)是暹羅神經(jīng)網(wǎng)絡(luò),在該網(wǎng)絡(luò)中,模型計(jì)算被測對象和黃金參考之間的差異,以便在對象有缺陷時(shí)進(jìn)行分類。
使用 AutoML 實(shí)現(xiàn)超參數(shù)優(yōu)化的自動(dòng)化培訓(xùn)
自動(dòng)機(jī)器學(xué)習(xí)( autoML )自動(dòng)化了在給定數(shù)據(jù)集上為所需 KPI 尋找最佳模型和超參數(shù)的手動(dòng)任務(wù)。它可以通過算法推導(dǎo)出最佳模型,并抽象掉人工智能模型創(chuàng)建和優(yōu)化的大部分復(fù)雜性。
TAO Toolkit 中的 AutoML 可完全配置,用于自動(dòng)優(yōu)化模型的超參數(shù)。它既適合人工智能專家,也適合非專家。對于非專家來說,引導(dǎo) Jupyter notebook 提供了一種簡單有效的方法來創(chuàng)建準(zhǔn)確的人工智能模型。
對于專家來說, TAO Toolkit 可以讓您完全控制要調(diào)整的超參數(shù)和要用于掃描的算法。TAO Toolkit 目前支持兩種優(yōu)化算法:貝葉斯優(yōu)化和雙曲線優(yōu)化。這些算法可以掃描一系列超參數(shù),以找到給定數(shù)據(jù)集的最佳組合。
AutoML 支持多種 CV 任務(wù),包括一些新的視覺 transformer ,如 DINO 、 D-DETR 、 SegFormer 等。表 6 顯示了受支持網(wǎng)絡(luò)的完整列表(粗體項(xiàng)目是 TAO Toolkit 5.0 的新增項(xiàng)目)。
表 6 :TAO Toolkit 中 AutoML 支持的模型,包括幾個(gè)新的視覺轉(zhuǎn)換器模型(粗體項(xiàng)目是 TAO Toolkit5.0 的新項(xiàng)目)
用于工作流集成的 REST API
TAO Toolkit 是模塊化的、云原生的,這意味著它可以作為容器使用,并且可以使用 Kubernetes 進(jìn)行部署和管理。TAO Toolkit 可以作為自管理服務(wù)部署在任何公共或私有云、 DGX 或工作站上。TAO Toolkit 提供了定義良好的 RESTAPI ,使其易于集成到您的開發(fā)工作流程中。開發(fā)人員可以為所有的訓(xùn)練和優(yōu)化任務(wù)調(diào)用 API 端點(diǎn)。這些 API 端點(diǎn)可以從任何應(yīng)用程序或用戶界面調(diào)用,這可以遠(yuǎn)程觸發(fā)培訓(xùn)作業(yè)。
圖 9 :用于云原生部署的 TAO Toolkit 架構(gòu)
Better inference optimization
為了簡化產(chǎn)品化并提高推理吞吐量, TAO Toolkit 提供了幾種交鑰匙性能優(yōu)化技術(shù)。其中包括模型修剪、較低精度量化和 TensorRT 優(yōu)化,與公共模型動(dòng)物園的可比模型相比,這些技術(shù)可以將性能提高 4 到 8 倍。
圖 10 :在各種 GPU 上優(yōu)化的 TAO Toolkit 和公共模型之間的性能比較
開放靈活,具有更好的支撐
人工智能模型基于復(fù)雜的算法預(yù)測輸出。這可能會(huì)使人們很難理解系統(tǒng)是如何做出決定的,并且很難調(diào)試、診斷和修復(fù)錯(cuò)誤??山忉屓斯ぶ悄埽?XAI )旨在通過深入了解人工智能模型如何做出決策來應(yīng)對這些挑戰(zhàn)。這有助于人類理解人工智能輸出背后的推理,并使診斷和修復(fù)錯(cuò)誤變得更容易。這種透明度有助于建立對人工智能系統(tǒng)的信任。
為了提高透明度和可解釋性, TAO Toolkit 現(xiàn)在將以開源形式提供。開發(fā)人員將能夠從內(nèi)部層查看特征圖,并繪制激活熱圖,以更好地理解人工智能預(yù)測背后的推理。此外,訪問源代碼將使開發(fā)人員能夠靈活地創(chuàng)建定制的人工智能,提高調(diào)試能力,并增加對其模型的信任。
NVIDIA TAO 工具包已準(zhǔn)備就緒,可通過 NVIDIA AI Enterprise ( NVAIE )獲得。NVAIE 為公司提供關(guān)鍵業(yè)務(wù)支持、訪問 NVIDIA 人工智能專家以及優(yōu)先級安全修復(fù)。Join NVAIE 獲得人工智能專家的支持。
與云服務(wù)集成
NVIDIA TAO Toolkit 5.0 集成到您可能已經(jīng)使用的各種 AI 服務(wù)中,如 Google Vertex AI 、 AzureML 、 Azure Kubernetes 服務(wù)和 Amazon EKS 。
圖 11 。TAO Toolkit 5.0 與各種人工智能服務(wù)集成
總結(jié)
TAO Toolkit 為任何開發(fā)人員、任何服務(wù)和任何設(shè)備提供了一個(gè)平臺,可以輕松地轉(zhuǎn)移學(xué)習(xí)他們的自定義模型,執(zhí)行量化和修剪,管理復(fù)雜的訓(xùn)練工作流程,并執(zhí)行人工智能輔助注釋,而無需編碼。在 GTC 2023 上, NVIDIA 宣布了 TAO Toolkit 5.0 . Sign up to be notified 關(guān)于 TAO Toolkit 的最新更新。
Download NVIDIA TAO Toolkit 并開始創(chuàng)建自定義人工智能模型。您也可以在 LaunchPad 上體驗(yàn) NVIDIA TAO 工具包。
*本文轉(zhuǎn)載自 NVIDIA英偉達(dá)
*與 NVIDIA 產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸 NVIDIA Corporation 所有。