小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

數(shù)據(jù)集標準范式出現(xiàn),具身智能有望迎來快速突破

 張先民 2024-12-31 發(fā)布于陜西
正如ChatGPT需要海量文本數(shù)據(jù)來訓練一樣,高質(zhì)量、多樣化數(shù)據(jù)集是實現(xiàn)具身智能快速突破和具身機器人快速落地應(yīng)用的關(guān)鍵。優(yōu)質(zhì)的數(shù)據(jù)集能夠加速具身智能模型的訓練與部署,幫助其控制各種類型的機器人遵循不同的指令,對復雜任務(wù)進行基本推理,并有效地完成這些任務(wù)。
但不同于大語言模型可以使用互聯(lián)網(wǎng)海量信息作為訓練數(shù)據(jù),機器人所用的具身智能模型并無現(xiàn)成數(shù)據(jù)可供直接使用。一套符合通用標準、由模型驗證有效且具備通用性的數(shù)據(jù)集,已成為當前具身智能行業(yè)最大的剛需。
2024年12月27日,國家地方共建具身智能機器人創(chuàng)新中心(以下簡稱“創(chuàng)新中心”)與北京大學計算機學院聯(lián)合推出了一個大規(guī)模多構(gòu)型具身智能數(shù)據(jù)集和Benchmark——RoboMIND,基于成型標準采集,經(jīng)多個模型訓練驗證有效,支持多本體多任務(wù)并具備通用性,充分解決了目前全球開源數(shù)據(jù)集,量大但數(shù)據(jù)質(zhì)量參差不齊、通用性復用性差、部分數(shù)據(jù)實測效果不理想等問題,有效滿足復雜場景具身智能高效率和針對性的訓練。

適用于多平臺、多場景、多技能

的數(shù)據(jù)集價值更大

當前具身智能本體形態(tài)多種多樣,應(yīng)用場景千差萬別,對于具身智能訓練數(shù)據(jù)的需求也更為多元。目前業(yè)內(nèi)仍有部分數(shù)據(jù)集主要聚焦在特定機器人、特定場景和特定技能等方面,在整體通用性上有待提升。
創(chuàng)新中心發(fā)布的RoboMind數(shù)據(jù)集,采用了包括含單臂機器人、雙臂機器人、人形機器人,手臂末端使用夾爪或者靈巧手等多種形態(tài)的機器人本體進行數(shù)據(jù)采集,包含了涉及279項不同的任務(wù)多類場景,涵蓋了高達61種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務(wù)場景,對科研突破和場景應(yīng)用均十分友好。創(chuàng)新中心持續(xù)采集長程復雜任務(wù),目前已經(jīng)積累數(shù)十萬條高質(zhì)量數(shù)據(jù),以真機數(shù)據(jù)為主,配以仿真遙操作數(shù)據(jù)。在數(shù)據(jù)質(zhì)量與使用價值上,一條數(shù)據(jù)等同于目前現(xiàn)有數(shù)據(jù)集的多條存量數(shù)據(jù)。創(chuàng)新中心計劃首批開源10萬條,后續(xù)逐步釋放,涵蓋更多機器人本體和場景任務(wù)。

圖片

Robomind數(shù)據(jù)集多形態(tài)機器人,多場景驗證
據(jù)谷歌Open X-Embodiment公開資料顯示,其數(shù)據(jù)集匯集了來自各個機構(gòu)的數(shù)據(jù),整合了70余個獨立數(shù)據(jù)集,合計百萬量級數(shù)據(jù)片段,涵蓋了從單臂機器人到雙臂機器人,再到四足機器人等多種不同形態(tài)的機器人。值得一提的是,雖然OpenX發(fā)布數(shù)據(jù)集高達百萬條量級,但是大小只有3TB左右,且數(shù)據(jù)質(zhì)量和一致性差,真正可用的有效數(shù)據(jù)不足一半。此外,其實測效果較差,在其官方的小參數(shù)量模型(RT-1 35M)上,甚至不如原版RT-1的13萬條數(shù)據(jù)訓練的效果。創(chuàng)新中心本次發(fā)布的數(shù)據(jù)集大小是20TB,并且保證了所有數(shù)據(jù)的統(tǒng)一可用,在benchmark測試中大小模型已跑通了數(shù)據(jù)集中涵蓋的所有機器人本體。

圖片

Open X-Embodiment 數(shù)據(jù)集的樣本

多款模型驗證有效

具身智能數(shù)據(jù)集邁入下一個階段

當前市場上已有多家機構(gòu)開源具身智能數(shù)據(jù)集,但由于是多個數(shù)據(jù)集整合,存在一定數(shù)據(jù)格式不統(tǒng)一,數(shù)據(jù)質(zhì)量參差不齊,需要進行大量的二次調(diào)試、整合,難以有效滿足復雜場景具身智能高效率和針對性的訓練等問題,并且基于開源的數(shù)據(jù)集測試訓練效果也不盡相同。經(jīng)過驗證后“能用”、“好用”的高質(zhì)量具身智能數(shù)據(jù)集成為了行業(yè)關(guān)注的重點,也是許多高校、科研機構(gòu)和企業(yè)重點攻克的難題。
創(chuàng)新中心發(fā)布的RoboMIND,已在主流單任務(wù)模仿學習模型(如ACT、BAKU)和具身多模態(tài)大模型(如OpenVLA、RDT-1B)進行了評測,經(jīng)多本體和多任務(wù)的系統(tǒng)評測,證明RoboMIND數(shù)據(jù)集有效提升了模仿學習模型在現(xiàn)實場景下任務(wù)的成功率,率先進入了數(shù)據(jù)集使用的下一個階段。

圖片

RoboMIND數(shù)據(jù)集實驗驗證

行業(yè)引領(lǐng)者,創(chuàng)新中心打造國內(nèi)首個

具身智能數(shù)據(jù)采集標準

具身智能數(shù)據(jù)采集需要投入大量時間和資源進行機器人操作實踐或者仿真模擬,來收集視覺、觸覺、力覺、運動軌跡以及機器人本體狀態(tài)等多源異構(gòu)數(shù)據(jù)。目前業(yè)內(nèi)發(fā)布的數(shù)據(jù)集標準不一,存在數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)通用性復用性差、部分數(shù)據(jù)實測效果不理想等問題。
今年11月,作為行業(yè)的引領(lǐng)者,國家地方共建具身智能機器人創(chuàng)新中心牽頭立項《人工智能 具身智能 數(shù)據(jù)采集規(guī)范》工信部行業(yè)標準,這是國內(nèi)第一個具身智能數(shù)據(jù)集的行業(yè)標準,規(guī)范了具身智能數(shù)據(jù)集采集的格式,使不同公司采集的數(shù)據(jù)可以互相共享開源,能夠加速模型“涌現(xiàn)”。創(chuàng)新中心未來還將設(shè)計一系列數(shù)據(jù)集標準,為模型泛化保駕護航。
在12月的具身智能創(chuàng)新發(fā)展研討會上,創(chuàng)新中心正式發(fā)布了《具身智能標準化研究報告》、《具身智能數(shù)據(jù)集及評測研究報告》(即RoboMIND)兩項重磅報告,為行業(yè)的標準化與數(shù)據(jù)集建設(shè)提供指引。具身智能數(shù)據(jù)集采集標準的建立將進一步明確具身智能數(shù)據(jù)要求及質(zhì)量等,從而加速具身智能行業(yè)的良性發(fā)展。

圖片

作為訓練具身智能大模型的重要原料,數(shù)據(jù)集采集是否符合標準、在訓練上是否“能用”、“好用”,是否能更有效支持模型泛化,已經(jīng)成為機器人變“聰明”的關(guān)鍵。本次創(chuàng)新中心數(shù)據(jù)集的開放和benchmark的發(fā)布,在標準化、有效性和通用性方面均給出了令人矚目的突破性結(jié)果,并為此后行業(yè)的高質(zhì)量數(shù)據(jù)集采集打下了堅實基礎(chǔ)。具身智能行業(yè)有望以此為開端,在2025年實現(xiàn)更多的落地應(yīng)用。
BREAK AWAY

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多