人形機器人的發(fā)展劃分為大腦、小腦和肢體三個方面。大腦主要解決復雜環(huán)境感知決策、人機交互以及提升機器人的學習適應能力。小腦,即過去的控制系統(tǒng),主要負責運動建模、復雜控制以及各種形態(tài)的控制。 人形機器人架構是一個云網(wǎng)端架構的系統(tǒng),大腦負責多模態(tài)模型建模、強化學習、地圖創(chuàng)建和數(shù)據(jù)訓練。數(shù)據(jù)訓練端作為云端大腦,訓練完成后,通過網(wǎng)絡高速互聯(lián)互通進入人形機器人機構本體。機構本體的小腦則重點管理表情計算、視覺控制、感知信息等各種驅動手和關節(jié)的控制,形成一體的小腦控制。 將AI大模型賦能到人形機器人,需要注意幾個方面。首先,通過這個模型提升人形機器人的自然語言交互,使機器人能夠與人進行自然語言的交互理解。其次,需要識別復雜場景視覺感知。第三,需要對動作和規(guī)劃進行精準把控。最后,需要進行自主學習提升來完成任務。 ==================================================== 前言 人形機器人將成為繼個人計算機、手機和智能汽車之后新一代智能終端,可能形成萬億級市場。 以下內容來源于中國工程院院士王耀南在2024機器人和智能制造技術與標準創(chuàng)新發(fā)展(杭州)大會上的《AI大模型驅動的具身智能人形機器人與展望》報告實錄,報告圍繞人形機器人研究背景與意義、國內外研究現(xiàn)狀、關鍵技術及應用發(fā)展趨勢與展望四部分展開,整理刪改: 我們正處于智能化時代,從機械化時代的工業(yè)1.0,到電氣化時代的工業(yè)2.0,再到信息化的工業(yè)3.0,現(xiàn)在我們正邁向工業(yè)4.0智能化的時代。在這個時代背景下,工業(yè)機器人、服務機器人和特種機器人發(fā)揮著越來越重要的作用。智能機器人已廣泛應用于工業(yè)制造、國防安全、智能服務和智慧農業(yè)等各個行業(yè),呈現(xiàn)出同步發(fā)展的趨勢,并具有廣闊的應用前景。 在過去的幾十年里,工業(yè)機器人發(fā)揮了重要作用。而為了解決服務機器人的問題,人類與我們共同走向了人形機器人的研發(fā)之路。 那么,為什么要發(fā)展人形機器人? 人形機器人主要模仿人的形態(tài)、運動和功能,可以與人進行交流。它不僅模仿了人的外形、外觀和行為,還是一種通用的智能機器人,是國際公認的人工智能、高端制造新材料等尖端技術的集成者,也是科技競爭的制高點和未來的新賽道。 我們預判人形機器人將成為繼個人計算機、手機和智能汽車之后新一代智能終端,可能形成萬億級市場。因此,我們關注產(chǎn)業(yè)化路徑,提出了人形機器人發(fā)展的主要動力來自于需求牽引和整機帶動。應用場景,如智慧農業(yè)、醫(yī)療、家庭服務等,是推動人形機器人發(fā)展的關鍵。整機研發(fā)是主攻方向,軟件和硬件必須協(xié)同,以培育一個完整的生態(tài),進而帶動產(chǎn)業(yè)鏈、創(chuàng)新鏈和人才鏈的發(fā)展轉型升級。 在關鍵技術突破方面,我們將人形機器人的發(fā)展劃分為大腦、小腦和肢體三個方面。大腦主要解決復雜環(huán)境感知決策、人機交互以及提升機器人的學習適應能力。小腦,即過去的控制系統(tǒng),主要負責運動建模、復雜控制以及各種形態(tài)的控制。而肢體方面則是整機和部件的共同發(fā)展。 未來,人形機器人開發(fā)工具要形成大產(chǎn)業(yè),必須具備大模型訓練數(shù)據(jù)標注軟件和應用軟件。這樣我們可以將機電一體化考慮在內,形成人形機器人的發(fā)展路線。 我們2020年提出的人形機器人架構是一個云網(wǎng)端架構的系統(tǒng),大腦負責多模態(tài)模型建模、強化學習、地圖創(chuàng)建和數(shù)據(jù)訓練。數(shù)據(jù)訓練端作為云端大腦,訓練完成后,通過網(wǎng)絡高速互聯(lián)互通進入人形機器人機構本體。機構本體的小腦則重點管理表情計算、視覺控制、感知信息等各種驅動手和關節(jié)的控制,形成一體的小腦控制。 目前,人形機器人國內外研發(fā)重點主要包括: 環(huán)境感知 人形機器人的環(huán)境感知部分主要涉及各種傳感器的研發(fā),包括內部傳感器、慣導傳感器、立位傳感器、皮膚傳感器、外部傳感器、視覺傳感器、激光雷達傳感器以及聲學傳感器等。 執(zhí)行器 執(zhí)行器部分涉及驅動電機和靈巧手等執(zhí)行機構。研發(fā)動力部件、驅動減速器等關鍵零部件對于人形機器人的發(fā)展至關重要。 小腦開發(fā) 小腦負責機器人的運動控制,從傳統(tǒng)的模型驅動轉向數(shù)據(jù)驅動。通過強化學習,機器人小腦變得更加靈活,加速了控制器的開發(fā)。 大腦開發(fā) 大腦負責感知、控制、傳感和控制一體,涉及高級決策核心。通過多模態(tài)模型建模、強化學習、地圖創(chuàng)建和數(shù)據(jù)訓練,大腦能夠管理和協(xié)調機器人的各種功能。 近年來,人形機器人發(fā)展迅速。通過感知、傳動、算一體的端到端大模型學習和訓練大腦,人形機器人得到了更多的活力。大模型使人形機器人可以解決復雜規(guī)劃問題,具備情感、精準執(zhí)行能力和理解人的意圖等優(yōu)勢。此外,具身智能的發(fā)展也加速了人形機器人的多模態(tài)交互和學習能力。 經(jīng)過研判,今年人形機器人規(guī)模發(fā)展非常迅速,但仍處于艱苦的爬坡過坎階段。從市值分析,目前中國在人形機器人產(chǎn)值尚未達到預期。 從分布角度來看,國內人形機器人的地域分布相對集中,主要集中在沿海發(fā)達地區(qū),包括重慶中部地區(qū)和南部地區(qū)。我們更多地需要通過形成產(chǎn)業(yè)生態(tài)鏈、創(chuàng)新鏈和上下游聯(lián)動,以推動人形機器人的大發(fā)展,形成真正的新三板。 回顧過去,我們團隊在1985年就開始研發(fā)機器人,主要采用模型驅動,如神經(jīng)網(wǎng)絡模型驅動的機器人智能控制。然而,開發(fā)周期緩慢,需要完成多個程序。為了改善控制能力,我們設計了模糊神經(jīng)網(wǎng)絡控制系統(tǒng)作為輔助修正學習。現(xiàn)在,我們需要融入新技術,如深度強化學習和大模型驅動,以加速人形機器人的開發(fā)周期。 那么,AI大模型如何賦能人形機器人開發(fā)? 將AI大模型賦能到人形機器人,需要注意幾個方面。首先,通過這個模型提升人形機器人的自然語言交互,使機器人能夠與人進行自然語言的交互理解。其次,需要識別復雜場景視覺感知。第三,需要對動作和規(guī)劃進行精準把控。最后,需要進行自主學習提升來完成任務。 人形機器人與其他機器人的最大不同,在于它需要具備情感計算和表達能力。大模型為機器人注入了新的活力,使人形機器人具備了情感表達和分析能力。 未來,人形機器人行業(yè)還有很多工作需要完成。我們應該聯(lián)合企業(yè)、政府、高校和研究所,共同梳理和發(fā)力,讓人形機器人真正走向生活、智能制造和國防等領域。 首先,我們需要打破訓練數(shù)據(jù)大模型之下的壁壘,充分利用他人的優(yōu)勢進行開發(fā)。其次,我們可以采用小模型進行分布式開發(fā)。最后,我們需要探討如何高效地應對大模型的多模態(tài)企業(yè)特征、提升端到端控制的通用性和訓練效率、保障模型的泛化能力和可解釋性等問題。 為了實現(xiàn)這些目標,我們需要研究人工智能大模型,推動人形機械一體化發(fā)展。我們需要設立一個開源數(shù)字底座,涵蓋計算智能、感知智能、認知智能、決策智能、行為智能以及真正的具身智能。這個底座應該具備感知、認知、思考、分析、判斷、推理和交互功能,以推動人形機器人具備智能自主操控性。 此外,未來的人形機器人還需要具備情商和智商兼?zhèn)涞奶攸c。數(shù)字人與機器人的有機結合將是未來的發(fā)展趨勢。數(shù)字人已經(jīng)在各個領域廣泛應用并形成產(chǎn)業(yè)化,我相信實體人形機器人也將與數(shù)字人一樣在數(shù)字空間和實際中發(fā)揮作用。為了實現(xiàn)這一目標,我們需要取得突破,在數(shù)字人具備群智兼?zhèn)涞幕A上,還需要解決腦認知驅動的情感激勵、多模態(tài)前置大模型融合的解釋建議以及個性化情感的表征與動態(tài)等科學問題。 總之,通用人形機器人的發(fā)展需要多學科交叉協(xié)同創(chuàng)新,突破運動、操作、智能三大專業(yè)技術。我們應該攜手共進,無論是企業(yè)、高校還是科研院所,都應該共同努力推進人形機器人的發(fā)展。讓我們攜手艱苦攻關,實現(xiàn)通用人形機器人的夢想! |
|