AI Day 2022所涉及的領(lǐng)域?qū)嵲谑翘珡V泛,從機(jī)器人到自動(dòng)駕駛,從算法創(chuàng)新到數(shù)據(jù)閉環(huán),從AI編譯軟件優(yōu)化,通訊優(yōu)化,到底層推理訓(xùn)練芯片硬件設(shè)計(jì)理念,即使作為自動(dòng)駕駛行業(yè)從業(yè)者也很難做到對(duì)每一個(gè)部分都了解的面面俱到,因此本文著重解析AI Day自動(dòng)駕駛方面內(nèi)容,類人機(jī)器方面其實(shí)目前看來還比較初級(jí),離產(chǎn)品商業(yè)化還有距離,技術(shù)分享本身也不夠深入,因此只會(huì)在文末對(duì)Tesla bot做簡單的評(píng)述和展望。此外AI Day II技術(shù)分享廣度十分驚人,但某些部分不夠細(xì)節(jié),因此本文也會(huì)加入一定的自己的理解,因此少量的錯(cuò)誤以及與實(shí)際有所出入也在所難免,歡迎有對(duì)某些模塊更了解的朋友理性討論,糾正指出。1.概況2022 AI Day Tesla所展示的其在自動(dòng)駕駛和人工智能方面研發(fā)的創(chuàng)新和廣度是前所未有的,雖然近幾年來通過不斷的技術(shù)分享,Tesla獨(dú)特的技術(shù)方案已經(jīng)逐漸為業(yè)界所熟知,但今年所分享的很多最新的理念和創(chuàng)新,包括徹底貫徹端到端的數(shù)據(jù)驅(qū)動(dòng)方法到技術(shù)方案的各個(gè)部分,以及從底層硬件到頂層算法的高度縱向集成優(yōu)化帶來的性能飛躍等,仍舊令人瞠目與震撼,因此我覺得把Tesla AI Day稱作自動(dòng)駕駛領(lǐng)域的春晚也一點(diǎn)也不為過。下面我會(huì)盡量用通俗易懂的方式來分享一下我對(duì)于Tesla AI Day的解讀。 2.自動(dòng)駕駛FSD部分柵格網(wǎng)絡(luò) Occupancy Network如果在鳥瞰圖坐標(biāo)系下的BEV感知是高水平視覺為主的自動(dòng)駕駛方案的敲門磚,那么Occupancy Network就是純視覺自動(dòng)駕駛技術(shù)的又一里程碑。Occupancy Network最早在去年其實(shí)就出現(xiàn)在FSD Beta的Release Note中,但是廣泛的為大家熟知應(yīng)該來自于CVPR 2022 自動(dòng)駕駛workshop中Ashok的分享。 從Ashok的分享可以看出,占據(jù)柵格網(wǎng)絡(luò)Occupancy Network并非推翻了鳥瞰圖BEV感知的技術(shù)基礎(chǔ),而是對(duì)BEV 網(wǎng)絡(luò)在高度方向進(jìn)行了進(jìn)一步的擴(kuò)展,從上圖可以看到整體框架在對(duì)各個(gè)相機(jī)進(jìn)行圖像平面特征提取以后,仍舊是接一個(gè)Transformer的模塊,在圖像feature map中通過MLP生成Value, Key,并利用BEV坐標(biāo)系下柵格坐標(biāo)的位置編碼生成Query,不同的是這次柵格不只是BEV感知中的2D柵格,而是在高度方向又增加了一個(gè)維度變成了3D柵格,進(jìn)而生成了Occupancy Features替代了原本的BEV Features。 而在AI Day上的分享相比CVPR上又更加詳細(xì)了一些,這里可以看到3個(gè)方面的改進(jìn):1.最左側(cè)基于原始光子計(jì)數(shù)(Photon Count)的傳感器圖像作為模型輸入,而沒有經(jīng)過ISP等常見的圖像預(yù)處理方法,根據(jù)Tesla之前的分享可以強(qiáng)化系統(tǒng)在低光照可見度低的條件下提供超越人眼的感知能力。2. Temporal Alignment利用里程計(jì)信息,對(duì)前面時(shí)刻的柵格特征(Occupancy Features)進(jìn)行時(shí)序上的拼接,如圖所示不同時(shí)間的feature有著不同的透明度,似乎隨著時(shí)間遠(yuǎn)近還有一個(gè)權(quán)重的衰減,然后時(shí)序信息似乎實(shí)在Channel維度進(jìn)行拼接的,組合后的Occupancy Features會(huì)進(jìn)入Deconvolutions的模塊來提高分辨率。這樣看來目前Tesla在時(shí)序利用上可能也更傾向于使用類似Transformer或時(shí)間維度作為一個(gè)Chanel的時(shí)序CNN這樣的可并行的時(shí)序處理方案,而不是AI Day I中所提到的Spatial RNN這樣的RNN方案。3. 與CVPR公布的方案相比Occupancy Network除了輸出3D柵格特征和柵格流(速度,加速度等)以外,還增加了兩個(gè)基于Query的亞像素幾何和語義輸出,這個(gè)基于x,y,z坐標(biāo)的Query思路很像NeRF(應(yīng)該是受此啟發(fā)),能夠提供給Occupancy Network變分辨率聚焦能力,相比幾個(gè)月前的CVPR,已經(jīng)有了這樣更新的迭代,Tesla這樣的迭代速度實(shí)在令人驚嘆。 那為甚么說Occupancy Network是純視覺自動(dòng)駕駛領(lǐng)域的又一里程碑,甚至是個(gè)人認(rèn)為是純視覺領(lǐng)域最為重要的技術(shù)突破呢?這就要提到純視覺一直被人詬病的對(duì)于未知障礙物的識(shí)別能力。一直以來普遍看法認(rèn)為基于識(shí)別的視覺感知一定要識(shí)別到見過的障礙物才能進(jìn)行避障,對(duì)于從未見過的異型障礙物則束手無策,于是無法識(shí)別缺乏紋理橫在路上的白色大貨車就一直成為很多人對(duì)Tesla純視覺方案口誅筆伐的焦點(diǎn),也正因此,無論視覺感知算法如何強(qiáng)大,Lidar一直被一些人視為安全的自動(dòng)駕駛不可或缺的傳感設(shè)備。 然而這種偏見其實(shí)本質(zhì)上是對(duì)AI算法的進(jìn)步缺乏了解,視覺感知其實(shí)很早就不完全需要基于識(shí)別了,即使在2D圖像平面的感知上,也有著可通行區(qū)域的識(shí)別,可以不依賴于障礙物的識(shí)別。 2D平面感知的可通行區(qū)域結(jié)果很難直接用來進(jìn)行下游路徑規(guī)劃,但如下圖3D Occupancy Network感知結(jié)果就直接可以用來指導(dǎo)自動(dòng)駕駛路徑規(guī)劃,這個(gè)后面在Planning部分會(huì)進(jìn)一步介紹。 上圖可以看到施工占路的異型車輛以及異型車輛所放在地上的警示桿都被Occupancy Network正確感知,這恰恰是之前沒有Lidar很難做到的。而與Lidar相比,視覺的語義感知的能力更強(qiáng),Occupancy Network相比Lidar的優(yōu)勢在于可以更好地將感知到的3D幾何信息與語義信息融合,而不需要對(duì)Lidar和相機(jī)進(jìn)行時(shí)間同步,外參對(duì)齊等工作??梢钥吹竭@里異型車是紅色柵格,這里表示這一個(gè)靜止車輛,這正是由于Occupancy Network在一般障礙物幾何感知的基礎(chǔ)上還附加了語義和速度,加速度輸出。下面兩個(gè)例子更能很好的說明Occupancy Network的這兩項(xiàng)優(yōu)勢。 上圖地面出現(xiàn)的煙囪被正確識(shí)別形狀并賦予黃色靜態(tài)障礙物屬性,而右側(cè)的長客車,前半部分剛開始運(yùn)動(dòng),被賦予藍(lán)色動(dòng)態(tài)物體屬性,而客車后半部分由于還處于靜止?fàn)顟B(tài),被賦予了紅色靜止物體屬性。 上圖高速上行駛的掛車,尾部發(fā)生擺動(dòng),其形態(tài)不斷變化,也被Occupancy Network正確感知且賦予了正確的藍(lán)色動(dòng)態(tài)物體屬性和相應(yīng)的速度和加速度。 而這樣復(fù)雜的Occupancy Network可以在10毫秒中計(jì)算完畢,也就是說Tesla Occupancy Network的輸出可以達(dá)到跟相機(jī)同樣的36Hz,而目前絕大多數(shù)Lidar的采集頻率只有10Hz,因此在高速環(huán)境或者對(duì)快速移動(dòng)的物體感知方面,純視覺的Occupancy Network甚至可能做到比Lidar更強(qiáng)。 車道線及障礙物感知 Lane & Object PerceptionTesla的車道線感知在BEV時(shí)代就已經(jīng)是業(yè)界最強(qiáng)的存在,F(xiàn)SD Beta在2020年10月開始進(jìn)行公開測試也證實(shí)掀起了學(xué)術(shù)界研究BEV感知的熱潮。AI Day II分享了車道線感知的最新進(jìn)展,包括v10.69后在FSD Beta Release Note中出現(xiàn)的Map Guidance Module以及在v10.11中就出現(xiàn)的端到端Vector Lane感知。 從AI Day的分享可以看到FSD的最新車道線感知已經(jīng)是基于3D Occupancy的感知,而不再是僅僅基于2D BEV,另外之前Occupancy Network也提到了地面曲面感知,可知現(xiàn)在Tesla的車道線感知是具有高低起伏變化的車道線感知。這里第一個(gè)與之前版本車道線感知不同的點(diǎn)就是Map Component的引入。Tesla提到他們使用了低精度地圖中關(guān)于車道線幾何/拓?fù)潢P(guān)系的信息,車道線數(shù)量,寬度,以及特殊車道屬性等信息,并將這些信息整合起來進(jìn)行編碼,與視覺感知到的特征信息一起生成車道線Dense World Tensor給到后續(xù)Vector Lane模塊。 后續(xù)的重頭戲其實(shí)是借鑒語言模型開發(fā)的Vector Lane模塊。這里Vector Space Encoding即上圖的Dense World Tensor,而整個(gè)模塊的思路是把車道線相關(guān)信息包括車道線節(jié)點(diǎn)位置,車道線節(jié)點(diǎn)屬性(起點(diǎn),中間點(diǎn),終點(diǎn)等),分叉點(diǎn),匯合點(diǎn),以及車道線樣條曲線幾何參數(shù)進(jìn)行編碼,做成類似語言模型中單詞token的編碼,然后利用時(shí)序處理辦法進(jìn)行處理。這里框架看起來非常像Transformer中的Decoder,前序車道線token作為decoder的輸入進(jìn)行Self Attention,再在Cross Attention步驟里生成Query,而Vector Space Encoding則整體生成Value和Key來與前序Token結(jié)合生成最新的token。 這個(gè)思路很清晰,也不難理解,其實(shí)在高精地圖矢量話的相關(guān)論文中早有類似的嘗試,但是其中如何對(duì)Vector Space進(jìn)行編碼,如何對(duì)車道線各種屬性進(jìn)行編碼,以及如何在推理端實(shí)時(shí)運(yùn)行這些工程細(xì)節(jié)相比整體思路而言應(yīng)該更為關(guān)鍵。目前看來FSD能夠?qū)崟r(shí)的獲得非常復(fù)雜路口的道路連接關(guān)系,這些拓?fù)潢P(guān)系對(duì)于自車規(guī)劃以及對(duì)于其他車輛的軌跡預(yù)測都十分關(guān)鍵。這樣恐怖的實(shí)時(shí)視覺感知,甚至有些黑魔法的意味,如下圖所示,這些道路連接拓?fù)洳⒎莵碜杂诘貓D,其證據(jù)就是觀看實(shí)際視頻的時(shí)候隨著自車未知角度以及可視范圍的變化,這些連接關(guān)系并不是一成不變的,而是會(huì)持續(xù)進(jìn)行微調(diào)。 另外目前看來Tesla的生成的Lane Graph Vector也并不是完美的,除了一些節(jié)點(diǎn)和連接問題,在使用感知車道線連接關(guān)系時(shí)候也有著一些瑕疵,例如下圖是AI Day上展示的一個(gè)視頻片段,明眼人可以看出這里對(duì)向左轉(zhuǎn)車輛軌跡預(yù)測并沒完全與車道線感知匹配起來,比如這一時(shí)刻就預(yù)測到了中間隔離帶,上一時(shí)刻則轉(zhuǎn)向了逆行車道,這樣的軌跡預(yù)測精度可能會(huì)在復(fù)雜路口路徑規(guī)劃過程中造成一定的問題,但是這些問題是性能方面的問題,整體技術(shù)框架已經(jīng)越來越趨于完善,后續(xù)性能提高則需要不斷在現(xiàn)有基礎(chǔ)上迭代就一定可以提升。 在障礙物感知方面分享的細(xì)節(jié)則更少一些,這里比較著重提到的是現(xiàn)在FSD的Object Perception是一個(gè)2-Step的方法,思路類似于Faster-RCNN這種兩步檢測框架,先通過Occupancy Features生成一個(gè)ROI map,然后再將ROI區(qū)域與Occupancy Features結(jié)合,在concat一些運(yùn)動(dòng)學(xué)信息的編碼(如自車運(yùn)動(dòng),目標(biāo)行駛車道線,交通燈交通信號(hào)等)然后在接入軌跡預(yù)測,VRU預(yù)測等。這樣的方法可以講一些復(fù)雜的感知Heads聚焦于有限的ROI區(qū)域,提高了整體感知算法的運(yùn)算效率。 基于Vector Space的FSD路徑規(guī)劃這次AI Day 2022比上次AI Day分享了更多一點(diǎn)的決策規(guī)劃內(nèi)容,這兩次分享對(duì)決策規(guī)劃的討論都比較簡單,遠(yuǎn)不如感知部分細(xì)致詳盡,然而Tesla的決策規(guī)劃控制算法在行業(yè)中毫無疑問是極強(qiáng)的,簡單到我日常使用免費(fèi)版Autopilot車道保持在幾乎任何高速彎道都能無障礙通過無愧彎道王者的稱號(hào),復(fù)雜到在北美地區(qū)不使用高精地圖的FSD就可以在無車道道路,舊金山九曲花街這樣鬼畜連續(xù)急彎,高低起伏的山路,復(fù)雜快速車流無保護(hù)路口借中間分隔帶左轉(zhuǎn)(aka Chunk彎)等等, 通過兩次AI Day基本上可以看出Tesla決策規(guī)劃的大體框架,最宏觀看是一個(gè)Sample Based顆粒度從粗到細(xì)的增量樹搜索,在樹搜索過程中又有兩個(gè)核心模塊,決策樹生成和決策樹剪枝,整體決策規(guī)劃框架如下圖: 1.決策樹生成:生成決策樹的初始輸入來自于前面車道線,障礙物以及Occupancy Network感知得到的Vector Space, 通過Vector Space規(guī)劃出后續(xù)潛在目標(biāo)狀態(tài),如目標(biāo)車道線,目標(biāo)路口,超車等,然后這些目標(biāo)狀態(tài)又可以進(jìn)一步拆分成規(guī)劃動(dòng)作(軌跡)集合,最后規(guī)劃的軌跡還要考慮與周圍動(dòng)態(tài)障礙物可能出現(xiàn)的博弈場景。這里最終要的是如何生成決策分支的算法,傳統(tǒng)算法基于條件約束的優(yōu)化方法獲取最優(yōu)路徑,特斯拉采用遞增的方式不斷加入新的約束,用較少約束下最優(yōu)方案作為初值繼續(xù)求解更加復(fù)雜的優(yōu)化問題,最終得到最優(yōu)解,Tesla工程師提到這種方法雖然在離線進(jìn)行了很多預(yù)生成,并在在線做了并行優(yōu)化,然而每個(gè)候選路徑1~5ms的計(jì)算時(shí)間雖然已經(jīng)很優(yōu)秀,但對(duì)于盡可能遍歷城市場景復(fù)雜還是不夠快,Tesla于是使用了另一套數(shù)據(jù)驅(qū)動(dòng)的輕量生成網(wǎng)絡(luò)幫助快速生成規(guī)劃路徑。這個(gè)數(shù)據(jù)驅(qū)動(dòng)決策樹生成模型使用Tesla車隊(duì)中人類駕駛員駕駛數(shù)據(jù)和在無時(shí)間約束的離線條件下規(guī)劃的全局最優(yōu)路徑最為真值進(jìn)行訓(xùn)練,能夠在100us內(nèi)生成一個(gè)候選規(guī)劃路徑。 2.決策樹剪枝:有了決策樹生成算法,就有了完整的規(guī)劃問題定義,然而即使使用上述生成方法,要在限制的響應(yīng)時(shí)間內(nèi)遍歷復(fù)雜場景決策樹也是不可能的。因此一個(gè)能夠?qū)τ诤蜻x路徑進(jìn)行快速評(píng)估,打分,拒絕掉離譜的候選路徑從而對(duì)決策樹進(jìn)行剪紙的系統(tǒng)就成了決策規(guī)劃系統(tǒng)的另一塊拼圖。特斯拉同樣采用了傳統(tǒng)方法與數(shù)據(jù)驅(qū)動(dòng)相結(jié)合的辦法,采用碰撞檢測,舒適度分析,以及根據(jù)車隊(duì)人類駕駛員實(shí)際數(shù)據(jù)和影子模式訓(xùn)練模型來預(yù)測一個(gè)候選路徑導(dǎo)致接管的概率以及候選路徑與人類駕駛員開車路徑的差異這樣四個(gè)方法進(jìn)行候選路徑評(píng)估完成剪紙。 最后決策規(guī)劃部分還結(jié)合上面提到的Occupancy Network講解了Tesla對(duì)于未知及不確定性的決策,這里前面感知部分提到的Occupancy Network輸出的占據(jù)柵格就起到了決定性作用。如下圖所示,藍(lán)色區(qū)域代表根據(jù)Tesla車身傳感器可視角度以及3D占據(jù)柵格計(jì)算得到的可視區(qū)域,而針對(duì)未知區(qū)域則引入了Ghost動(dòng)態(tài)物體,代表在未知區(qū)域可能出現(xiàn)的不可見動(dòng)態(tài)交通參與者,需要根據(jù)這些假想的參與者做相應(yīng)的保護(hù)性駕駛。 這些基于占據(jù)柵格的可視區(qū)域建模,Ghost動(dòng)態(tài)物體等方法不是Tesla首創(chuàng),早在幾年前就有學(xué)術(shù)研究在使用Lidar的L4車型上提出這些規(guī)劃方法,然而使用純視覺的方法實(shí)現(xiàn)這一切顯然是一大創(chuàng)舉,另外從最新的FSD Beta實(shí)測視頻可以看出,F(xiàn)SD開始懂得利用向前小步挪移開視野,同時(shí)在遮擋比較多的人形道,橫穿馬路時(shí)候進(jìn)行保護(hù)性駕駛的策略都確認(rèn)了AI Day分享的內(nèi)容就在實(shí)車上運(yùn)行著,這些比較前沿的規(guī)劃研究都實(shí)實(shí)在在用在了Tesla FSD的產(chǎn)品中,可見FSD規(guī)劃算法的先進(jìn)性以及整個(gè)系統(tǒng)的完整性和復(fù)雜性,確實(shí)處于行業(yè)最頂尖行列。 自動(dòng)標(biāo)注和數(shù)據(jù)引擎 AutoLabeler & Data Engine在自動(dòng)標(biāo)注方面這次非常難得的給出了通過道路重建作為車道線感知真值進(jìn)行4D標(biāo)注的方案,其本質(zhì)上是一個(gè)基于Tesla強(qiáng)大視覺感知能力的眾包建圖,然而不同之處在于Tesla并沒有顯示使用這些構(gòu)建的“低精”地圖,而是將這些地圖作為真值,內(nèi)化到感知模型中,避免了對(duì)于擁有詳盡信息的高精地圖的依賴。 關(guān)于4D標(biāo)注,早在19年Autonomous Day上Karpathy就做過了介紹,當(dāng)時(shí)Tesla使用的是SfM的方式進(jìn)行周圍場景重建,然后再在重建的點(diǎn)云上進(jìn)行4D標(biāo)注,跟據(jù)2022 AI Day分享的Autolabeler演進(jìn)過程可以看到當(dāng)時(shí)拓?fù)渲皇腔趩翁塑壽E,重投影誤差<3像素,整個(gè)標(biāo)注還比較依賴人工,需要3.5小時(shí)進(jìn)行一個(gè)clip標(biāo)注。2020年由于引入了BEV感知,這里建圖已經(jīng)是基于BEV感知進(jìn)行的建圖,重投影精度<7像素,人工標(biāo)注耗時(shí)小于0.1小時(shí),已經(jīng)基本上可以實(shí)現(xiàn)自動(dòng)標(biāo)注了。而2021年至今自動(dòng)標(biāo)注開始使用3D特征進(jìn)行多趟采集軌跡的聚合重建,獲得了<3像素的沖投影精度,人工標(biāo)注耗時(shí)與2020相當(dāng),但計(jì)算效率顯著提高,可擴(kuò)展性也變得非常強(qiáng)。 關(guān)于具體場景重建方案Tesla介紹了其中幾個(gè)關(guān)鍵步驟,包括: 1.基于時(shí)序視頻輸入,IMU,輪速計(jì)構(gòu)成的車段運(yùn)行的語義VIO,在車端獲得6自由度100Hz高頻連續(xù)軌跡輸出。這里與常見里程計(jì)一樣,使用了tracking和optimization兩個(gè)線程,不同之處在于特征點(diǎn)提取是在Vector Space下進(jìn)行的,也就是特征點(diǎn)直接是位于3D自車坐標(biāo)系下,類似激光里程計(jì),而無需三角化獲得3D landmark點(diǎn),另外前端還使用了Occupancy Network里輸出的地面估計(jì),還有車道線曲線矢量表示以及全景分割結(jié)果,后面幾個(gè)如何使用Tesla并沒有明確給出,猜測可能會(huì)跟據(jù)全景分割的語義信息和Occupancy Network的速度,加速度對(duì)于動(dòng)態(tài)物體進(jìn)行處理。最終里程計(jì)精度達(dá)到1.3cm/m,大概是1.3%,這個(gè)里程計(jì)精度其實(shí)談不上很高,只能說勉強(qiáng)達(dá)到主流VIO精度,但是這一步理論上來講不需要絕對(duì)精度太高,場景重建重頭戲主要依賴后續(xù)多軌跡匹配關(guān)聯(lián),以及大規(guī)模非線性優(yōu)化。 2. 多趟軌跡拼接重建,通過粗對(duì)齊,關(guān)聯(lián),聯(lián)合非線性優(yōu)化以及最終的曲面優(yōu)化等幾步進(jìn)行。這里基本上和主流的眾包建圖方法就沒有任何區(qū)別了,唯一不通可能源自于Tesla強(qiáng)大的3D感知能力以及時(shí)序感知能力,使得前一步獲得的局部單車軌跡重建的3D幾何信息精度極高,精度遠(yuǎn)好于傳統(tǒng)通過圖像平面感知三角化獲得的3D信息,與Lidar捕捉的信息相比應(yīng)該也不差太多,而相比Lidar這些3D感知還有著更豐富的語義信息,可以極大避免誤匹配,使得這一步多軌跡拼接雖然沒有什么創(chuàng)新的地方,但是做出來的重建效果可能要明顯好于傳統(tǒng)視覺眾包或Lidar眾包(當(dāng)然這只是從Tesla敢于大規(guī)模使用這種重建方式制作真值數(shù)據(jù)這一結(jié)果反推重建效果,Tesla并沒有公布重建結(jié)果,我們也無法詳盡對(duì)比其與主流建圖算法的效果差異),最后重建好的可以看成一個(gè)帶有語義的3D幾何地圖,然后人工標(biāo)注人員再會(huì)使用重建的地圖進(jìn)行真值標(biāo)注(其中應(yīng)該會(huì)自動(dòng)生成很多標(biāo)注,人工只需要檢查錯(cuò)誤標(biāo)注并進(jìn)行修改就行)。 3. 新數(shù)據(jù)標(biāo)注自動(dòng)生成,這一步是4D標(biāo)注的精髓,也就是一次標(biāo)注生成的真值可以跨越時(shí)間這一維度給在同一地點(diǎn)不同時(shí)間采集的數(shù)據(jù)提供真值。Tesla特意提到,通過這種真值自動(dòng)遷移的方法,可以輕松獲得人類都難以正確標(biāo)注的這些場景的標(biāo)注數(shù)據(jù),訓(xùn)練模型擁有更好的適應(yīng)低可見度(夜晚,雨,霧),遮擋等條件的能力。 這里其實(shí)個(gè)人對(duì)于這種真值的使用也有一些疑問,比如對(duì)向車道有時(shí)候是完全不可見的,那么如果強(qiáng)行把這部分標(biāo)注給予模型,是否會(huì)對(duì)模型訓(xùn)練造成迷惑,導(dǎo)致其花很多算力和時(shí)間去嘗試學(xué)習(xí)本就不可學(xué)習(xí)的內(nèi)容,這些可能是Tesla所提到的工程難題,Tesla也并沒有在AI Day上分享透露,稍顯遺憾。 關(guān)于仿真方面我個(gè)人了解的不多,Tesla的方案聽起來感覺也沒有太多與眾不同的地方,只是把一般基于高精地圖的場景自動(dòng)重建變成了基于4D標(biāo)注的場景重建,我們剛才提到4D標(biāo)注本質(zhì)上是眾包建圖,所以這里其實(shí)方法與主流方法沒有不同。AI Day上談到了一些Tesla對(duì)于相機(jī)及其他傳感器進(jìn)行傳感器仿真,獲得足以媲美真是數(shù)據(jù)的仿真效果用來訓(xùn)練,這點(diǎn)感覺還是很驚人的,但可能業(yè)界也有類似的嘗試。仿真本質(zhì)上是Autolabeler的一部分,因?yàn)榉抡驿秩咎焐鷰в姓Z義真值,因此只要仿真效果能極限接近真實(shí),那么這些有著完美標(biāo)注的數(shù)據(jù)就能夠被真實(shí)模型訓(xùn)練利用起來,而仿真雖然無法保證做到對(duì)真實(shí)世界的100%擬真,卻對(duì)一些實(shí)際有危險(xiǎn)或極少發(fā)生的場景有著獨(dú)特的優(yōu)勢,可以利用方針來針對(duì)這些少見場景進(jìn)行大規(guī)模驗(yàn)證,從而提高整體自動(dòng)駕駛系統(tǒng)的通用性和安全性。 這一環(huán)節(jié)最后的部分是關(guān)于數(shù)據(jù)引擎,這一部分雖然韓裔小姐姐介紹的比較粗略,但是卻實(shí)打?qū)嵉氖荰esla最核心的競爭力和戰(zhàn)略壁壘之一。Tesla數(shù)據(jù)引擎自成閉環(huán),由標(biāo)配自動(dòng)駕駛硬件的車隊(duì)數(shù)據(jù)采集,到通過各種規(guī)則及影子模式下人腦AI差異(如接管,行為差異)構(gòu)成的觸發(fā)器Trigger引發(fā)數(shù)據(jù)回傳篩選有語義信息的數(shù)據(jù)回傳云端,云端通過工具對(duì)錯(cuò)誤的AI輸出進(jìn)行糾正,放入數(shù)據(jù)集群,然后利用這些有效數(shù)據(jù)訓(xùn)練車端在線模型和云端離線模型,最終通過影子模式部署回車端進(jìn)行新的測試比較不同版本指標(biāo),直到最后經(jīng)過驗(yàn)證的新模型部署車端,完成一個(gè)完整的數(shù)據(jù)驅(qū)動(dòng)迭代開發(fā)循環(huán)。這整個(gè)數(shù)據(jù)閉環(huán)無疑是當(dāng)今數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)應(yīng)用的典范,如今一直被各家模仿,然而想要做到Tesla這樣高度自動(dòng)話,流程化絕非一蹴而就,需要的不僅僅是了解框架的工作原理,還需要的是超強(qiáng)的工程實(shí)踐能力以及不斷的打磨迭代才行。 最后韓裔小姐姐提到了數(shù)據(jù)驅(qū)動(dòng)的人工智能時(shí)代產(chǎn)業(yè)界與學(xué)術(shù)界最大的差異,那就是學(xué)術(shù)界總是保持?jǐn)?shù)據(jù)不變,在穩(wěn)定不變的數(shù)據(jù)集上不斷迭代新的算法,以求提高模型性能,然而產(chǎn)業(yè)實(shí)踐的核心在于尋找問題,通過主動(dòng)獲取相應(yīng)數(shù)據(jù),添加到訓(xùn)練集中,利用數(shù)據(jù)去驅(qū)使模型解決問題,這才是如Tesla等產(chǎn)業(yè)界科技巨頭可以在數(shù)據(jù)驅(qū)動(dòng)的人工智能時(shí)代反過頭引領(lǐng)學(xué)術(shù)界的最本質(zhì)原因。數(shù)據(jù)驅(qū)動(dòng)本質(zhì)上所學(xué)到的信息全部來自于數(shù)據(jù),而不同的模型僅是在學(xué)習(xí)速度,效率等方面有差異,最終數(shù)據(jù)數(shù)量質(zhì)量,決定了模型的上限。 關(guān)于使用地圖的“哲學(xué)問題”,附一條前Tesla AI視覺總監(jiān)Karpathy的Twitter回復(fù): FSD車端推理計(jì)算機(jī)&Dojo訓(xùn)練服務(wù)器針對(duì)車端推理芯片這次AI Day上并沒有分享很多內(nèi)容,也沒有發(fā)布大家期待的HW4硬件。AI Day后跟據(jù)一些實(shí)際參加AI Day的人透漏,跟據(jù)他們與Tesla工程師的交流獲得的信息是,Tesla認(rèn)為從基于NVIDIA芯片的HW2到基于自研FSD芯片的HW3的進(jìn)化是跨越性的,是對(duì)實(shí)現(xiàn)FSD極其迫切且必要的,但Tesla認(rèn)為目前峰值算力144TOPS的FSD芯片已經(jīng)足矣支撐超越人類駕駛能力2x~3x的自動(dòng)駕駛系統(tǒng),HW4也許可以推進(jìn)更加完善安全(10x以上人類駕駛能力)的高階(L5)自動(dòng)駕駛,但其必要性需要在算法足夠成熟后才能體現(xiàn),因此現(xiàn)階段更新HW4并非耽誤至極。實(shí)際上早在今年年初就有Twitter上知名人物Green稱FSD芯片算力可能已經(jīng)達(dá)到瓶頸,而算力瓶頸造成的FSD Beta偶發(fā)奇怪的形似短路的決策突變可能是在當(dāng)前硬件條件下無法解決難題,然而隨著時(shí)間推移,在最新的10.69上很多當(dāng)時(shí)猜測和算力達(dá)到極限相關(guān)的問題,特別是突發(fā)的決策突變引起的安全類風(fēng)險(xiǎn)接管已經(jīng)基本得到解決,跟據(jù)Release Note上Tesla精簡了很多l(xiāng)egacy的祖?zhèn)髂P停ㄋ^祖?zhèn)鞴烙?jì)也就1-2年歷史),以及其他很多底層優(yōu)化,大大提高了FSD運(yùn)算的幀率。由此可見Green的發(fā)現(xiàn)不能說沒有跟據(jù),但顯然通過適當(dāng)?shù)膬?yōu)化,F(xiàn)SD芯片的性能也許才剛剛被真正發(fā)揮出來,由此可見這款已經(jīng)發(fā)布了三年多的芯片如今仍然具備極其強(qiáng)大的性能。 從2019年Autonomous Day公布FSD芯片開始,自動(dòng)駕駛行業(yè)就進(jìn)入了算力內(nèi)卷的時(shí)代,國內(nèi)車企紛紛配備NVIDIA,地平線等芯片公司的最新車規(guī)自動(dòng)駕駛芯片,算力從最早的Mobileye EQ4 2.5TOPS,到地平線J3 10TOPS,NVIDIA XAVIER 30TOPS,一路卷到如今地平線J5單芯片96TOPS,NVIDIA Orin單芯片250TOPS開始落地實(shí)際產(chǎn)品,以及剛剛NVIDIA公布的期貨號(hào)稱具有2000TOPS算力的雷神Thor,種種跡象表明關(guān)于絕對(duì)算力的軍備競賽已經(jīng)開始并且必定成為日后一段時(shí)間最賺人眼球的營銷噱頭,畢竟算法的優(yōu)劣一般消費(fèi)者難以直觀感受,那么算力如果代表智力,自動(dòng)駕駛和人工智能肯定智利最重要啊,那么一個(gè)簡單的數(shù)字就可以比較出優(yōu)劣長短,就好像三國里武力100的呂布就穩(wěn)壓武力99的趙云一頭,然而實(shí)際上兩人從未實(shí)際交手,到底誰厲害?其實(shí)在三國歷史上在武力上可能超出兩人的大有人在,但不妨礙熟讀演義的朋友為兩者誰是三國最強(qiáng)爭得面紅耳赤。 其實(shí)車規(guī)芯片算力遠(yuǎn)遠(yuǎn)落后于PC上的主流顯卡,這些芯片為了滿足車規(guī)嚴(yán)苛的測試環(huán)境,不得不犧牲部分性能,以目前市面可以見到的TOPS最高的Orin為例,價(jià)格很高,性能卻不如價(jià)格更低的主流游戲顯卡,由此可見單純追求TOPS根本就不是車規(guī)自動(dòng)駕駛芯片的首要目標(biāo),而且現(xiàn)在學(xué)術(shù)界開源的深度學(xué)習(xí)模型基本上以PC顯卡進(jìn)行訓(xùn)練推理,往往一個(gè)BEV模型就把Orin資源拉滿了,難以想象FSD上面跑了如此之多復(fù)雜深度學(xué)習(xí)模型究竟是如何才能保持高頻流暢的。所以到底是為什么理論單核算力只有72TOPS,采用如今看來略顯古典的14nm工藝,3年前發(fā)布的老芯片實(shí)戰(zhàn)中擁有如此強(qiáng)大的能力,甚至至今還尚有潛力沒有挖掘呢? AI Day雖然沒有著重講FSD芯片,但是討論了很多硬件方面的優(yōu)化,從其中可窺得一二。下圖中談到系統(tǒng)性能等于硬件極限算力與系統(tǒng)軟件效率與神經(jīng)網(wǎng)絡(luò)加速器的占用率三者乘積相等。換句話說,無論硬件理論TOPS有多高,三者中任意短板都會(huì)使得整體系統(tǒng)性能受到極大的損害,而這一宏觀邏輯在整個(gè)算力優(yōu)化中都是適用的,無論在推理端還是在訓(xùn)練端。 AI Day上還有談到硬件中最貴的核心部件就是神經(jīng)網(wǎng)絡(luò)加速器單元,因此為了提高系統(tǒng)的單位成本整體性能,最經(jīng)濟(jì)的方法就是保證神經(jīng)網(wǎng)絡(luò)加速器的最高效利用,而神經(jīng)網(wǎng)絡(luò)加速器主要由并行排列的乘加運(yùn)算單元組成,我們平時(shí)所謂的TOPS,也就是理論上當(dāng)所有這些乘加單元全部滿負(fù)荷工作的時(shí)候一秒鐘可以完成的萬億次整型運(yùn)算次數(shù)。然而想要保持乘加運(yùn)算單元一支高效運(yùn)行絕非易事,有著高TOPS的AI芯片就好比有一門超高射速的速射機(jī)關(guān)炮,而要想保持這門機(jī)關(guān)炮飽和火力輸出,顯然傳統(tǒng)的手工填彈方法是絕對(duì)不行的,如果由送彈手一發(fā)一發(fā)的人工裝載,那你機(jī)關(guān)炮射速再快,實(shí)際能發(fā)揮出來的也就是填彈手填彈速度。在AI芯片中,將存儲(chǔ)的計(jì)算任務(wù)所需的張量傳給乘加運(yùn)算單元的存儲(chǔ)單元就可以看做是這個(gè)填彈手,而AI編譯器是否能夠?qū)ι窠?jīng)網(wǎng)絡(luò)進(jìn)行合理的流水線編排,并行化處理,算子融合等優(yōu)化并生成高效的指令,并通過大帶寬的存儲(chǔ)硬件傳遞進(jìn)神經(jīng)網(wǎng)絡(luò)加速器,就是決定填彈手能否高效填彈的流程和機(jī)制。 FSD芯片在涉及時(shí)候就充分考慮了上層算法軟件的設(shè)計(jì)選型,針對(duì)很多神經(jīng)網(wǎng)絡(luò)層是帶寬密集型模塊,設(shè)計(jì)了大面積的片上SRAM,這些SRAM相比傳統(tǒng)使用的DRAM雖然成本高,容量低,但是帶寬極高,再加上位于片上,與運(yùn)算單元間物理距離極小,F(xiàn)SD芯片設(shè)計(jì)還優(yōu)化了整體數(shù)據(jù)流連路,進(jìn)一步減少電信號(hào)在芯片中移動(dòng)距離,能非常高帶寬低延遲的將模型參數(shù)和待運(yùn)算的張亮送進(jìn)運(yùn)算單元。而算法與芯片間的AI編譯器也充分考慮算法設(shè)計(jì)和底層硬件特性,而這部分雖然AI Day沒有詳細(xì)介紹,但是這部分是很多推理優(yōu)化技術(shù)發(fā)生的地方,而針對(duì)性的適配硬件軟件是最大程度的推理優(yōu)化的前提,而這正是Tesla與蘋果這樣的軟硬件一體化公司的競爭優(yōu)勢和核心壁壘所在。 基于DOJO的訓(xùn)練服務(wù)器也已經(jīng)取得了不錯(cuò)的進(jìn)展,AI Day透漏預(yù)計(jì)2023年Q1將會(huì)開始交付用以進(jìn)行AutoLabeler訓(xùn)練的DOJO服務(wù)器。DOJO的設(shè)計(jì)上也沿用了同樣的設(shè)計(jì)理念,比如使用專門針對(duì)視頻的硬件解碼器來加速Tesla常用的視頻片段數(shù)據(jù)的解碼,強(qiáng)調(diào)對(duì)于片上SRAM和高速內(nèi)存HRM的使用,強(qiáng)調(diào)最短的片上信息傳輸鏈路設(shè)計(jì),以最大程度保證運(yùn)算單元的滿負(fù)荷運(yùn)行。而Tesla分布式訓(xùn)練框架采用了模型并行而不是常見的數(shù)據(jù)并行策略,而為了進(jìn)行模型并行,還涉及到優(yōu)化片間梯度的同步效率,這里使用了Tesla自研的通訊協(xié)議Tesla Transport Protocol(TTP)來保證高效。 Tesla舉了一個(gè)在模型并行訓(xùn)練中通信延遲(也就是公式中Utilization部分)起決定性作用的Batch Normalization的例子來說名DOJO的優(yōu)化帶來的收益,使用24個(gè)GPU集群的服務(wù)器在計(jì)算一個(gè)Batch Normalization時(shí)候延遲是150us,然而在25個(gè)D1組成的DOJO訓(xùn)練服務(wù)器上,同樣的Batch Normalization只需要5us就可以完成,效率提高了30倍。 另外在加速器使用效率(也就是公式中Accelerator Occupancy部分)上的優(yōu)化,Tesla給出訓(xùn)練中占用負(fù)載最高的AutoLabeler和Occupancy Network部分優(yōu)化前后的性能分析對(duì)比,優(yōu)化前DOJO加速器占用率只有4%,大量時(shí)間消耗在數(shù)據(jù)讀取裝載上,而優(yōu)化后,極速器利用率達(dá)到了97%,保證了DOJO高效的使用。 最終DOJO研發(fā)的目標(biāo)是提高Tesla模型訓(xùn)練的效率,同時(shí)降低GPU集群服務(wù)的成本。Tesla在AI Day上生成4個(gè)JOJO集群箱子就可以帶來等效目前72個(gè)GPU集群的性能,如果情況屬實(shí),那么可以想像這將給Tesla模型迭代帶來巨大的效率提升,同時(shí)也能節(jié)省大量購買GPU集群的成本。然而在Q&A環(huán)節(jié)有人提問ELON,因?yàn)镈OJO使用了7nm工藝芯片,整體研發(fā)設(shè)計(jì)的費(fèi)用應(yīng)該很高,從研發(fā)成本角度其實(shí)不一定比購買市場上的GPU集群更具經(jīng)濟(jì)效益,這里老馬的回答也肯定了提問者的猜想,確認(rèn)如果DOJO訓(xùn)練集群效果符合預(yù)期,那么Tesla是希望能夠以付費(fèi)IaaS的方式開放DOJO訓(xùn)練服務(wù)給同樣有需要進(jìn)行云端訓(xùn)練加速的用戶使用的,而如果發(fā)展順利,這個(gè)能使得Tesla在高速發(fā)展的Data Center業(yè)務(wù)中也取得一席之地。 3.人形機(jī)器人Tesla Bot部分技術(shù)亮點(diǎn)AI Day開始前老媽的Twitter以及宣傳造勢都引發(fā)了大家對(duì)于Tesla Bot產(chǎn)生了濃厚的興趣,然而發(fā)布會(huì)后很多人對(duì)Tesla Bot不免心生失望,因?yàn)閺膶W(xué)術(shù)研發(fā)角度看,這個(gè)機(jī)器人確實(shí)沒有多少能引起學(xué)術(shù)圈興趣的亮點(diǎn),然而要知道人形機(jī)器人的研發(fā)難度理論上要遠(yuǎn)高于電動(dòng)汽車,然而AI Day I上還是個(gè)概念,時(shí)隔一年就已經(jīng)由原型機(jī),并且相對(duì)各個(gè)部分功能完整,這已經(jīng)是十分令人驚嘆的技術(shù)成就。另外就跟自動(dòng)駕駛領(lǐng)域里Tesla的思路與學(xué)術(shù)界大相徑庭一樣,Tesla Bot首要目標(biāo)是成為量產(chǎn)產(chǎn)品,自然研發(fā)理念和流程都會(huì)與學(xué)術(shù)界不一樣,新穎和創(chuàng)新肯定不是這個(gè)階段的重點(diǎn)。我個(gè)人專業(yè)是機(jī)器人無人車,然而對(duì)機(jī)器人并沒有實(shí)際工作經(jīng)驗(yàn),所以這部分簡單寫寫我在AI Day看到的有意思的點(diǎn),其他更詳盡的技術(shù)分析就留給別人吧。 1.材料選型執(zhí)行器設(shè)計(jì)都把量產(chǎn)成本放在核心, 利用類似Tesla電動(dòng)車研發(fā)中的有限元分析辦法,通過如下圖所示的硬件成本和執(zhí)行器質(zhì)量曲線,選取最經(jīng)濟(jì)的執(zhí)行器設(shè)計(jì),并考慮的執(zhí)行器的互換性和可制造性,為周身28個(gè)執(zhí)行器選取了6個(gè)最終設(shè)計(jì)。 2.靈巧的手部設(shè)計(jì),這里有人提及過Tesla手部設(shè)計(jì)缺少反驅(qū)等是比較令人失望的,這部分我不太懂,但是直觀感受是這個(gè)手部與人類很像,還能通過視覺輔助做一些精巧的如捏住水壺,搬運(yùn)零件的靈巧工作,最重要的這些工作不是預(yù)先編程好的,具有一定通用性,這些正是一個(gè)可以輔助人類的機(jī)器人所應(yīng)具備的能力。Elon曾經(jīng)提到可能會(huì)開發(fā)帶有輪子的特殊版本Tesla Bot以進(jìn)行特殊應(yīng)用,不知現(xiàn)在是否還是這個(gè)規(guī)劃,但可以看出對(duì)于機(jī)器人來講,能夠執(zhí)行實(shí)際工作的靈巧雙手往往比能夠進(jìn)行復(fù)雜步態(tài)運(yùn)動(dòng)的腳更加重要。 3. 緊湊的設(shè)計(jì),這里可以看到Tesla不僅復(fù)用了車端AI計(jì)算機(jī)和電池,還將之前概念中纖細(xì)好看的身體設(shè)計(jì)基本延續(xù)了下來。AI Day提到在涉及方面刻意優(yōu)化了全身執(zhí)行器重量,優(yōu)化了靜態(tài)狀態(tài)能耗,而Optimus將使用2.3kwh電池就足矣提供大概一天的工作能量,這些設(shè)計(jì)理念雖不是技術(shù)上的創(chuàng)新,但是極大提高了這款人形機(jī)器人的實(shí)用性和口水度,可以想見以如今Optimus的外觀設(shè)計(jì)結(jié)合勉強(qiáng)可用的功能和可承受的價(jià)格,一旦未來推出市場,大概率是又一爆款產(chǎn)品,對(duì)比之下Atlas雖然在跑酷能力上極其優(yōu)秀,但他背著3.7kwh電池只能工作<1小時(shí),頭頂價(jià)格昂貴易壞的機(jī)械式Lidar,300斤的體重,都使得家庭使用變得不那么切合實(shí)際了。 4. 延續(xù)自智能駕駛的智能,Tesla在人形機(jī)器人步態(tài)運(yùn)動(dòng)控制方面相比Boston Dynamics顯然是個(gè)剛?cè)胄械男率郑欢鳷esla研發(fā)人形機(jī)器人的初衷便是最大程度上利用Tesla在造車和自動(dòng)駕駛方面的優(yōu)勢,特別是自動(dòng)駕駛研發(fā)過程中積累的算法經(jīng)驗(yàn),數(shù)據(jù)驅(qū)動(dòng)能力,AI芯片能力,模型訓(xùn)練能力這些,也就是說智能是Tesla投入機(jī)器人領(lǐng)域最核心的競爭力。這一點(diǎn)雖然Tesla Bot誕生不久,但可以看到他已經(jīng)可以較好地利用起FSD中的Occupancy Network,語義感知能力,來幫助Tesla Bot與周圍環(huán)境互動(dòng)。像在Occupancy Network那部分提到的,這一技術(shù)是純視覺具有里程碑意義的技術(shù),因此Tesla Bot如果可以成功借鑒顯然是一大優(yōu)勢。另外機(jī)器人技術(shù)設(shè)計(jì)很多強(qiáng)化學(xué)習(xí)方面的算法,比如讓機(jī)器人通過人類示教就能學(xué)會(huì)一類通用工作的執(zhí)行方法,這就需要強(qiáng)大的模仿學(xué)習(xí)能力,而Tesla在自動(dòng)駕駛規(guī)劃方面也利用了類似的方法來使AI模仿人類開車技巧,就如下圖,通過人類示教,機(jī)器人學(xué)習(xí)并泛化了半箱子這一能力。而我認(rèn)為這也是擁有人類身體構(gòu)造,且與正常人類身高體重相近的機(jī)器人的優(yōu)勢,沒有這些條件,人類示教就必然受到種種條件限制。 人形機(jī)器人展望最后展望一下Tesla Bot的前景,有很多人質(zhì)疑雙足人形機(jī)器人研發(fā)難度又大,有沒有實(shí)際意義,輪式四足似乎都比人形機(jī)器人有著明顯的優(yōu)勢,但是正如剛才前面提到的,人形且與人類體格相近使得人類示教機(jī)器人完成各種人類習(xí)以為常的工作執(zhí)行方法稱為可能,而人類環(huán)境,無論是Tesla工廠還是家庭住宅,都有大量專門適用人類身型的設(shè)計(jì),是其他機(jī)器人所無法完成的,比如機(jī)器狗可能比較難夠到爐臺(tái)上的鍋,然后像人一樣炒菜做飯,也很難舉起只有人雙手能夠舉起的箱子重物。有機(jī)器人創(chuàng)業(yè)者認(rèn)為人類基礎(chǔ)設(shè)施一直在為了提高效率適應(yīng)工具而革新,舉例來說,就是在汽車發(fā)明前,人類并沒有這樣多平整寬闊的硬質(zhì)路面,因此只要有了有效的機(jī)器人,那么人類的環(huán)境也會(huì)為之迭代進(jìn)化,但是這樣就會(huì)遇到環(huán)境變化依賴于成熟完善的機(jī)器人出現(xiàn),機(jī)器人出現(xiàn)又要求環(huán)境適應(yīng)自己而變化這樣的雞生蛋蛋生雞的悖論,因此我顯然認(rèn)為一個(gè)能適應(yīng)現(xiàn)有人類基礎(chǔ)設(shè)施的人形機(jī)器人是更容易推廣的。另一方面,單純就更容易為人類接納,融入人類社會(huì)的角度,顯然人形機(jī)器人也有其先天優(yōu)勢。 最后的最后,如老馬所言,如果人類機(jī)器人真正成為一個(gè)可用,好用的產(chǎn)品,那么這意味著比新能源汽車更大的市場規(guī)模,這樣巨大的商業(yè)機(jī)會(huì)值得去嘗試,去創(chuàng)造,更何況Tesla已然在AI方面取得了不錯(cuò)的成果,why not? 4.總結(jié)2022 Tesla AI Day我個(gè)人看完感覺有以下三點(diǎn)明顯的特點(diǎn):1. AI Day主要目的是通過技術(shù)分享確立Tesla在人工智能領(lǐng)域的影響力從而吸引全球頂尖人才的加盟,因此AI Day的技術(shù)分享極其硬核其硬核程度讓很多從業(yè)者都會(huì)覺得腦細(xì)胞有點(diǎn)不夠用,基本上不適合股票分析師和純粹的車主粉絲等缺少技術(shù)背景的朋友們觀看,因此分享進(jìn)入愈發(fā)艱澀難懂的后半段,給了幾個(gè)鏡頭,現(xiàn)場已經(jīng)不斷有觀眾離席,座位空了不少。2. 隨著2022年上半年開始,在業(yè)界擁有巨大影響力的原Tesla AI視覺算法總監(jiān)Andrej Karpathy逐漸淡出公司,業(yè)界不少質(zhì)疑Tesla在自動(dòng)駕駛和人工智能方面的發(fā)展是否遭受嚴(yán)重打擊,因此這次AI Day可以看到Tesla前所未有地拉出23人的研發(fā)核心團(tuán)隊(duì)進(jìn)行分享(包括3位華人和1個(gè)韓裔小姐姐),用去中心的方式展現(xiàn)了充足的人才儲(chǔ)備,打消了人們對(duì)于AK離職的疑慮。3. Tesla在AI Day上的分享開放程度為之前歷次分享之最,除了最新的人形機(jī)器人外,之前一直沒怎么公開的Planning部分,地圖指引下的感知部分也都有專門的模塊進(jìn)行討論,另外最近幾年隨著FSD退出才逐漸成為學(xué)術(shù)界研究熱點(diǎn)的BEV感知這次幾乎從頭到尾一字未提,反而是最新的Occupancy Network成為了技術(shù)分享的主角之一,可見Tesla短短一年時(shí)間已經(jīng)完成從2D的BEV感知到3D的柵格感知的轉(zhuǎn)變,可見Tesla超快的創(chuàng)新速度正是其敢于公開技術(shù)方案的底氣所在,基本上Tesla在自動(dòng)駕駛這個(gè)賽道已經(jīng)明牌,就等其他友商接招了。 最后分享一個(gè)趣事,軟件2.0的概念實(shí)際上是Andrej Karpathy提出,除了數(shù)據(jù)驅(qū)動(dòng)的軟件2.0以外其實(shí)還基于最近特別火的超大語言模型的發(fā)展,提出了軟件3.0 引導(dǎo)編程Improptu Programming的概念。 而AI Day II開始前,Karpathy也和朋友打賭,如果Software 2.0在AI Day上被提及,自己就喝5杯特斯拉龍舌蘭shots(Tesla Tequila), Elon顯然聽說了這個(gè)打賭,然后下面就是Karpathy當(dāng)晚最后的twitter。 版權(quán)聲明:本文為知乎「EatElephant」的原創(chuàng)文章,已獲作者發(fā)表許可。 |
|