小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

Tesla FSD Occupancy Network詳解

 InfoRich 2023-03-20 發(fā)布于江蘇

Tesla FSD部分,感知網(wǎng)絡(luò)從去年的Bev感知(Hydranet)的基礎(chǔ)上,更近一步,提出了occupancy network,那么咱們一起來看個究竟。


1

為什么是occupancy network?  

在基于 LiDAR 的系統(tǒng)中,可以根據(jù)檢測到的反射強度來確定對象的存在,但在相機系統(tǒng)中,必須首先使用神經(jīng)網(wǎng)絡(luò)檢測對象。如果看到不屬于數(shù)據(jù)集的對象怎么辦?比如側(cè)翻的大卡車。僅此一項,就引發(fā)了很多事故。


可行駛區(qū)域的一些問題

rv、bev空間下可行駛區(qū)域會有一定問題:

  • 地平線的深度不一致,只有2個左右的像素決定了一個大區(qū)域的深度。
  • 無法看穿遮擋物,也無法行駛。
  • 提供的結(jié)構(gòu)是 2D的,但世界是 3D 的。
  • 高度方向可能只有一個障礙物(懸垂的檢測不到),目前是每類對象設(shè)置固定的矩形。
  • 存在未知物體,例如,如果看到不屬于數(shù)據(jù)集的對象。

所以希望有種通用的方式來解決該問題,首先能想到的是bev下的可行駛區(qū)域,但相對來說在高度維會比較受限,索性一步到位變成3d空間預(yù)測、重建。

2

Occupancy Network  


2022 CVPR中,tesla FSD新負責(zé)人 Ashok Elluswamy 推出了Occupancy Network。借鑒了機器人領(lǐng)域常用的思想,基于occupancy grid mapping,是一種簡單形式的在線3d重建。將世界劃分為一系列網(wǎng)格單元,然后定義哪個單元被占用,哪個單元是空閑的。通過預(yù)測3d空間中的占據(jù)概率來獲得一種簡單的3維空間表示。關(guān)鍵詞是3D、使用占據(jù)概率而非檢測、多視角。


Occupancy Network

這里輸出的并非是對象的確切形狀,而是一個近似值,可以理解為因為算力和內(nèi)存有限,導(dǎo)致輪廓不夠sharp,但也夠用。另外還可以在靜態(tài)和動態(tài)對象之間進行預(yù)測,以超過 100 FPS 的速度運行(或者是相機可以產(chǎn)生的 3 倍以上)。

2020 AI day中的Hydranet算法中有三個核心詞匯:鳥瞰圖(BEV)空間、固定矩形、物體檢測。而occupancy network針對這三點有哪些優(yōu)化,可以看:

第一是鳥瞰圖。在 2020 年特斯拉 AI 日上,Andrej Karpathy 介紹了特斯拉的鳥瞰網(wǎng)絡(luò)。該網(wǎng)絡(luò)展示了如何將檢測到的物體、可駕駛空間和其他物體放入 2D 鳥瞰視圖中。occupancy network則是計算占據(jù)空間的概率。


BEV vs Volume Occupancy

最主要的區(qū)別就是,前者是 2D表示,而后者是3D表示。

第二是固定矩形,在設(shè)計感知系統(tǒng)時,經(jīng)常會將檢測與固定輸出尺寸聯(lián)系起來,矩形無法表示一些異形的車輛或者障礙物。如果您看到一輛卡車,將在featuremap上放置一個 7x3 的矩形,如果看到一個行人,則使用一個 1x1 的矩形。問題是,這樣無法預(yù)測懸垂的障礙物。如果汽車頂部有梯子,卡車有側(cè)拖車或手臂;那么這種固定的矩形可能無法檢測到目標。而使用Occupancy Network的話,看到下圖中,是可以精細的預(yù)測到這些情況的。


固定矩形 vs Volume Occupancy

后者的工作方式如下:

  1. 將世界劃分為微?。ɑ虺⑿。┑牧⒎襟w或體素
  2. 預(yù)測每個體素是空閑還是被占用


體素空間中的被占用體素

這里意味著兩種方法的思維方式完全不一樣,前者是為一個對象分配一個固定大小的矩形,而后者是簡單地說“這個小立方體中有一個對象嗎? ”。

第三點,物體檢測。

目前有很多新提出來的物體檢測算法,但大多面向的是固定的數(shù)據(jù)集,只檢測屬于數(shù)據(jù)集的部分或全部對象,一旦有沒有標注的物體出現(xiàn),比如側(cè)翻的白色大卡車,垃圾桶出現(xiàn)的路中,這是沒法檢測到的。而當思考和訓(xùn)練一個模型來預(yù)測“這個空間是空閑的還是被占用的,不管對象的類別是什么?”,正可以避免這種問題。


對象檢測 vs Occupancy Network

基于視覺的系統(tǒng)有 5 個主要缺陷:地平線深度不一致、物體形狀固定、靜態(tài)和移動物體、遮擋和本體裂縫。特斯拉旨在創(chuàng)建一種算法來解決這些問題。

新的占用網(wǎng)絡(luò)通過實施 3 個核心思想解決了這些問題:體積鳥瞰圖、占用檢測和體素分類。這些網(wǎng)絡(luò)可以以超過 100 FPS 的速度運行,可以理解移動對象和靜態(tài)對象,并且具有超強的內(nèi)存效率。

模型結(jié)構(gòu):


cvpr 時的網(wǎng)絡(luò)結(jié)構(gòu)

  • 輸入為不同視角的圖像(總共 8 個:正面、側(cè)面、背面等......)。
  • 圖像由Regnet和BiFPN等網(wǎng)絡(luò)提取特征
  • 接著transformer模塊,使用注意力模塊,采用位置圖像編碼加上QKV獲得特征,以此來產(chǎn)生占用Occupancy。
  • 這會產(chǎn)生一個Occupancy feature,然后將其與之前的體積(t-1、t-2 等)融合,以獲得4D Occupancy feature。
  • 最后,我們使用反卷積來檢索原始大小并獲得兩個輸出:Occupancy volume和Occupancy flow。


AI day時的網(wǎng)絡(luò)結(jié)構(gòu)

相比cvpr時,AI day上的分享更加詳細,主要有三點更新:

  • 最左側(cè)是基于photon count的傳感器圖像作為模型輸入(雖然鼓吹的很高大上,其實就是ISP處理前的raw數(shù)據(jù)),這里的好處是可以在低光照、可見度低等情況下,感知的動態(tài)范圍更好。
  • temporal alignment利用里程計信息,對前面時刻的occupancy features進行時序上的加權(quán)融合,不同的時間的特征有著不同的權(quán)重,然后時序信息似乎實在Channel維度進行拼接的?組合后的特征進入deconv模塊提高分辨率。這樣看來時序融合上,更傾向于使用類似transformer或者時間維度作為一個channel的時序cnn進行并行的處理,而非spatial RNN方案。
  • 相比CVPR的方案,除了輸出3D occupancy特征和occupancy flow(速度,加速度)以外,還增加了基于x,y,z坐標的query思路(借鑒了Nerf),可以給occupancy network提供基于query的亞像素、變分辨率的幾何和語義輸出。

因為nerf只能離線重建,輸出的occupancy 猜想可以通過提前訓(xùn)好的的nerf生成GT來監(jiān)督?

光流估計和Occupancy flow


特斯拉在這里實際上做的是預(yù)測光流。在計算機視覺中,光流是像素從一幀到另一幀的移動量。輸出通常是flow map 。

在這種情況下,可以有每一個體素的流動,因此每輛車的運動都可以知道;這對于遮擋非常有幫助,但對于預(yù)測、規(guī)劃等其他問題也很有幫助。


Occupancy Flow

Occupancy flow實際上顯示了每個對象的方向:紅色:向前 — 藍色:向后 — 灰色:靜止等……(實際上有一個色輪代表每個可能的方向)

Nerf


特斯拉的 NeRF

神經(jīng)輻射場,或 Nerf,最近席卷了3D 重建;特斯拉也是其忠實粉絲。它最初的想法是從多視圖圖像中重建場景(詳見3D重建課程)。

這與occupancy network 非常相似,但這里的不同之處在于也是從多個位置執(zhí)行此操作的。在建筑物周圍行駛,并重建建筑物。這可以使用一輛汽車或特斯拉車隊在城鎮(zhèn)周圍行駛來完成。

這些 NeRF 是如何使用的?

由于Occupancy network產(chǎn)生 3D volume,可以將這些 3D volume與 3D-reconstruction volume(Nerf離線訓(xùn)練得到)進行比較,從而比較預(yù)測的 3D 場景是否與“地圖”匹配(NeRF 產(chǎn)生 3D重建)。

在這些重建過程中也可能出現(xiàn)問題是圖像模糊、雨、霧等......為了解決這個問題,他們使用車隊平均(每次車輛看到場景,它都會更新全局 3D 重建場景)和描述符而不是純像素。


使用Nerf的descriptor

這就是獲得最終輸出的方式!特斯拉還宣布了一種名為隱式網(wǎng)絡(luò)的新型網(wǎng)絡(luò),其主要思想是相似的:通過判斷視圖是否被占用來避免沖突。

3

總結(jié)


  1. 當前僅基于視覺的系統(tǒng)的算法存在問題:它們不連續(xù),在遮擋方面做得不好,無法判斷物體是移動還是靜止,并且它們依賴于物體檢測。因此,特斯拉決定發(fā)明“Occupancy network”,它可以判斷 3D 空間中的一個單元格是否被占用。
  2. 這些網(wǎng)絡(luò)改進了 3 個主要方面:鳥瞰圖、物體類別和固定大小的矩形。
  3. occupancy network分 4 個步驟工作:特征提取、注意和occupancy檢測、多幀對齊和反卷積,從而預(yù)測光流估計和占用估計。
  4. 生成 3D 體積后,使用 NeRF(神經(jīng)輻射場)將輸出與經(jīng)過訓(xùn)練的 3D 重建場景進行比較。
  5. 車隊平均采集數(shù)據(jù)用于解決遮擋、模糊、天氣等場景

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多