摘要 —— 本文對汽車環(huán)視魚眼光學(xué)系統(tǒng)進(jìn)行了綜述,重點關(guān)注光學(xué)像差對自動駕駛和高級駕駛輔助系統(tǒng)(ADAS)中計算機(jī)視覺任務(wù)的影響。汽車行業(yè)在應(yīng)用前沿計算機(jī)視覺技術(shù)以提高道路安全并提供自動駕駛功能方面取得了進(jìn)展。在車輛上使用攝像系統(tǒng)時,尤其需要廣闊的視野來捕捉車輛周圍的整個環(huán)境,例如在低速操控、自動泊車以及全方位感知等領(lǐng)域。然而,環(huán)視攝像頭面臨的一個關(guān)鍵挑戰(zhàn)是魚眼攝像頭存在的強(qiáng)烈光學(xué)像差,而這一領(lǐng)域在文獻(xiàn)中鮮少受到關(guān)注。此外,還需要一個全面的數(shù)據(jù)集來測試車輛自動化中關(guān)乎安全的關(guān)鍵場景。業(yè)界已將模擬作為一種具有成本效益的策略,用于創(chuàng)建包含環(huán)視攝像頭圖像的合成數(shù)據(jù)集。我們研究了不同的模擬方法(如模型驅(qū)動和數(shù)據(jù)驅(qū)動的模擬),并討論了模擬器對現(xiàn)實世界光學(xué)性能進(jìn)行建模的能力(或不足)??傮w而言,本文著重強(qiáng)調(diào)了汽車魚眼數(shù)據(jù)集中的光學(xué)像差,以及模擬魚眼數(shù)據(jù)集中光學(xué)現(xiàn)實性的局限,聚焦于環(huán)視光學(xué)系統(tǒng)中的計算機(jī)視覺。 關(guān)鍵詞 —— 環(huán)視、魚眼、視野(FOV)、光學(xué)效應(yīng)、色差、像散、漸暈、計算機(jī)視覺、模擬、合成數(shù)據(jù)、魚眼投影。 一、引言 計算機(jī)視覺是一個研究領(lǐng)域,旨在設(shè)計算法,通過攝像頭所拍攝的現(xiàn)實世界圖像從計算角度對場景進(jìn)行解讀。隨著過去十年神經(jīng)網(wǎng)絡(luò)的興起,計算機(jī)視覺研究呈指數(shù)級增長。 圖 1. 用于自動駕駛的環(huán)視攝像系統(tǒng)示意圖。攝像頭分別為前視(左上角)、右中視(右上角)、左中視(左下角)、后視(右下角)[1]。 自動駕駛是一個計算機(jī)視覺已開始占據(jù)主導(dǎo)地位的行業(yè) [2]。與此同時,環(huán)視攝像系統(tǒng)也受到了關(guān)注。通過在車輛上布置多個魚眼攝像頭組合,此類攝像系統(tǒng)能夠提供車輛周圍 360° 的全景視野,如圖 1 所示。環(huán)視系統(tǒng)傳統(tǒng)上用于場景查看應(yīng)用(如盲區(qū)監(jiān)測 [3] 和鳥瞰視覺 [4])。最近,人們對環(huán)視系統(tǒng)所能承擔(dān)的計算機(jī)視覺任務(wù)尤為關(guān)注,其從幾年前的低速應(yīng)用 [5] 發(fā)展到了車輛自主駕駛中更全面的感知任務(wù) [1][6]。該研究領(lǐng)域的一部分工作是利用特定的攝像頭和鏡頭組合創(chuàng)建汽車場景圖像數(shù)據(jù)集。這些數(shù)據(jù)集是在現(xiàn)實世界中開發(fā)、訓(xùn)練以及部署計算機(jī)視覺模型的基礎(chǔ)。然而,由于光學(xué)和電子元件(在設(shè)計方面以及制造公差方面)的差異,不同的攝像頭會以不同的方式捕捉不同的場景。 電子圖像信號處理(ISP)對計算機(jī)視覺性能的影響在 [7] 和 [8] 中有詳細(xì)討論。而光學(xué)變化對計算機(jī)視覺性能的影響或許尚未在某一處得到充分研究。特別是,廣角魚眼攝像頭往往更容易受到光學(xué)像差的影響,而且在視覺圖像中比其他類型的攝像頭更為明顯 [9,第 233 頁]。主要原因在于,魚眼系統(tǒng)中因像場彎曲導(dǎo)致光線入射角較大,從而產(chǎn)生更為嚴(yán)重的像散以及高階色差,且這些像差很難校正。 尤其是隨著視場角(FOV)增大時 [10][11]。大多數(shù)論文僅討論了對光學(xué)像差進(jìn)行補(bǔ)償或校正的策略,而這些像差在魚眼或大視場角全景光學(xué)系統(tǒng)中更為明顯 [11][12][13]。相比之下,在本文中,我們將討論與大視場角系統(tǒng)相關(guān)的光學(xué)像差及其對計算機(jī)視覺性能的影響。 魚眼攝像頭因其圖像中存在的極端光學(xué)像差,在計算機(jī)視覺領(lǐng)域獨具特點且尚未被充分了解 [10][11][14]。出于這個原因,需要開展更多實驗來了解計算機(jī)視覺性能是如何受到此類鏡頭光學(xué)像差影響的??梢哉J(rèn)為光線離軸越遠(yuǎn),光學(xué)像差就越嚴(yán)重。由于魚眼鏡頭的大光學(xué)視角,因此產(chǎn)生光學(xué)像差的可能性就更大。所以,在本文中,我們將探討目前已知的光學(xué)像差對環(huán)視系統(tǒng)中計算機(jī)視覺性能的影響情況。 對于諸如車輛自動駕駛這類關(guān)乎安全的關(guān)鍵應(yīng)用而言,由于缺乏對不同鏡頭下計算機(jī)視覺模型行為的了解,這可能存在潛在危險,特別是如果無法對所有潛在場景進(jìn)行研究的話。道路上的實際情況只能通過考察不同的交通場景來研究,包括那些很少出現(xiàn)且在測試設(shè)施中最難重現(xiàn)的極端情況。模擬可以成為一種強(qiáng)大的工具,任何極端情況的交通場景都能被重構(gòu),作為訓(xùn)練計算機(jī)視覺模型的額外數(shù)據(jù)。在本文中,我們將綜述常用的視覺模擬方法,并特別關(guān)注它們準(zhǔn)確模擬環(huán)視攝像頭的能力,包括魚眼幾何形狀以及其他光學(xué)像差。模擬中的光學(xué)像差不僅要在訓(xùn)練時保證準(zhǔn)確,而且如果我們能夠調(diào)整模擬光學(xué)模型的參數(shù),就有可能展示計算機(jī)視覺模型在使用不同攝像頭鏡頭或在不同制造公差下生產(chǎn)的攝像頭時的表現(xiàn)情況。然而,盡管模擬在自動駕駛研究中頗受歡迎,但在這一領(lǐng)域的應(yīng)用仍是一個相對較新的發(fā)展方向。對于環(huán)視系統(tǒng)這一特定應(yīng)用場景,要使模擬接近真實照片效果還需要大量進(jìn)一步的開發(fā)工作。 由于模擬被視作解決魚眼數(shù)據(jù)采樣不足問題的一種潛在解決方案,便存在一個問題,即計算機(jī)視覺模型本應(yīng)使用模擬數(shù)據(jù)進(jìn)行訓(xùn)練,然后部署到現(xiàn)實世界中。然而,正如本文將要展示的那樣,這并非像在模擬中簡單施加魚眼畸變那么簡單。整個鏡頭以及它對現(xiàn)實世界圖像的實際影響都應(yīng)該在模擬中建模。例如,圖 2 展示了一幅帶有諸多明顯光學(xué)像差的魚眼圖像。例如,在圖像的角落可以看到機(jī)械和光學(xué)漸暈現(xiàn)象,那里的像素上有輕微的陰影。幾何畸變的影響可以從建筑物的形狀從矩形變?yōu)轭愃仆剐芜@一點看出來。橫向色差在建筑物和樹木的邊緣清晰可見。特別是建筑物的左側(cè)輪廓呈現(xiàn)出深藍(lán)色,與淺藍(lán)色的天空形成鮮明對比(見第三節(jié) B 部分的圖 5)。建筑物和景物的模糊情況包含了弧矢像散和切向像散。 模擬中缺少光學(xué)像差是一個缺陷,因為光學(xué)模型產(chǎn)生的影響是現(xiàn)實世界的關(guān)鍵部分。如果這些影響沒有被模擬出來,那么在訓(xùn)練過程中就無法為計算機(jī)視覺模型提供足夠信息,從而可能導(dǎo)致其在道路上出現(xiàn)不可預(yù)測的性能表現(xiàn)。因此,就目前情況來看,計算機(jī)視覺模型無法在模擬中學(xué)習(xí)到現(xiàn)實世界的全部情況,因而可以說無法完全安全地進(jìn)行部署。 該領(lǐng)域已有其他一些綜述討論了用于汽車系統(tǒng)的魚眼攝像頭和模擬情況。但它們都沒有專門聚焦于汽車環(huán)視系統(tǒng)的光學(xué)背景以及由光學(xué)系統(tǒng)產(chǎn)生的光學(xué)像差(除了明顯的幾何畸變之外)。早期的一篇綜述 [3] 聚焦于盲區(qū)監(jiān)測的場景查看應(yīng)用,并討論了魚眼幾何畸變和光線衰減的影響。在 [15] 中,基于作者提出的汽車環(huán)視計算機(jī)視覺的 4R(重構(gòu)、識別、重新定位和重組,其本身基于更早的計算機(jī)視覺 3R 相關(guān)工作 [16]),對環(huán)視感知系統(tǒng)應(yīng)如何構(gòu)建進(jìn)行了部分綜述以及立場論證。在庫馬爾等人的文獻(xiàn) [1] 中,對自動駕駛中魚眼光學(xué)系統(tǒng)(即魚眼投影模型、環(huán)視攝像系統(tǒng)、感知任務(wù)以及常用的汽車數(shù)據(jù)集)進(jìn)行了回顧。在 [17] 中,提供了一篇與 [1] 表面上相似的綜述。然而,在 [17] 中,作者更詳細(xì)地介紹了汽車魚眼數(shù)據(jù)集(包括真實數(shù)據(jù)集和模擬數(shù)據(jù)集),以及目標(biāo)檢測與跟蹤、語義分割、地圖繪制與定位以及環(huán)視監(jiān)測這三項任務(wù)。其他與魚眼相關(guān)的綜述,如高等人 [18] 的研究,聚焦于用于 360° 全景、折反射等不同類型的大視場角(FOV)系統(tǒng),并簡要討論了用于自動駕駛的魚眼分割問題。最后,穆奇等人 [19] 對自動駕駛中不同類型模擬器的優(yōu)缺點進(jìn)行了富有見地的概述,對現(xiàn)有的不同模擬類型(如模型驅(qū)動和數(shù)據(jù)驅(qū)動模擬)提供了重要見解。穆奇的工作中提出了許多關(guān)于模擬的關(guān)鍵要點,本文將從環(huán)視攝像頭的角度對這些要點進(jìn)行研究。 在上述所有關(guān)于環(huán)視的綜述中,都只是詳細(xì)探討了明顯的幾何畸變,因此,在本文中我們僅簡要提及這一話題。上述文獻(xiàn)中均未討論環(huán)視攝像頭的其他光學(xué)像差(除了 [3] 中討論了光線衰減情況外)。雖然這些綜述中都將模擬作為擴(kuò)充用于自動駕駛開發(fā)的數(shù)據(jù)集的一種手段進(jìn)行了討論,但也都沒有探討模擬的光學(xué)情況有多符合現(xiàn)實。在本文中,我們旨在對此展開討論。因此,為了對上述提及的其他綜述進(jìn)行補(bǔ)充,本文將(1)具體闡述魚眼光學(xué)系統(tǒng)中發(fā)現(xiàn)的各類圖像質(zhì)量影響因素;(2)研究這些光學(xué)像差如何影響計算機(jī)視覺;(3)明確模擬框架的當(dāng)前趨勢,區(qū)分不同的模擬方法適用于自動駕駛,并考慮了當(dāng)前模擬中光學(xué)偽影的精度。 圖2。插圖180。魚眼鏡頭/照相機(jī)組合。 捕獲的圖像顯示了許多與魚眼相機(jī)相關(guān)的光學(xué)偽影,我們將在論文的后面進(jìn)行討論。注:標(biāo)記的虛線框(橙色)代表橫向色差(紅色)和強(qiáng)烈散光或光學(xué)模糊,建筑物的幾何失真效果(藍(lán)色),以及外圍的機(jī)械和光學(xué)漸暈,帶有輕微陰影(綠色)。 本文結(jié)構(gòu)如下。在第二節(jié)中,我們將簡要討論什么是環(huán)視光學(xué)系統(tǒng)以及它們是如何設(shè)計的。在第三節(jié)中,我們將專門針對魚眼攝像頭討論包括色差、像散、漸暈和幾何畸變在內(nèi)的主要圖像質(zhì)量因素,以及這些因素如何影響計算機(jī)視覺。然后,在第四節(jié)中,我們將考察應(yīng)用于所有環(huán)視系統(tǒng)的計算機(jī)視覺,包括綜述一些近期提出的關(guān)于如何考量環(huán)視攝像頭空間可變光學(xué)特性來衡量計算機(jī)視覺性能的新方案。最后,在第五節(jié)中,我們將深入探討模擬的真實感和圖像質(zhì)量,并討論魚眼如何成為計算機(jī)模擬器(如 CARLA、Unity 等)的一部分。 二、魚眼光學(xué)設(shè)計魚眼鏡頭的光學(xué)設(shè)計是一項艱巨的任務(wù),我們在此不打算涵蓋所有細(xì)節(jié)。這本身就是諸多論文(例如 [20][21])和書籍(例如 [9])所探討的主題。此處的目的是讓讀者對設(shè)計的復(fù)雜性有一定概念,并強(qiáng)調(diào)盡管光學(xué)設(shè)計的很大一部分工作是為了消除光學(xué)像差,但要完全消除這些像差是不可能的。 光學(xué)攝像系統(tǒng)的目標(biāo)是在圖像傳感器上形成清晰的圖像。從幾何角度來看,我們可以認(rèn)為這相當(dāng)于光線會聚在像平面上,如圖 2 所示,圖中展示了由魚眼鏡頭拍攝的魚眼圖像。圖 2 所示的光學(xué)鏡頭展示了一個簡單的三透鏡系統(tǒng),不過魚眼鏡頭通常包含更多的鏡片元件。所示系統(tǒng)由以下部分組成:(1)魚眼鏡頭,即具有非常寬視場角的鏡頭;(2)凸透鏡,光線射出時會在此會聚;(3)雙合透鏡,它是由兩種不同光學(xué)介質(zhì)構(gòu)成的透鏡,通常見于魚眼攝像系統(tǒng)中。在雙合透鏡中,這兩種不同介質(zhì)通常是兩種不同類型的玻璃材料熔合在一起,這有助于減少鏡頭中的色差(在第三節(jié) B 部分將進(jìn)一步詳細(xì)討論)。自然地,根據(jù)其應(yīng)用情況,當(dāng)向該系統(tǒng)添加更多透鏡時,魚眼光學(xué)系統(tǒng)會變得更加復(fù)雜。在 [9, 259 - 266] 中,通過將光學(xué)表面建模為矩陣來介紹光線追跡的更多細(xì)節(jié)。 光線追跡是一種對虛擬光線(代表光線)通過光學(xué)系統(tǒng)的投影進(jìn)行建模的方法,它分析光線進(jìn)入不同透鏡介質(zhì)時的折射情況(OpticStudio1 就是此類光線追跡軟件工具的一個示例)。一個光學(xué)系統(tǒng)中有虛擬光線,理想情況下,這些光線應(yīng)該會聚在光學(xué)系統(tǒng)末端的特定點上。介質(zhì)的厚度和折射率都會影響虛擬光線的方向。在光學(xué)系統(tǒng)中,可以依據(jù)斯涅爾定律 [9, 259] 將不同類型的介質(zhì)(即具有不同折射率的透鏡)放置在一起。每個透鏡都有與之相關(guān)的單獨光焦度,它是透鏡焦距的倒數(shù),可用如下公式表示: 其中fi是光學(xué)系統(tǒng)中的焦距,可以有n個光學(xué)透鏡。一個典型的魚眼透鏡(圖2中所示的大圓盤狀透鏡)由于其焦距非常小,導(dǎo)致光的極端收斂,因此具有非常高的光功率。當(dāng)光通過介質(zhì)以廣角彎曲時,異常高的光功率會導(dǎo)致極端的光學(xué)像差。很難消除由極端透鏡功率引起的光學(xué)偽影。直接影響光學(xué)系統(tǒng)的光學(xué)偽影,如色差、散光和暈光圖,將在第三節(jié)中進(jìn)行討論。隨著光學(xué)系統(tǒng)增加更多的凸透鏡,功率往往會增加。然而,在光學(xué)系統(tǒng)中并非所有的透鏡都是正的(例如,圖2中所示的光學(xué)雙態(tài),其中透鏡的凸部分為正(收斂),而凹部分為負(fù)(發(fā)散))。如果凸面部分比發(fā)散部分的功率更大,那么整體透鏡可以是正的。光學(xué)系統(tǒng)的總功率(作為焦距的倒數(shù)),可以描述為:Φ = φ 1 + φ2 + ... + φi + ... + φn 式中,Φ為光學(xué)系統(tǒng)的總功率,φi為第i個單個透鏡的功率,其中光學(xué)系統(tǒng)中有n個透鏡。 魚眼光學(xué)的設(shè)計是一個正在進(jìn)行的研究課題,最近在使用神經(jīng)網(wǎng)絡(luò)在透鏡設(shè)計[22]的一些進(jìn)展。一個擁有更多透鏡的光學(xué)系統(tǒng)并不一定意味著一個性能更好的系統(tǒng)。在某種意義上,一個更有效的光學(xué)設(shè)計意味著使用最佳的透鏡數(shù)量。在[23]中提出了一種八元件寬的FOV(120?)透鏡。然而,該系統(tǒng)存在120?以上的光學(xué)偽影。 [21].在[21]中,一個簡化的魚眼設(shè)計優(yōu)化光學(xué)偽影。光學(xué)像差將在下面的部分中討論,其中我們還將調(diào)查特定像差對計算機(jī)視覺性能的影響。 羅馬數(shù)字 3魚眼光學(xué)像差 在前一節(jié)中,我們討論了透鏡設(shè)計的復(fù)雜性,以及像差如何不可能通過光學(xué)完全消除。在本節(jié)中,我們將觀察主要的光學(xué)像差是什么,并調(diào)查它們的影響 計算機(jī)視覺:(A)空間變異光學(xué)質(zhì)量,(B)色差,(C)散光,(D)脈插圖,和(D)幾何畸變。具體來說,光學(xué)像差圖像上的空間變化影響了計算觀察者對物體的感知。 A. 空間上變化的光學(xué)質(zhì)量 相機(jī)系統(tǒng)的光學(xué)質(zhì)量可以通過檢查通過光學(xué)系統(tǒng)傳播的光線(稱為斑圖)[27]產(chǎn)生的圖像斑來測量相機(jī)系統(tǒng)的空間變化。相機(jī)在圖像平面上產(chǎn)生的光點被稱為相機(jī)系統(tǒng)的點擴(kuò)散函數(shù)(PSFs),本質(zhì)上是相機(jī)系統(tǒng)的脈沖響應(yīng)。在普通光學(xué)中,PSF可以近似為高斯分布(例如,圖3a)[28],[29]。然而,在魚眼光學(xué)中,PSF可以是高度非高斯分布的(圖3b)。圖中psf的分布情況如圖4所示。理想情況下,一個相機(jī)系統(tǒng)是空間不變的,其中相同的PSF描述了相機(jī)在圖像傳感器上的任何一點的空間脈沖響應(yīng)。然而,魚眼相機(jī)是空間變化的光學(xué)系統(tǒng),光學(xué)質(zhì)量在圖像平面上有很大的差異。 因此,在處理魚眼圖像時,應(yīng)考慮空間變化的光學(xué)質(zhì)量。雖然光學(xué)質(zhì)量的測量指標(biāo)具有重要的相關(guān)性,但它們將只在這里進(jìn)行簡要的討論,而不是本文的主要重點。傳統(tǒng)的測量行業(yè)攝像機(jī)質(zhì)量的技術(shù),如調(diào)制傳遞函數(shù)(MTF)[30]、[31]和信噪比(SNR)(峰值信噪比或PSNR是與MTF[32]、[33]一起研究圖像質(zhì)量評估的指標(biāo))。Lin等人[34]考慮了基于MTF和信噪比技術(shù)技術(shù)來評估運動模糊和相機(jī)曝光的圖像質(zhì)量。然而,在某些情況下,MTF被認(rèn)為不足以進(jìn)行圖像應(yīng)用。例如,沃爾夫等人的一項研究。[35]表明,MTF和屈光功率指標(biāo)不足以僅測量擋風(fēng)玻璃的清晰度,特別是在攝像頭位于擋風(fēng)玻璃后面的地方。因此,其他傳統(tǒng)指標(biāo),如香農(nóng)信息能力(SIC)[36]和噪聲等效量子(NEQ)[37],現(xiàn)在正在重新考慮作為評估計算機(jī)視覺性能的一種方法,并可能成為光學(xué)系統(tǒng)[34]計算機(jī)視覺研究方向的一部分。由于在人工智能中測量和微調(diào)光學(xué)系統(tǒng)的挑戰(zhàn),最近的工作已經(jīng)研究了建模和改變光學(xué)的影響使用神經(jīng)網(wǎng)絡(luò)(NNs)的窄FOV光學(xué)設(shè)計的參數(shù)。在Wittpahl等人[25]的工作中,對于一個60?的標(biāo)準(zhǔn)FOV攝像機(jī),訓(xùn)練一個人工神經(jīng)網(wǎng)絡(luò)來預(yù)測空間變化的點擴(kuò)散函數(shù),給定三個輸入(1)離焦,(2)場和(3)方位角。然后可以用來人為地模擬這三個參數(shù)對圖像光學(xué)質(zhì)量的影響,即PSF模型使用基于神經(jīng)網(wǎng)絡(luò)的預(yù)測確定的PSF與目標(biāo)圖像的每個像素進(jìn)行卷積,并使用加權(quán)核進(jìn)行下采樣和插值技術(shù)。 此外,萊曼等人 [26] 通過檢驗 [25] 中模型的空間分辨率和精度進(jìn)行了一項研究。在此過程中,以均方誤差(MSE)作為對 60° 視場角(FOV)模型建模的決定性衡量指標(biāo),找到了人工神經(jīng)網(wǎng)絡(luò)(ANN)的最優(yōu)拓?fù)浣Y(jié)構(gòu)。研究發(fā)現(xiàn),在神經(jīng)元數(shù)量介于 8 到 448 個之間變化時,平均性能在神經(jīng)元數(shù)量為 50 到 100 個左右時達(dá)到了約 3 個均方誤差的平穩(wěn)最優(yōu)值,當(dāng)向拓?fù)浣Y(jié)構(gòu)中添加更多神經(jīng)元時,就會出現(xiàn)過擬合現(xiàn)象。對于每種拓?fù)浣Y(jié)構(gòu)配置(即人工神經(jīng)網(wǎng)絡(luò)的變化情況),都使用不同的隨機(jī)偏差啟動了 100 次訓(xùn)練 [26]。 原則上,[25] 和 [26] 中所描述的模型沒有理由不能通過設(shè)計選擇推廣到任何光學(xué)模型。例如,如果要用大視場角相機(jī)模型取代小視場角模型,原則上使用相同的方法有可能為該特定模型得出定制的人工神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),這將是未來一項有意思的工作。 應(yīng)該強(qiáng)調(diào)一下 [25] 和 [26] 這項工作需注意的地方。所使用的圖像是用真實相機(jī)拍攝的。使用的是高端光學(xué)器件,其光學(xué)像差雖小但不為零。因此,人工神經(jīng)網(wǎng)絡(luò)建模的點擴(kuò)散函數(shù)(PSF)是施加在圖像鏡頭已有的點擴(kuò)散函數(shù)之上的,這會導(dǎo)致輸出圖像出現(xiàn)失真。正如 [26] 中所提到的,要將光學(xué)模型應(yīng)用于預(yù)先記錄的數(shù)據(jù),需要對原始圖像鏡頭所獲取的數(shù)據(jù)進(jìn)行去卷積處理,然后再與光學(xué)模型進(jìn)行卷積運算。一個自然而然的問題就出現(xiàn)了,即是否有可能將該模型直接應(yīng)用于模擬環(huán)境中的數(shù)據(jù)收集(見第五節(jié)),這將是一個富有成效的研究方向。 B. 色差當(dāng)可見光譜中的長、中、短波長(分別對應(yīng)紅光、綠光和藍(lán)光)聚焦在像平面的不同點上(即不會聚在某一特定點)時,就會產(chǎn)生色差。這是一種不良效應(yīng),會導(dǎo)致圖像中的不連續(xù)處(即邊緣)出現(xiàn) “彩色條紋”。 色差存在橫向(即光線在 y 軸上分散)和縱向(即光線在 x 軸上分散)兩種情況。橫向色差如圖 5 所示,光線離魚眼鏡頭中心或光軸越遠(yuǎn),在像平面上光線的分散就越寬。橫向色差通常朝著視場角的邊緣處增大。由于它本質(zhì)上是光線入射角的函數(shù),所以在魚眼鏡頭中尤為明顯,而且很難完全補(bǔ)償 [38]。 圖5。魚眼鏡頭上的橫向色差。光沿著y軸分為紅色、綠色和藍(lán)色(RGB)。 我們只對光的紅色、綠色和藍(lán)色組件感興趣,因為圖像傳感器通常只有紅色、綠色和藍(lán)色的像素。 圖 6. 伍德斯科佩(Woodscape)數(shù)據(jù)集圖像的放大片段,顯示出存在橫向色差的跡象。 注意沿著汽車輪廓和道路標(biāo)線的像素處有輕微的紅 / 紫和綠色色調(diào)。 在圖 6 中,可以看到伍德斯科佩數(shù)據(jù)集中的魚眼圖像存在橫向色差 [39]。 相反,縱向色差會在整個圖像上出現(xiàn),與光線入射到魚眼鏡頭的位置無關(guān)。在這種情況下,波長較長的光(即紅光和紅外光)往往會在像平面之后會聚,而波長較短的光(即藍(lán)光)則在像平面之前會聚??v向色差更容易校正,縮小鏡頭光圈(即增大光圈系數(shù) f 值)就能補(bǔ)償這種效應(yīng)。參照圖 5,在伍德斯科佩數(shù)據(jù)集中沒有明顯可見的縱向色差跡象。 色差通常通過光學(xué)器件中的消色差雙合透鏡(例如圖 2 中魚眼鏡頭設(shè)計里看到的雙合透鏡)來補(bǔ)償,或者在相機(jī)系統(tǒng)進(jìn)行去馬賽克處理之前的圖像信號處理(ISP)階段進(jìn)行補(bǔ)償 [40][41]。去馬賽克處理是指將拜耳(Bayer)原始信號(每個像素有一種顏色)轉(zhuǎn)換為標(biāo)準(zhǔn) RGB 格式的階段。存在橫向色差的圖像在去馬賽克處理時效果不佳,因為顏色效應(yīng)會改變生成的 RGB 圖像中預(yù)期的像素細(xì)節(jié)。橫向色差通常作為后處理步驟,使用針對給定鏡頭類型計算出的查找表來校正,但這往往不可行。近期有研究探討了校正橫向色差的盲方法 [41]。需要注意的是,用于補(bǔ)償色差的后處理并不能解決問題。不過,很明顯完全校正魚眼相機(jī)中的色差是不可行的。 蓬蒂寧等人 [14] 通過應(yīng)用不同的校正模型,對適馬(Sigma)8mm 1:4 D EX 魚眼鏡頭 [42] 和尼康 AF DX 魚眼 - 尼克爾(Fisheye-Nikkor)10.5mm f/2.8G ED 鏡頭 [43] 之間的色差進(jìn)行了比較,以確定哪款鏡頭更適合 180° 大視場角鏡頭。這項研究中使用的四種校正模型分別是平移縮放、仿射、投影和多項式模型。這些模型應(yīng)用于紅色和藍(lán)色通道,以綠色通道作為校正的參考通道。研究發(fā)現(xiàn),平移縮放校正模型是合適的,而其他模型總體上并沒有改善色差校正效果。這項研究中有趣的地方在于對相機(jī)行為的分析,相機(jī)上光圈大小和對焦設(shè)置的變化會影響每種相機(jī)設(shè)計所特有的色差情況。例如,對于適馬鏡頭,當(dāng)光圈大小從 f/4 增大到 f/32 時,紅色通道的像差增加了 0.5 像素。而對于尼康鏡頭,紅色通道幾乎沒有變化。 人們直覺上會認(rèn)為色差會對計算機(jī)視覺任務(wù)的性能產(chǎn)生負(fù)面影響,因為它通常被視為一種不良的光學(xué)像差。然而,情況并非完全如此清晰(而且對此進(jìn)行研究的工作相對較少)。根據(jù)常等人 2019 年的一項研究 [44],通過使用紐約大學(xué)深度 v2 數(shù)據(jù)集 [45] 和基蒂(KITTI)數(shù)據(jù)集的一個子集,無論是定性還是定量方面,都表明存在色差的圖像在深度估計和三維物體檢測應(yīng)用中,其表現(xiàn)優(yōu)于 “全聚焦” 圖像(即沒有任何光學(xué)像差的圖像)。表 I 根據(jù)文獻(xiàn)詳細(xì)展示了不同光學(xué)像差的影響。常等人 [44] 是迄今為止唯一一篇提供證據(jù)表明存在色差的鏡頭和自由曲面鏡頭表現(xiàn)優(yōu)于基線或原始數(shù)據(jù)的論文。在近期的工作中也可以看到這種情況的進(jìn)一步證據(jù),對于 ResNeXt50 網(wǎng)絡(luò) [32],其對彗差(一種色差形式)具有顯著的魯棒性。此外,對于 D3 - Net 架構(gòu),散焦的紐約大學(xué)深度 v2 圖像的深度估計效果優(yōu)于基線(全聚焦圖像)(見表 I)。然而,在所有其他涉及色差的文獻(xiàn)中,在物體檢測和實例分割應(yīng)用中都觀察到了性能下降的情況。不過,由于這些實驗中使用的光學(xué)設(shè)計同時存在色差和像散的跡象,所以不能確鑿地認(rèn)定性能下降是由某一種像差造成的。同樣在近期的工作 [48][49] 中,利用不同的模糊光譜通道,針對雙凸透鏡在深度估計方面明確利用了縱向色差。色差在涉及深度的任務(wù)(例如深度估計和三維邊界框任務(wù))中的作用或許可以通過這樣一個事實來解釋,即存在的色差量取決于被成像物體的深度。 圖7。一種用于散光校正的光學(xué)楔形物或棱鏡。 如圖所示,通過在光學(xué)系統(tǒng)前面添加棱鏡;射線被折射,使光線聚焦在圖像平面上,產(chǎn)生清晰的圖像。 圖8。一個顯示散光的魚眼圖像的例子。 注意水平方向比垂直方向增加的“模糊”。木景數(shù)據(jù)集沒有顯示出明顯的散光——該樣本來自于非汽車混合結(jié)構(gòu)的運動和全方位相機(jī)校準(zhǔn)數(shù)據(jù)集[50]。請注意,一些色差和漸暈也是可見的。 這種關(guān)系有可能被利用。然而,這些實驗是在窄的FOV攝像機(jī)上進(jìn)行的。如前所述,色差在魚眼圖像中可能特別嚴(yán)重,而且沒有任何工作(據(jù)作者所知)明確地檢查魚眼橫向色差對計算機(jī)視覺性能的影響。此外,目前尚不清楚其他任務(wù),如目標(biāo)檢測或?qū)嵗指?,是否會受到顯著色差的負(fù)面影響。 C. 散光作用 散光是一種光學(xué)偽影,通過引起定向依賴的離焦來影響圖像(圖8)。這是由兩個垂直平面上的光線有兩個不同的焦點的效應(yīng)引起的,如圖9所示。它被引入光學(xué)系統(tǒng),要么是由于透鏡不是旋轉(zhuǎn)對稱的,要么是由于透鏡元件的失調(diào),這可能會降低光學(xué)系統(tǒng)的性能。在圖9中,主光線是一條通過系統(tǒng)孔徑中心的光線。從 這條射線,兩個不同的平面可以被定義為水平面和垂直面(也被稱為矢狀面和切向面)。同樣,也存在矢狀射線和切向射線,形成兩個獨特的焦點(即Ft、Fs)。因此,形成了兩個不同的圖像(即,It,Is)。通過改變主射線的入射角,矢狀面和橫切線面可能有許多變化[9,274-276]].在像散系統(tǒng)中,不可能將切向線和矢狀面線聚焦在一個平面上以產(chǎn)生清晰的圖像。已經(jīng)注意到,在像散系統(tǒng)中,物體的方向影響成像如何發(fā)生[51]。例如,物體與光軸之間的角度越大,F(xiàn)t和Fs之間的像散差就越大,因此圖像中的模糊度就會增加。注意,在圖9中,形成了兩個橢圓圖像,其中模糊是垂直的,而Is是水平的。隨著散光的增加,矢狀面和切向射線之間的散度隨著制造缺陷的增加而增加?;煜钚〉膱A是鏡頭系統(tǒng)所能制造的最小的圓或斑點。散光的存在會根據(jù)透鏡制造的缺陷而改變。在這些條件下,一個典型的PSF見第二節(jié)(圖3b)(位于圖4中PSF透鏡模型的外圍),它代表了一個發(fā)生在透鏡外圍的像散系統(tǒng),在那里存在強(qiáng)烈的徑向畸變。散光直接影響給定相機(jī)系統(tǒng)的PSF(盡管它不是唯一的影響)。在過去的幾十年里,有許多嘗試來糾正光學(xué)系統(tǒng)中的散光。例如,在魚眼透鏡設(shè)計的[21],[52]中,一個經(jīng)典的對稱細(xì)胞透鏡的后半部分被用于減少球面像差和像散性。正如Muller等人[53]所描述的,庫克三重態(tài)是一個具有補(bǔ)償散光能力的光學(xué)系統(tǒng)。在這項工作中,庫克三重聯(lián)體被應(yīng)用于伯克利深度驅(qū)動器(BDD100k)[54]汽車數(shù)據(jù)集的一個子集,用于在△z=±1.25的散焦范圍之間進(jìn)行模糊,其中Mask RCNN[55]模型在這個散焦范圍內(nèi)進(jìn)行了評估。在這個范圍內(nèi),結(jié)果表明,不同的興趣區(qū)域(ROI)從中心到邊緣的圖像有明顯不同程度的模糊證明圖像的空間域不一致的圖像質(zhì)量和導(dǎo)致顯著下降的統(tǒng)計和空間性能指標(biāo)面具RCNN模型。 從這些例子中可以清楚地看出,光散光具有不良的影響,但在復(fù)雜的光學(xué)系統(tǒng)中卻難以控制。對于像魚眼這樣的廣角透鏡,當(dāng)徑向變化的psf(在第二節(jié)中討論)影響透鏡周圍的模糊程度時,散光尤其成問題。 由于前置相機(jī)系統(tǒng)的大量生產(chǎn)和時間限制,這種光學(xué)像差無法消除。為了補(bǔ)償散光,光學(xué)系統(tǒng)有時可能會被重建幾次,但這是工業(yè)上不受歡迎的[56],[57]。為了糾正線性像散,可以將制造的透鏡滾動在其機(jī)械座椅上,使一個表面傾斜,以弧分鐘為單位測量的α角,可以通過(3) [56]估計: 圖9。在魚眼透鏡中顯示散光。注意不匹配的焦點,其中散光圖像代表了矢狀射線和切向射線的不同發(fā)散。 式中,d是由于滾動而導(dǎo)致的鏡頭的橫向位移,R是座椅上表面的曲率半徑。最后,在光到達(dá)圖像平面之前,在光學(xué)系統(tǒng)中添加一個薄的光學(xué)楔,如[56],[58]所述: 其中n為楔形的折射率,u為進(jìn)入楔形前一階邊緣射線的斜率,分別為一階主射線的斜率,y為楔形[56]處的邊緣射線高度。圖7在一個樣品光學(xué)楔形的矩形棱鏡上展示了這些參數(shù)。 已經(jīng)證明,散光對于計算機(jī)視覺算法是不可克服的,因為它可以由于目標(biāo)目標(biāo)的模糊而影響目標(biāo)檢測和分割算法的性能[57,p. 43]。文獻(xiàn)中的大量證據(jù)對計算機(jī)視覺[47]、[53]、[57]、[59]、[60]都證明了這一點(見表一)。一個對性能產(chǎn)生負(fù)面影響的例子可以在[53,p。60-61],其中證明了使用Mask-RCNN模型,通過使用Cooke三聯(lián)體應(yīng)用△z=±1.25的離焦,平均精度(AP)惡化了精度-召回(PR)曲線上的性能 透鏡相反,在Chang和韋茨斯坦[44]的三維物體檢測結(jié)果中可以看到積極的影響,使用一個優(yōu)化的掩模為初始化的自由形式透鏡的像散。例如,類似地,對于“容易”的3D目標(biāo)檢測(“容易”是KITTI性能指標(biāo)中的一個難度參數(shù)),也有8.34%的AP改進(jìn)。當(dāng)考慮散光應(yīng)用于深度估計時,一個流行的術(shù)語在20世紀(jì)創(chuàng)造了,稱為深度距(DfD)[61]。使用DfD,卡瓦略等人將[47]綜合離焦數(shù)據(jù)集(如NYUv2[45])和深度從離焦模糊中學(xué)習(xí),與“全聚焦”(未增強(qiáng))圖像相比,性能有所提高。與PSF一樣,需要深度估計的機(jī)器學(xué)習(xí)任務(wù)可能受益于深度的散焦。 圖10。在木景數(shù)據(jù)集中的機(jī)械漸暈。請注意由于傳感器和鏡頭光圈不匹配而導(dǎo)致的黑色角的存在。 D. 圖文 光暈(也被稱為“光脫落”)是一種光學(xué)現(xiàn)象,它會導(dǎo)致圖像的外圍逐漸變暗。光暈的發(fā)生是由于傳感器的光角度變化、固有透鏡特性和物理遮擋[62]。它最明顯的是在非常寬的地方FOV照相機(jī),比如魚眼。制作小插圖的[63]有四個主要原因:
光學(xué)漸暈和像素漸暈都可以在相機(jī)系統(tǒng)的圖像信號處理階段(ISP)進(jìn)行補(bǔ)償 [7][63]。對于伍德斯科佩(Woodscape)數(shù)據(jù)集,通過使用鏡頭陰影校正模塊進(jìn)行徑向數(shù)字增益校正,漸暈在很大程度上得到了補(bǔ)償 [39]。這種后處理補(bǔ)償可能會解決漸暈在視覺外觀上的問題,但信噪比并不會得到改善。在光圈周圍也存在機(jī)械漸暈,如圖 6 所示。清晰可見的 “黑色角落” 是由于鏡頭遮光罩阻止了圖像傳感器獲取完整的視場角所致。非汽車領(lǐng)域的混合運動恢復(fù)結(jié)構(gòu)和全方位相機(jī)校準(zhǔn)數(shù)據(jù)集 [50] 顯示出了一定程度的光學(xué) / 像素 / 余弦四次方漸暈(參照圖 8)。 國際標(biāo)準(zhǔn) ISO12233 [66] 引入了多項式擬合和非均勻補(bǔ)償來校正邊緣空間頻率響應(yīng)(e-SFR)測量中的漸暈和幾何畸變效應(yīng) [67]。當(dāng)進(jìn)行高(一側(cè))和額外低信號(兩側(cè))校正時,空間頻率響應(yīng)(SFR)在兩個階段都會降低,從而減少了測量中的漸暈現(xiàn)象。ISO12233 被用于自動駕駛車輛環(huán)視攝像頭的測量中 [68]。就計算機(jī)視覺性能而言,又一次有點違反直覺的是,漸暈已被證明對目標(biāo)檢測的統(tǒng)計指標(biāo)有一些積極影響。例如,有研究表明,在對基蒂(KITTI)[46] 和虛擬基蒂(Virtual KITTI)[69] 數(shù)據(jù)集應(yīng)用漸暈來進(jìn)行汽車二維目標(biāo)檢測時 [70],使用帶有區(qū)域提議網(wǎng)絡(luò)(RPN)(在 ImageNet [72] 上預(yù)訓(xùn)練過)的快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster-RCNN)[71] 模型,當(dāng)對圖像應(yīng)用漸暈時,準(zhǔn)確率從 83.12% 提高到了 88.96%[70](見表 I)。而且,在圖像邊緣檢測到的汽車數(shù)量也有所增加,這很不尋常,因為人們通常會認(rèn)為漸暈會導(dǎo)致邊緣區(qū)域性能下降。然而,僅憑準(zhǔn)確率并不足以完全確定漸暈對性能的明顯積極影響,因為眾所周知,準(zhǔn)確率是偏向正類的 [73]。由于這些實驗中的統(tǒng)計指標(biāo)不夠充分,所以還需要對漸暈對計算機(jī)視覺性能的影響進(jìn)行更多研究。相反,一種對抗性漸暈攻擊(AVA)模型使殘差網(wǎng)絡(luò) 50(ResNet50)[74] 網(wǎng)絡(luò)產(chǎn)生了混淆,這表明漸暈對計算機(jī)視覺性能可能會產(chǎn)生不可預(yù)測的影響 [62](見表 I)。需要進(jìn)行更多實驗來理解這些行為。表 I 對文獻(xiàn)中旨在評估計算機(jī)視覺中光學(xué)像差的實驗進(jìn)行了詳細(xì)對比??梢院侠硗茢?,在所提及的這些論文中,根據(jù)所考察任務(wù)的性質(zhì),光學(xué)像差既可能產(chǎn)生負(fù)面影響,也可能產(chǎn)生正面影響。不能確鑿地認(rèn)為將光學(xué)像差引入訓(xùn)練數(shù)據(jù)就一定會導(dǎo)致性能下降。例如,深度估計實驗顯示出了積極影響,并且對合成數(shù)據(jù)進(jìn)行擴(kuò)充能提高在真實世界數(shù)據(jù)上的性能 [75]。同樣明顯的是,當(dāng)對基蒂數(shù)據(jù)集應(yīng)用漸隱時,像準(zhǔn)確率這樣的單個指標(biāo)會有所提高(見表 I)。然而,將帶有漸暈的真實世界圖像作為對算法的對抗性攻擊來使圖像退化時,性能就會下降 [62]。這表明圖像退化對于模擬數(shù)據(jù)集可能會產(chǎn)生積極結(jié)果,但對于真實世界數(shù)據(jù)則會產(chǎn)生消極影響。 E. 幾何畸變魚眼相機(jī)的幾何特性在之前的幾項綜述 [1][3] 中已經(jīng)有所涉及,因此我們在此僅對該主題進(jìn)行簡要討論。 圖11。二維圖像上的魚眼點與單位球[1]上的等價點的幾何關(guān)系。射影球是一種更自然的幾何對象 一種全向/魚眼相機(jī),與投影平面用于較窄的FOV相機(jī)[87]相同。 魚眼光學(xué)中非常強(qiáng)烈的徑向扭曲可能是最明顯的不良偽影。在[1]中,我們對不同的魚眼數(shù)學(xué)模型進(jìn)行了深入的討論。特別有趣的是,從幾何角度注意到魚眼相機(jī)與i2大小的二維圖像的關(guān)系。在這里,我們給出了一個非常簡短的概述,但將鼓勵讀者檢查以前的調(diào)查,以獲得更多的細(xì)節(jié)。在圖11中,θ是來自對象X的光線從單位球體映射到圖像平面的角度。C是單位球體的中心。投影圖像點u到圖像中心c的徑向距離|| u ||與這個入射角θ成正比。 一些代表魚眼變形的經(jīng)典幾何投影模型包括(1)等距投影、(2)立體投影和(3)正交投影。每個投影模型都有與圖11 [1]所示的一般映射策略的細(xì)微變化。每個模型都有自己獨特的投影和非投影函數(shù)集,這些模型在理論上可以應(yīng)用于魚眼圖像,以消除失真或增加對直線圖像的解扭。多項式布朗-康拉迪模型(包括校準(zhǔn)方法),是在許多常用的軟件包和庫(例如,MATLAB [88],[89])中實現(xiàn)。流行的木景數(shù)據(jù)集[39],[90],在本文中仔細(xì)檢查,使用一個完整的四階多項式模型進(jìn)行魚眼投影: ∥u ∥ = r (θ) = a1θ + a2θ 2 + a3θ 3 + a4θ 4 神經(jīng)網(wǎng)絡(luò)并不是專門為扭曲的圖像建立的,這將導(dǎo)致預(yù)期的性能降低[15]。例如,由于魚眼圖像的失真,cnn中平移不變性的隱含假設(shè)并不成立。此外,使用增強(qiáng)方法并不一定意味著更多的數(shù)據(jù)等同于更好的性能。Cho等人[80]將觀點增強(qiáng)作為對魚眼退化性能最小的方法(見表I)。最近的研究表明,當(dāng)考慮到在圖像中使用偏移量和幾何變換時,可變形的共卷積網(wǎng)絡(luò)[91]可以有效地解決失真問題。Deng等人[6]提出了該策略的一個限制版本,其中該模型對環(huán)繞視圖系統(tǒng)中的大徑向畸變具有魯棒性(見表I)。 F. 討論 也許最感興趣的是,當(dāng)調(diào)查公認(rèn)的稀疏文獻(xiàn)時,并不清楚是否所有的光學(xué)像差都會對所有汽車計算機(jī)視覺任務(wù)的性能產(chǎn)生負(fù)面影響(見表1)。有幾項工作已經(jīng)證明,光學(xué)像差已經(jīng)改進(jìn)了某些任務(wù)。對于某些任務(wù),比如那些從圖像中提取深度的任務(wù),由于某些光學(xué)像差的深度依賴性,這可能有些意義。考慮到文獻(xiàn)的稀疏性,顯然需要在這個領(lǐng)域進(jìn)行進(jìn)一步的工作。需要注意的是,有一些與光學(xué)相關(guān)的元素,我們在本節(jié)中還沒有完全討論過。例如,照相機(jī)拍攝的圖像也會受到場景中的自然元素的影響,比如由陽光引起的太陽耀斑(如圖2所示)。在太陽耀斑[92]的場景中,偽影出現(xiàn)在鏡頭光圈附近。這在圖像的外圍產(chǎn)生不必要的模糊,并可能被計算機(jī)視覺系統(tǒng)錯誤。行人和汽車等演員可能會被太陽耀斑遮擋,導(dǎo)致漏發(fā)現(xiàn)。當(dāng)太陽在天空中較低時,這一點尤為重要,在這種情況下,太陽閃光是不可避免的,盡管在相機(jī)生產(chǎn)中努力去除它。 此外,還有一些正在進(jìn)行的計算機(jī)視覺光學(xué)系統(tǒng)的工作??紤]到需要使用高質(zhì)量和標(biāo)準(zhǔn)的高分辨率輸入圖像來訓(xùn)練DNNs和其他最近的方法(例如,視覺變壓器[93]和圖像變壓器[94]中的雙指令編碼器表示),用于汽車計算機(jī)視覺任務(wù)的光學(xué)鏡頭的設(shè)計尤其具有挑戰(zhàn)性。關(guān)于計算機(jī)視覺的鏡頭設(shè)計優(yōu)化的研究正在進(jìn)行中。在Yang等人的[86]中,任務(wù)驅(qū)動的端到端鏡頭設(shè)計方法作為比傳統(tǒng)鏡頭設(shè)計更可行的選擇。端到端光學(xué)設(shè)計是一個相對較新的研究領(lǐng)域,在應(yīng)用于包括目標(biāo)檢測在內(nèi)的常見計算機(jī)視覺任務(wù)時,已經(jīng)顯示出了良好的結(jié)果。然而,這些鏡頭的設(shè)計依賴于發(fā)展良好的端到端光學(xué)設(shè)計解決方案[86],[95],[96],[97]。然而,例如,任務(wù)鏡模型[86]在光學(xué)設(shè)計中顯示了許多潛在和未探索的領(lǐng)域,優(yōu)于使用傳統(tǒng)鏡頭設(shè)計方法開發(fā)的三種傳統(tǒng)鏡頭設(shè)計(即雙態(tài)、三態(tài)和四態(tài)都有68.8?FOV和f數(shù)關(guān)閉/2.8)。最近的一些工作顯示,采用使用人工智能作為計算機(jī)視覺性能設(shè)計策略的趨勢,如表二所示。增值在環(huán)繞視圖攝像機(jī)中的計算機(jī)視覺在前一節(jié)中,我們簡要地討論了單個光學(xué)偽影的影響。在本節(jié)中,我們將研究環(huán)繞攝像機(jī)的計算機(jī)視覺性能。這可以在woolave數(shù)據(jù)集上使用YOLOv7對象檢測算法的應(yīng)用程序來說明。從前一節(jié)中可以明顯看出,對于魚眼,光學(xué)偽影具有很強(qiáng)的空間變異性(在狹窄的FOV相機(jī)中,這種空間變異性通??梢员话踩睾雎裕?。 因此,或許整體性能指標(biāo)并不能讓我們?nèi)媪私怍~眼相機(jī)計算機(jī)視覺的性能情況。在本節(jié)中,我們也將簡要討論近期關(guān)于與空間相關(guān)的性能指標(biāo)的一些提議。 A. 計算機(jī)視覺性能計算機(jī)視覺研究是一個持續(xù)發(fā)展的領(lǐng)域,新的算法不斷被開發(fā)或優(yōu)化,以解決圖像中的感知問題。為了了解其發(fā)展速度,“你只需看一次”(You-Only-Look-Once,簡稱 YOLO)第 8 版(YOLOv8)[98] 在前一版本(即 YOLOv7 [99])發(fā)布大約 5 個月后就問世了。為了說明 YOLO 性能提升的速率,通過基準(zhǔn)模型對比來看,YOLOv7 在微軟 COCO(MS COCO)[100] 數(shù)據(jù)集上進(jìn)行訓(xùn)練時,其參數(shù)比 YOLOv4 [101] 少 75%,但能夠達(dá)到 66.7% 的平均精度(AP),比 YOLOv4 高出 1.5% [99]。每個 YOLO 版本發(fā)布的總體趨勢都是基于性能優(yōu)化,比如加速非極大值抑制(NMS),并保持此前的結(jié)構(gòu)改進(jìn),例如采用無錨框網(wǎng)絡(luò) [102]。 正如我們已經(jīng)看到的那樣,盡管當(dāng)下計算機(jī)視覺研究極具動態(tài)性,但針對第三節(jié)所討論的光學(xué)特性如何影響計算機(jī)視覺統(tǒng)計指標(biāo)的研究卻相對較少。正如布魯梅爾等人 [60] 所論述的,空間指標(biāo)是一種比統(tǒng)計指標(biāo)更具洞察力的方法(我們將在下一小節(jié)討論這些內(nèi)容)。據(jù)我們所知,到目前為止,還沒有針對魚眼視場角對這兩種指標(biāo)進(jìn)行更嚴(yán)謹(jǐn)對比分析的研究。這對該領(lǐng)域來說仍是一個有待解決的挑戰(zhàn)。不過,在此我們將對這一問題的復(fù)雜性予以說明。 圖 12 展示了在伍德斯科佩(WoodScape)樣本上運行 YOLOv7 推理的輸出結(jié)果。在從圖像中選取的感興趣區(qū)域(ROIs)內(nèi),對 YOLOv7 進(jìn)行了從零開始訓(xùn)練以及基于微軟 COCO 數(shù)據(jù)集的遷移學(xué)習(xí)。對比這兩種結(jié)果可以發(fā)現(xiàn),遷移學(xué)習(xí)在感興趣區(qū)域內(nèi)的誤報(FPs)更少,比如遺漏了垃圾桶和滑板車這類情況。從已識別出的真陽性(TPs)情況來看,遷移學(xué)習(xí)的交并比(IoUs)明顯更高,這表明其性能更佳。大多數(shù)交并比結(jié)果平均在 0.49 - 0.83 之間,對于小物體來說,這比通常情況下圖像中小物體往往會得到更低結(jié)果的表現(xiàn)要好 [103]。然而,YOLO 目前的統(tǒng)計數(shù)據(jù)并沒有太大意義,特別是就本文所討論的光學(xué)像差而言。展望未來,我們需要一個易用的平臺,能夠針對每種光學(xué)像差(尤其是魚眼圖像中的光學(xué)像差)細(xì)分具體指標(biāo)。YOLOv7 存在多處物體標(biāo)注錯誤的情況。例如,兩輛并排擺放的自行車,或者一個帶有四個輪子的綠色垃圾桶,在右側(cè)背景中都被標(biāo)注為 “車輛”。左側(cè)背景中的一排自行車也被檢測為車輛,而右側(cè)背景中的滑板車被錯誤地標(biāo)注為 “人”。這些誤報錯誤很可能(用霍伊姆(Hoiem)[104] 的術(shù)語來說)是由于相似性或背景混淆造成的。伍德斯科佩數(shù)據(jù)集中的真實標(biāo)注里并沒有 “滑板車” 或 “垃圾桶” 這類標(biāo)簽。魚眼圖像的目標(biāo)檢測錯誤本身就會受到光學(xué)像差的影響,正如近期文獻(xiàn) [6][44][53][62] 所示,場景中的物體是會發(fā)生變形的。模型不僅要處理前文討論過的光學(xué)像差,而且魚眼鏡頭還會根據(jù)場景位置使物體產(chǎn)生旋轉(zhuǎn)。觀察圖 12 中的自行車,在場景中它們幾乎都是垂直放置的(也就是說,它們立在地面上),但在魚眼圖像中,它們呈現(xiàn)出各種不同的朝向。任何模型都必須學(xué)習(xí)旋轉(zhuǎn)不變性,才能在魚眼環(huán)視攝像頭上有良好的表現(xiàn)。 除了光學(xué)和幾何效應(yīng)外,在車輛上使用魚眼攝像頭的一個實際局限在于,圖像的大部分內(nèi)容將由本車車身構(gòu)成,這可能會導(dǎo)致車身反光被誤認(rèn)作場景中的物體(例如,見圖 13)。最近,有人提出了一種帶有殘差網(wǎng)絡(luò) 50(Res-Net50)[74] 編碼器的簡單 U-Net [105] 架構(gòu),用于提取伍德斯科佩環(huán)視圖像中本車車身的區(qū)域,以避免不必要的計算和誤報檢測 [106]。 圖 12. 在伍德斯科佩(Woodscape)數(shù)據(jù)集的左側(cè)相機(jī)圖像上執(zhí)行了 YOLOv7 感興趣區(qū)域(ROIs)推理(用紅色框標(biāo)注)。 定性結(jié)果展示了從零開始訓(xùn)練(用橙色框標(biāo)注)和遷移學(xué)習(xí)(用綠色框標(biāo)注)的情況。請注意,在這兩種情況下都存在物體類型分類錯誤的情況。由于物體在圖像中的位置導(dǎo)致的其朝向問題,會使目標(biāo)檢測網(wǎng)絡(luò)產(chǎn)生混淆。注:遷移學(xué)習(xí)中所使用的預(yù)訓(xùn)練模型是在微軟 COCO(MS COCO)數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的。 圖 13. 由于環(huán)視攝像頭 [106] 中可見的反光,在車身表面檢測到了誤報(假陽性)情況。 布勞恩(Braun)等人 [107] 討論了利用汽車攝像頭考慮所有可能場景的困難之處??尚行允菫樵撔袠I(yè)構(gòu)建穩(wěn)健的計算機(jī)視覺模型的主要障礙之一,在這個行業(yè)中,需要實時收集數(shù)據(jù),以應(yīng)對在開發(fā)過程中未曾測試過的不斷變化的環(huán)境條件以及交通場景。存在大量數(shù)據(jù)集,包括伯克利深度駕駛(BDD100k)[54] 和基蒂(KITTI)[46] 數(shù)據(jù)集,它們涵蓋了道路上潛在的道路交通事件樣本,但這些數(shù)據(jù)僅僅代表了汽車領(lǐng)域中可能發(fā)生事件的一部分樣本??赡艽嬖谕耆煌那闆r或意外狀況,比如一年中舉辦節(jié)日活動擾亂預(yù)期交通流量的時候,或者出現(xiàn)計劃外道路施工的情況,這些都增加了交通的不可預(yù)測性。簡而言之,僅使用規(guī)模有限的真實世界數(shù)據(jù)集是不可能測試所有道路交通場景的。出于這個原因,在第五節(jié)中,我們將討論環(huán)視模擬系統(tǒng)的現(xiàn)狀。不過,首先我們將簡要討論一些新開發(fā)的考慮到圖像和場景空間變化性的計算機(jī)視覺指標(biāo)。 B. 新的空間變化性能指標(biāo)如前文所述,點擴(kuò)散函數(shù)(PSF)被用于對光學(xué)系統(tǒng)所生成圖像的模糊程度進(jìn)行建模。點擴(kuò)散函數(shù)能夠體現(xiàn)攝像系統(tǒng)的光學(xué)分辨率從圖像中心到邊緣的變化情況。然而,測量點擴(kuò)散函數(shù)并非易事。如前文提到的,點擴(kuò)散函數(shù)本質(zhì)上是攝像機(jī)的空間脈沖響應(yīng)。要測量點擴(kuò)散函數(shù),需要一個配備特定硬件(如激光器或特定場景目標(biāo))的場景 [108]。一種更簡單且更實用的空間分辨率測量方法是使用調(diào)制傳遞函數(shù)(MTF)[109],它是對攝像機(jī)空間頻率響應(yīng)的一種度量方式。實際上,存在一些無需特定硬件或目標(biāo)就能提取自然場景調(diào)制傳遞函數(shù)的機(jī)制 [110]。 在 [59] 中已經(jīng)對調(diào)制傳遞函數(shù)與計算機(jī)視覺性能之間的相關(guān)性進(jìn)行了研究,研究得出的結(jié)論是,調(diào)制傳遞函數(shù)并非計算機(jī)視覺性能的合適預(yù)測指標(biāo)。測試結(jié)果顯示,盡管使用了完全不同的采樣方法(即疊加(SP)法和等平面(ISO)法,采用面積為 320 像素 2 的塊),但使用庫克三片式鏡頭(Cooke Triplet)時,其光學(xué)性能特征差異非常小 [59]。 [59] 中確定的一種潛在策略是使用空間指標(biāo) [53][60]??臻g指標(biāo)是量化計算機(jī)視覺算法的一種有用方法,因為它們能夠報告在圖像內(nèi)的不同區(qū)域的性能測量??紤]到在魚眼相機(jī)中表現(xiàn)出的空間變化的光學(xué)像差,這一點特別有趣。提出的兩個關(guān)鍵指標(biāo)分別是空間召回指數(shù)(SRI)和空間精度指數(shù)(SPI),分別如(6)和(7)所述。這些空間變體概括了召回率和精度的統(tǒng)計度量,如名稱所示。在[59]中,這兩個指標(biāo)都被用于量化級聯(lián)掩模RCNN模型[111]的空間性能,例如在汽車場景中的分割。在每種情況下,通過為邊界框中的對象所占據(jù)的每個像素分配等效的統(tǒng)計值(即精度和召回率)來調(diào)整統(tǒng)計指標(biāo)。使用(6)和(7)的指標(biāo),觀察到級聯(lián)掩模RCNN模型的空間變化的光學(xué)性能和空間性能之間的相關(guān)性。SRI的規(guī)定為: 式中,(x,y)∈[T Pn∩Pn]為屬于第n個真正掩模和第k個地面真正掩模的所有像素。由?表示的所有TPs之和和所有地面事實之和的元素級除法,從而得到SRI度量。 同樣,SPI度量是通過對N個真陽性實例和N個真陽性和J個假陽性實例的和進(jìn)行元素級劃分來找到的。 式中,(x,y)∈[FP j]表示第j個假陽性實例,(x,y)∈[T Pn]表示第n個真陽性實例。請注意,在(6)和(7)中都使用了相同的分子。有關(guān)更多信息,請參閱原文[53],[60]。這些空間度量被用于BDD100k數(shù)據(jù)集的退化版本,其中應(yīng)用了△z=±1.25的離焦。研究了空間表現(xiàn)的差異 通過比較來自退化數(shù)據(jù)集與基線BDD100k數(shù)據(jù)集的結(jié)果。這被稱為空間性能下降(SRIdrop和SPIdrop): SRIdrop = SRIbase ? SRI△z (8) SPIdrop = SPIbase?SPI△z(9),其中SRIbase和SPIbase表示基線數(shù)據(jù)集的空間結(jié)果,SRI△z和SPI△z表示退化數(shù)據(jù)集的空間結(jié)果。 從[53]和[60]的實驗中可以進(jìn)行四個觀察結(jié)果: 1)發(fā)現(xiàn)△z=+1.25和△z=?1.25從87.21%下降到84.78%,△z=?1.25為82.72%。 2)對于負(fù)離焦(即△z=?1.25),空間性能下降向圖像的邊緣或邊緣增加。相反,當(dāng)△z=+1.25離焦時,性能下降向圖像中心增加,這表明不同F(xiàn)OV的統(tǒng)計指標(biāo)是不同的。 由于△z=±1.25之間的圖像質(zhì)量惡化,因此遺漏了3)地面真實實例。 4)最后,F(xiàn)Ps的數(shù)量不受降解的負(fù)面影響。 這兩項工作都證明了可以從這些指標(biāo)中獲得的額外見解,并且在考慮魚眼圖像中的光學(xué)偽影時,它們應(yīng)該成為分析的一部分。 五、環(huán)視模擬現(xiàn)在我們將把注意力轉(zhuǎn)向環(huán)視模擬。由于人們對魚眼攝像頭與計算機(jī)視覺相結(jié)合的理解存在不足(尤其是因缺乏可用的公開數(shù)據(jù)集),汽車模擬可被加以利用。然而,正如本節(jié)將要討論的那樣,汽車模擬缺少攝像頭的光學(xué)特性,而且汽車模擬也不存在標(biāo)準(zhǔn)化的感知算法流程。正如我們已經(jīng)討論過的,無論數(shù)據(jù)集規(guī)模有多大,其所涵蓋的拍攝場景總歸是有限的。此外,在汽車行業(yè)(包括自動駕駛領(lǐng)域)為訓(xùn)練人工智能應(yīng)用收集現(xiàn)實生活數(shù)據(jù)是一個耗時且昂貴的過程 [1][75]。伯克利深度駕駛(BDD100k)數(shù)據(jù)集 [54] 包含了從超過 5 萬次行程中收集的逾 10 萬個駕駛視頻,拍攝地點涵蓋紐約和舊金山灣區(qū)(以及其他地區(qū)),它是迄今為止發(fā)布的最大的汽車數(shù)據(jù)集之一。伍德斯科佩(Woodscape)數(shù)據(jù)集 [39] 有來自三個不同地點(美國、歐洲和中國)的 1 萬張公開發(fā)布的圖像,它是首個針對自動駕駛環(huán)視攝像頭的此類數(shù)據(jù)集。這些數(shù)據(jù)集雖然為訓(xùn)練用于研究的計算機(jī)視覺算法提供了合理數(shù)量的數(shù)據(jù),但它們也有局限性,即它們僅展示了現(xiàn)實世界中可能發(fā)生情況的一小部分。因此,對汽車場景模擬(包括模型驅(qū)動和數(shù)據(jù)驅(qū)動模擬器,它們被提議用于解決自動駕駛中的極端情況)的當(dāng)前趨勢進(jìn)行綜述(并展開一些討論)是很有意義的。在模擬的背景下,我們還會回顧第三節(jié)中提到的光學(xué)像差,并討論應(yīng)如何將它們與魚眼畸變模型相結(jié)合以實現(xiàn)真實感。 A. 模擬的合理性如前文所述,模擬缺少攝像頭的光學(xué)特性,但它有可能被視為將攝像頭設(shè)計與現(xiàn)有模擬工具相整合的一個研究方向。對于自動駕駛解決方案的開發(fā)為何需要模擬,其原因是相當(dāng)直觀的。不過,花些時間把這一點講清楚(或許是為了那些不太了解的讀者)仍是值得的。每當(dāng)發(fā)現(xiàn)一個未被所討論的公開數(shù)據(jù)集(或其他數(shù)據(jù)集)涵蓋的新交通場景時,就應(yīng)當(dāng)添加新信息,并按照給定的訓(xùn)練、驗證和測試比例重新劃分。例如,如果要將新數(shù)據(jù)添加到第四節(jié) A 部分圖 12 的實驗所涉及的伍德斯科佩數(shù)據(jù)集中,那么這些數(shù)據(jù)就需要按照(80% - 10% - 10%)的比例重新劃分,并且需要重新訓(xùn)練 YOLOv7。從長遠(yuǎn)來看,這效率會非常低下,特別是如果需要將具有不同鏡頭校準(zhǔn)的多種攝像頭模型納入數(shù)據(jù)集的話。因此,通過將模擬數(shù)據(jù)添加到現(xiàn)實世界數(shù)據(jù)中,計算機(jī)視覺在現(xiàn)實世界數(shù)據(jù)上的性能能夠得到提升。在現(xiàn)實世界圖像中缺乏用于訓(xùn)練計算機(jī)視覺的真實標(biāo)注數(shù)據(jù)的情況下,這也是可行的。例如,在撰寫本綜述時,合成伍德斯科佩(SynWoodscape)數(shù)據(jù)集 [90] 是唯一公開可用的、帶有逐像素光流真實標(biāo)注的合成魚眼數(shù)據(jù)集。對于原始的伍德斯科佩數(shù)據(jù)集而言,在真實場景中無法獲取光流真實標(biāo)注,因此合成數(shù)據(jù)被認(rèn)定為唯一可行的解決方案 [39]。作為合理的下一步,沈(Shen)的實驗 [79] 展示了利用合成伍德斯科佩數(shù)據(jù)集的真實標(biāo)注,在循環(huán)全對場變換(RAFT)[112] 光流算法上提升性能并糾正原始伍德斯科佩數(shù)據(jù)集中的錯誤光流的情況。表 I 表明,由于汽車模擬器的逼真性,合成數(shù)據(jù)可被用于模擬光學(xué)像差。然而,正如本節(jié)明確指出的那樣,退化的模擬數(shù)據(jù)和現(xiàn)實世界數(shù)據(jù)在性能表現(xiàn)上存在定量差異。因此,需要對計算機(jī)視覺算法進(jìn)行更全面的分析,而且此處展示的任何模擬結(jié)果絕不能代表確定性的分析。為了進(jìn)行全面分析,模擬必須朝著將攝像頭的光學(xué)特性與模擬相結(jié)合的方向發(fā)展。 然而,模擬中缺少現(xiàn)實世界的光學(xué)像差,這在針對現(xiàn)實世界優(yōu)化算法時是一個劣勢。在模型驅(qū)動模擬器的背景下,解決這一問題的唯一方法是在模擬器中實現(xiàn)鏡頭設(shè)計,這將自然地引入光學(xué)像差,并生成比以往更逼真的合成圖像。一種這樣的策略是將知名的 OpticStudio1 與 CARLA [113] 或 Unity 相結(jié)合,通過能夠持續(xù)改變鏡頭模型的能力為用戶提供靈活性,以此作為在模擬器內(nèi)部改變光學(xué)像差的一種方式。 截至目前,通過對魚眼數(shù)據(jù)進(jìn)行像素逆投影(到光線)、旋轉(zhuǎn)以及再投影(光線到像素)的數(shù)據(jù)增強(qiáng)操作,可將其作為一種創(chuàng)建用于訓(xùn)練計算機(jī)視覺算法的增強(qiáng)魚眼圖像的手段 [80][114]。然而,創(chuàng)建增強(qiáng)魚眼數(shù)據(jù)可能會以一種不太符合現(xiàn)實的方式影響圖像中光學(xué)像差的分布。此外,通過使用原始圖像進(jìn)行增強(qiáng),無法從增強(qiáng)數(shù)據(jù)中學(xué)習(xí)到新的鏡頭配置,因為這種增強(qiáng)只是對原始系統(tǒng)鏡頭配置的一種扭曲版本進(jìn)行建模。因此,增強(qiáng)魚眼數(shù)據(jù)不一定是考察計算機(jī)視覺光學(xué)性能表現(xiàn)的解決方案。如果要對原始數(shù)據(jù)進(jìn)行合成(或增強(qiáng))用于訓(xùn)練,那么原始數(shù)據(jù)集和經(jīng)過改變的數(shù)據(jù)集將始終只有一種特定的鏡頭配置。這可能會導(dǎo)致計算機(jī)視覺在某一種特定鏡頭配置上出現(xiàn)過擬合現(xiàn)象,這對于擴(kuò)展到不同的攝像頭是沒有幫助的。 解決數(shù)據(jù)問題的簡單方法是遍歷一整套攝像頭鏡頭。但由于以下三個原因,這是不可能實現(xiàn)的:
解決這個問題的一個辦法是通過改變鏡頭的光學(xué)參數(shù)進(jìn)行模擬,并考察其對計算機(jī)視覺性能的影響。就目前的研究而言,汽車模擬可按照圖 14 所示的層級結(jié)構(gòu)進(jìn)行分類,模擬既可以是模型驅(qū)動的,也可以是數(shù)據(jù)驅(qū)動的。 B. 模型驅(qū)動模擬器模型驅(qū)動模擬是指利用計算機(jī)程序,使用藍(lán)圖資源和網(wǎng)格矢量來設(shè)計場景和景觀以創(chuàng)建模擬的方式。正如穆奇(Mutsche)等人 [19] 所描述的那樣,模型驅(qū)動模擬與現(xiàn)代視頻游戲更為相似。如圖 14 所示,有多種模型驅(qū)動模擬器可供選擇。每個模擬器都設(shè)計有適用于自動駕駛的傳感器或多模態(tài)輸出(即攝像頭、雷達(dá)、激光雷達(dá)(LiDAR)等)。在自動駕駛領(lǐng)域,模型驅(qū)動模擬頗具挑戰(zhàn)性,主要是因為它呈現(xiàn)的是現(xiàn)實生活的一種人造且近乎完美的版本,而這種版本在現(xiàn)實中其實并不存在。在資源、建筑物和環(huán)境所使用的紋理方面存在明顯差異。例如,圖 15 中所描繪的道路瀝青比圖 12 中的路面要亮得不自然,這清楚地表明,盡管物體可能與現(xiàn)實生活中的相似,但當(dāng)前的汽車傳感器模擬器在紋理方面存在困難。盡管存在這些局限,但模擬在視覺質(zhì)量方面正在迅速改進(jìn)。虛幻引擎 5.2(UE5)的最新版本對場景中物體的外觀和質(zhì)感有了更多的控制,例如可在車輛的清漆表面施加灰塵效果。這些 視覺上的改進(jìn)表明,模型驅(qū)動的模擬正在穩(wěn)步向攝影現(xiàn)實主義的方向發(fā)展,至少在表面上是這樣。通過利用汽車模擬器,如CARLA [113],解決了監(jiān)督自動駕駛數(shù)據(jù)集中數(shù)據(jù)的稀缺問題。因此,如果有一種方法來結(jié)合真實數(shù)據(jù)和合成數(shù)據(jù),就有可能通過一系列的透鏡校準(zhǔn)來測量光學(xué)性能,以了解哪種透鏡組合是理想的 計算機(jī)視覺模型。特別是在環(huán)繞視圖相機(jī)的空間,一個模擬器,如卡拉與虛幻引擎[113]將有助于測試這些不同的場景結(jié)合魚眼失真。然而,卡拉不能原生地建模魚眼相機(jī)。 圖14。模擬層次結(jié)構(gòu)。 MATLAB道路運行器自定義映射可以導(dǎo)出到任何模型驅(qū)動的模擬器。與模型驅(qū)動的模擬器不同,VISTA使用真實生活中的數(shù)據(jù)集(例如,KITTI、NuScenes和Waymo)來生成相同環(huán)境下的模擬圖像或其他視點。此外,在VISTA模擬器中可用的傳感器(即RGB相機(jī)、3D激光雷達(dá)和事件相機(jī))也可以在模型驅(qū)動的模擬器中找到。 圖15。YOLOv7從頭開始進(jìn)行同步景觀訓(xùn)練,并對MVL樣本(綠框)進(jìn)行推理。 圖像的放大區(qū)域顯示用于目標(biāo)檢測的感興趣區(qū)域(roi)(紅色框)。比較情況見圖12。請注意,沒有機(jī)械漸暈(暗角)、人工照明(統(tǒng)一的顏色),以及用于失真的立方體地圖魚眼投影模型的輪廓(在圖像中心的立方體的暗輪廓。 為了克服這個問題,據(jù)作者所知,所有在卡拉模型中創(chuàng)建的魚眼模型都使用了一個中間的立方體映射來創(chuàng)建魚眼圖像[90],[115], 圖 16. 來自全方位景觀(OmniScape)數(shù)據(jù)集的左右視圖合成魚眼圖像 [115]。注意圖像中作為陰影出現(xiàn)的投影立方體的可見性。 圖 17. 將立方體貼圖圖像的像素映射到魚眼圖像 [90]。 在模擬器中創(chuàng)建五六個透視相機(jī)。立方體貼圖的每一面都有 90° 的視場角。然后將它們進(jìn)行后處理,生成魚眼圖像。[116][117],如圖 17 所示。然后可以使用任何魚眼模型將立方體貼圖映射到魚眼圖像上。例如,在 [115] 中,使用六立方體貼圖模型轉(zhuǎn)換了來自 CARLA 的 10000 張魚眼圖像數(shù)據(jù)集,如圖 16 所示。立方體貼圖圖像是使用 [118] 中的模型轉(zhuǎn)換為魚眼圖像的。合成伍德斯科佩(SynWoodscape)數(shù)據(jù)集采用了類似的方法,不過使用的是 [39] 中的四階多項式模型。然而,這種兩步生成魚眼圖像方法的一個主要缺點在于,由于最初的立方體貼圖映射,會出現(xiàn)立方體貼圖投影模型本身的淡淡暗色輪廓,例如在全方位景觀數(shù)據(jù)集中(圖 16)以及合成伍德斯科佩數(shù)據(jù)集中(圖 17)都能看到這種情況。 盡管合成數(shù)據(jù)缺乏真實感,但 YOLOv7 在識別合成伍德斯科佩數(shù)據(jù)集中的物體方面表現(xiàn)出奇地好(該數(shù)據(jù)集按照 80%:10%:10% 的比例劃分),其畸變程度與伍德斯科佩數(shù)據(jù)集相同(見圖 15)。最值得注意的是,即便只有相對較小的 2500 張圖像數(shù)據(jù)集,在交并比(IoU)閾值設(shè)定為 0.25 的情況下,它也能夠識別出非常小的行人。最近發(fā)布的一個名為 “本車運動模擬序列中的魚眼相機(jī)圖像和鳥瞰圖(Fisheye camera images and BEV maps from Simulated Sequences of Ego car Motion,簡稱 FB - SSEM)”[119] 的合成汽車環(huán)視數(shù)據(jù)集,是使用 Unity 游戲引擎創(chuàng)建的。這個數(shù)據(jù)集很有意思,因為它既有深度鳥瞰圖(Depth BEV)又有魚眼分割視圖,可用于多種計算機(jī)視覺算法,比如目標(biāo)檢測、分割以及軌跡預(yù)測(即預(yù)測場景中本車的位置)。由于 Unity 游戲引擎內(nèi)置了魚眼支持,值得注意的是,我們不會出現(xiàn)使用 CARLA 中立方體貼圖方法時產(chǎn)生的那些像差。不過,這也帶來了一個限制,即在 Unity 游戲引擎中,人們只能使用 Unity 源代碼中實現(xiàn)的投影模型來對魚眼相機(jī)進(jìn)行建模。如前文所述,人們可能會對多種魚眼投影模型感興趣 [1]。 算法需要多樣化的地圖才能更高效地學(xué)習(xí),因為僅從一張地圖或一個場景收集的信息會對這種特定交通場景存在偏向性。路跑者(RoadRunner)2 提供了一種解決方案,它是一款地圖編輯工具,旨在為諸如 CARLA 或 Unity 之類的模擬器創(chuàng)建汽車地圖。借助該工具,研究人員可以設(shè)計符合其自動駕駛應(yīng)用需求的自定義地圖。使用帶有不同道具、角色和景物的地圖也能拓寬魚眼數(shù)據(jù)集創(chuàng)建的可能性。 C. 數(shù)據(jù)驅(qū)動模擬器數(shù)據(jù)驅(qū)動模擬在模擬領(lǐng)域是一個相對尚未充分探索的領(lǐng)域,在該領(lǐng)域中,不是去設(shè)計模仿汽車場景真實感的計算機(jī)模型,而是可以對公開收集的數(shù)據(jù)集(如基蒂(KITTI)[46]、紐森斯(NuScenes)[120] 和威莫(Waymo)[121] 數(shù)據(jù)集)進(jìn)行合成以用于模擬,這樣生成的模擬會具有更逼真的外觀。目前正在構(gòu)建一個公開可用的接口,用于與這三個數(shù)據(jù)集進(jìn)行交互。3 在撰寫本文時,這些公開數(shù)據(jù)集的接口尚未在官方網(wǎng)站上發(fā)布。自動駕駛虛擬圖像合成與變換第二版(Virtual Image Synthesis and Transformation for Autonomy,簡稱 VISTA 2.0)[122] 目前具備適配不同傳感器系統(tǒng)(如 RGB、激光雷達(dá)(LiDAR)和基于事件的相機(jī))的能力。 像 CARLA 這類模擬器缺乏真實感,這就引發(fā)了一個問題,即盡管模型驅(qū)動模擬具有實用性和可行性,但從長遠(yuǎn)來看,它對于開發(fā)和測試是否可靠。這就是逼真模擬(如 VISTA 2.0)可能會發(fā)揮作用的地方 [122][123]。VISTA 是一種數(shù)據(jù)驅(qū)動模擬器,它能夠使其角色和虛擬環(huán)境適應(yīng)現(xiàn)實生活數(shù)據(jù)集中所呈現(xiàn)的情況。數(shù)據(jù)驅(qū)動模擬是模擬開發(fā)中一個相對較新的領(lǐng)域,到目前為止,它在自動駕駛的環(huán)視成像方面尚未得到驗證。 對諸如基蒂(KITTI)等公開數(shù)據(jù)集的適配,將為依照這些基準(zhǔn)實現(xiàn)創(chuàng)建自定義合成數(shù)據(jù)集提供優(yōu)勢。例如,使用伍德斯科佩數(shù)據(jù)集創(chuàng)建合成魚眼數(shù)據(jù)集 VISTA 會是一種生成合成魚眼數(shù)據(jù)的便捷方式,無需去了解模型驅(qū)動模擬器的復(fù)雜性。這對于針對傳統(tǒng)模擬器未涵蓋的場景以及提升整體測試質(zhì)量尤其有用。不過,就本文而言,需要重點指出的是,在發(fā)表之時,似乎還沒有計劃使用 VISTA 來轉(zhuǎn)換任何環(huán)視數(shù)據(jù)集。 VISTA 的優(yōu)勢在于,它能夠僅從一個場景中稀疏采樣的現(xiàn)實世界視角集生成無限組軌跡的局部視角。每個新生成的視角都是同一場景的不同視圖。在阿米尼(Amini)的實驗 [123] 中,VISTA 在視角增強(qiáng)方面的表現(xiàn)優(yōu)于其他三種自動駕駛技術(shù):(1) 領(lǐng)域隨機(jī)化(Domain Randomization)[124];(2) 仿真到現(xiàn)實領(lǐng)域適應(yīng)(Sim-to-Real Domain Adaption)[125];(3) 模仿學(xué)習(xí)(Imitation Learning)[126]。與其他自動駕駛策略不同的是,VISTA 不需要車道干預(yù),而且與模仿學(xué)習(xí)相比,其近乎碰撞的恢復(fù)率提高了 30%。 VISTA 算法按以下方式運行 [122]:
盡管數(shù)據(jù)驅(qū)動模擬看起來很強(qiáng)大,即便它還處于早期階段,但仍然存在一些明顯的像差問題。例如,如果仔細(xì)查看 [122] 中提供的示例,在模擬相機(jī)平移的情況下,生成的圖像會出現(xiàn)不真實的透視畸變。 D. 模擬中的光學(xué)像差雖然模擬器產(chǎn)生的數(shù)據(jù)可以增強(qiáng)計算機(jī)視覺的性能,但問題仍然是,鏡頭模型如何有效地轉(zhuǎn)化為虛擬世界中沒有鏡頭的模擬。當(dāng)然,數(shù)據(jù)驅(qū)動的模擬器提出了一個有趣的問題,即透鏡配置是否可以從真實的數(shù)據(jù)集上轉(zhuǎn)移,比如KITTI。然而,正如合成木景觀圖18所示,沒有證據(jù)表明光學(xué)偽影,如色差、散光(或者,事實上,任何顯著的PSF),或光暈。這些模擬器的設(shè)計并不是為了結(jié)合現(xiàn)實世界的光學(xué)系統(tǒng),而且通??梢詭硭鼈冏约旱膫斡埃ū热缤队傲⒎襟w的可見性)。在卡爾森等人中,[75]光學(xué)偽影(如色差)到虛擬的KITTI 和俠盜獵車手(GTA)[127]數(shù)據(jù)集。在圖19中可以看到來自GTA的結(jié)果圖像的示例說明。它在[75]中顯示,從基線(未增強(qiáng))和增強(qiáng)(即色差、模糊、噪聲等合成圖像)的結(jié)果,通過在訓(xùn)練中在合成圖像中均勻地添加光學(xué)偽影,與未增強(qiáng)的合成數(shù)據(jù)集相比,每個圖像更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(RCNN)模型形成得更好,平均平均精度(mAP)略有提高(見表I)。關(guān)于如何控制這些光學(xué)偽影在空間領(lǐng)域的應(yīng)用,特別是對于強(qiáng)魚眼透鏡,強(qiáng)光學(xué)像差是不均勻的。 總之,雖然圖形模擬似乎是一個可行的解決方案,可以覆蓋道路上不可預(yù)見的場景,但它并不是目前的整體解決方案,因為目前,模擬本身不能完全取代實際攝像機(jī)鏡頭[107]的真實性。 圖18。左側(cè)相機(jī)圖像顯示沒有橫向或縱向色差的證據(jù)。比較情況見圖6。還要注意,投影立方體在圖像中是一個陰影結(jié)構(gòu)。 圖19。GTA數(shù)據(jù)集與光學(xué)偽影應(yīng)用[75]。 六、結(jié)論 汽車環(huán)繞式攝像機(jī)已成為計算機(jī)視覺的一個利基研究領(lǐng)域。這項調(diào)查已經(jīng)確定了當(dāng)前在現(xiàn)實生活和模擬中訓(xùn)練計算機(jī)視覺系統(tǒng)的差距和局限性,無論是在廣泛的FOV攝像機(jī)。特別地,這項調(diào)查已經(jīng)討論了魚眼光學(xué)系統(tǒng),即固有的影響的光學(xué)效應(yīng)這些系統(tǒng),以及在模擬中添加光學(xué)效應(yīng)的概念。 關(guān)于環(huán)繞視圖系統(tǒng)的計算機(jī)視覺性能,在空間中很少研究人工光學(xué)偽影的影響。一些計算機(jī)視覺任務(wù),如那些需要深度提取的任務(wù),在存在某些偽影時似乎得到了改進(jìn)。因此,人們可能會認(rèn)為,對于這些任務(wù),設(shè)計一個具有大量這些偽影的相機(jī)系統(tǒng)可能是有益的。然而,這并沒有顯示在這個領(lǐng)域的結(jié)果,其中只檢查了殘留的偽影。這些光學(xué)偽影造成的缺陷可能會迅速損害這些任務(wù)的性能,如果它們太大。無論如何,其他任務(wù)幾乎肯定會受到光學(xué)偽影的負(fù)面影響。很清楚的是,社區(qū)要完全理解光學(xué)偽影對計算機(jī)視覺性能的影響,還需要做更多的工作,特別是對于環(huán)繞視圖魚眼相機(jī),設(shè)計上的挑戰(zhàn)意味著這些偽影可能是重要的。 從這個調(diào)查中,可以識別出環(huán)繞視圖模擬調(diào)節(jié)器中的兩個限制。首先,流行的模擬器缺乏對現(xiàn)實世界的鏡頭的模擬。幾何畸變模型應(yīng)用于模擬,引入魚眼畸變。然而,真實的魚眼圖像不僅受到失真的影響,而且受到廣泛的光學(xué)效應(yīng)的影響,正如已經(jīng)討論過的那樣。此外,只能將光學(xué)效應(yīng)應(yīng)用于模擬器外部的模擬圖像,這是一個問題,因為即使它可以在模擬器之外間接實現(xiàn),項目也幾乎沒有機(jī)會實現(xiàn)再現(xiàn)性。其次,正如在第五節(jié)的討論中所指出的,自動駕駛?cè)狈φ鎸嵉暮湍M的魚眼數(shù)據(jù)集。這阻礙了環(huán)繞視圖感知系統(tǒng)的發(fā)展,目前的模擬數(shù)據(jù)可能不適合訓(xùn)練,部分原因是缺乏光學(xué)效應(yīng)。 [1] V. R. Kumar案, C. Eising, C. 張明,“自動駕駛的全景魚眼相機(jī)感知:概述、調(diào)查和挑戰(zhàn)”,IEEE研究。知識翻譯。系統(tǒng),第24卷,第4頁。3638–3659, Apr.2023. [2] J. Janai,F(xiàn). Guney, A. 貝爾公司,和 A. 蓋格,“自動駕駛汽車的計算機(jī)視覺:問題、數(shù)據(jù)集和最新技術(shù)”,發(fā)現(xiàn)。趨勢計算。圖可見的。,第12卷。1–3, pp.1–308, 2020. [3] C.休斯,M.格拉文,瓊斯和P.丹尼,“汽車應(yīng)用的廣角相機(jī)技術(shù):評論”,IET Inter。翻譯。系統(tǒng),第3卷,第1期,2009年第19頁。 [4] Y.-C。劉,K.-Y。林和y。陳,“車輛周圍監(jiān)控的鳥瞰視覺系統(tǒng),機(jī)器人視覺”,機(jī)器人視覺,G.薩默和R.克萊特,等。德國柏林:施普林格,2008年,頁。207–218. 海姆伯格,張建民,“自動停車系統(tǒng)中的計算機(jī)視覺:設(shè)計、實現(xiàn)與挑戰(zhàn)”,圖片論文。匯編。,第68卷,第3頁。2017年12月88-101日。 [6] L.鄧,楊m,李h,李t, B. 胡錦濤,和 C. 王,“基于限制性可變形卷積的道路場景語義分割”,IEEE Trans。知識翻譯。系統(tǒng),第21卷,第10頁。42020年10月4350-4362。 [7] L.葉希維,J.霍根, B. 迪根,瑜伽曼先生, C. 休斯和P.丹尼,“自動駕駛中視覺感知的ISP參數(shù)調(diào)整的概述和實證分析”,J. Imag.,第5卷,第10期,第78頁,2019年9月。 [8] D. 莫洛伊等人,《圖像信號處理(ISP)調(diào)校對目標(biāo)檢測的影響》,《影像雜志》,第 9 卷,第 12 期,第 260 頁,2023 年 11 月。 35] D. 維爾納?沃爾夫、M. 烏爾里希、A. 布勞恩,《人工智能算法的擋風(fēng)玻璃光學(xué)質(zhì)量:屈光力和調(diào)制傳遞函數(shù)(MTF)并不足夠》,2023 年,預(yù)印本編號:2305.14513。 [58] J. M. 薩西安,《棱鏡和光柵產(chǎn)生的像差》,《應(yīng)用光學(xué)》,第 39 卷,第 1 期,第 34 頁,2000 年。 《IEEE 智能交通系統(tǒng)匯刊》,第 25 卷,第 9 期,2024 年 9 月 [84] J. 德爾梅里科、T. 切斯萊夫斯基、H. 雷貝克、M. 費斯勒、D. 斯卡拉穆扎,《我們準(zhǔn)備好進(jìn)行自主無人機(jī)競賽了嗎?蘇黎世聯(lián)邦理工學(xué)院第一人稱視角無人機(jī)競賽數(shù)據(jù)集》,收錄于《國際機(jī)器人與自動化會議(ICRA)論文集》,2019 年 5 月,第 6713 - 6719 頁。 |
|