分割一切模型SAM首篇全面綜述：28頁、200 篇參考文獻(xiàn)

天承辦公室 2023-05-23 發(fā)布于江蘇

展開全文

機(jī)器之心報(bào)道

機(jī)器之心編輯部

作為首個(gè)全面介紹基于 SAM 基礎(chǔ)模型進(jìn)展的研究，本文聚焦于 SAM 在各種任務(wù)和數(shù)據(jù)類型上的應(yīng)用，并討論了其歷史發(fā)展、近期進(jìn)展，以及對(duì)廣泛應(yīng)用的深遠(yuǎn)影響。

人工智能（AI）正在向 AGI 方向發(fā)展，這是指人工智能系統(tǒng)能夠執(zhí)行廣泛的任務(wù)，并可以表現(xiàn)出類似于人類的智能水平，狹義上的 AI 就與之形成了對(duì)比，因?yàn)閷I(yè)化的 AI 旨在高效執(zhí)行特定任務(wù)。可見，設(shè)計(jì)通用的基礎(chǔ)模型迫在眉睫。基礎(chǔ)模型在廣泛的數(shù)據(jù)上訓(xùn)練，因而能夠適應(yīng)各種下游任務(wù)。最近 Meta 提出的分割一切模型（Segment Anything Model，SAM）突破了分割界限，極大地促進(jìn)了計(jì)算機(jī)視覺基礎(chǔ)模型的發(fā)展。

SAM 是一個(gè)提示型模型，其在 1100 萬張圖像上訓(xùn)練了超過 10 億個(gè)掩碼，實(shí)現(xiàn)了強(qiáng)大的零樣本泛化。許多研究人員認(rèn)為「這是 CV 的 GPT-3 時(shí)刻，因?yàn)?SAM 已經(jīng)學(xué)會(huì)了物體是什么的一般概念，甚至是未知的物體、不熟悉的場(chǎng)景（如水下、細(xì)胞顯微鏡）和模糊的情況」，并展示了作為 CV 基本模型的巨大潛力。

為了充分了解 SAM，來自香港科技大學(xué)（廣州）、上海交大等機(jī)構(gòu)的研究者對(duì)其進(jìn)行了深入研究并聯(lián)合發(fā)表論文《 A Comprehensive Survey on Segment Anything Model for Vision and Beyond 》。

論文地址：https:///pdf/2305.08196.pdf

作為首個(gè)全面介紹基于 SAM 基礎(chǔ)模型進(jìn)展的研究，該論文聚焦于 SAM 在各種任務(wù)和數(shù)據(jù)類型上的應(yīng)用，并討論了其歷史發(fā)展、近期進(jìn)展，以及對(duì)廣泛應(yīng)用的深遠(yuǎn)影響。

本文首先介紹了包括 SAM 在內(nèi)的基礎(chǔ)模型的背景和術(shù)語，以及對(duì)分割任務(wù)有重要意義的最新方法；

然后，該研究分析并總結(jié)了 SAM 在各種圖像處理應(yīng)用中的優(yōu)勢(shì)和限制，包括軟件場(chǎng)景、真實(shí)世界場(chǎng)景和復(fù)雜場(chǎng)景，重要的是，該研究得出了一些洞察，以指導(dǎo)未來的研究發(fā)展更多用途廣泛的基礎(chǔ)模型并改進(jìn) SAM 的架構(gòu)；

最后該研究還總結(jié)了 SAM 在視覺及其他領(lǐng)域的應(yīng)用。

下面我們看看論文具體內(nèi)容。

SAM 模型概覽

SAM 源自于 2023 年 Meta 的 Segment Anything (SA) 項(xiàng)目。該項(xiàng)目發(fā)現(xiàn)在 NLP 和 CV 領(lǐng)域中出現(xiàn)的基礎(chǔ)模型表現(xiàn)出較強(qiáng)的性能，研究人員試圖建立一個(gè)類似的模型來統(tǒng)一整個(gè)圖像分割任務(wù)。然而，在分割領(lǐng)域的可用數(shù)據(jù)較為缺乏，這與他們的設(shè)計(jì)目的不同。因此，如圖 1 所示，研究者將路徑分為任務(wù)、模型和數(shù)據(jù)三個(gè)步驟。

SAM 架構(gòu)如下所示，主要包含三個(gè)部分：圖像編碼器；提示編碼器；以及掩碼解碼器。

在對(duì) SAM 有了初步認(rèn)知后，接下來該研究介紹了 SAM 用于圖像處理。

SAM 用于圖像處理

這部分主要分場(chǎng)景進(jìn)行介紹，包括：軟件場(chǎng)景、真實(shí)場(chǎng)景以及復(fù)雜場(chǎng)景。

軟件場(chǎng)景

軟件場(chǎng)景需要對(duì)圖像編輯和修復(fù)進(jìn)行操作，例如移除對(duì)象、填充對(duì)象和替換對(duì)象。然而，現(xiàn)有的修復(fù)工作，如 [99]、[100]、[101]、[102]，需要對(duì)每個(gè)掩碼進(jìn)行精細(xì)的注釋以達(dá)到良好的性能，這是一項(xiàng)勞動(dòng)密集型的工作。SAM [20] 可以通過簡單的提示如點(diǎn)或框來生成準(zhǔn)確的掩碼，可以幫助輔助圖像編輯場(chǎng)景。

Inpaint Anything (IA) [39] 設(shè)計(jì)了一個(gè)流程，通過結(jié)合 SAM 的優(yōu)勢(shì)、最先進(jìn)的圖像修復(fù)器 [99]，以及 AI 生成的內(nèi)容模型 [103]，來解決與修復(fù)相關(guān)的問題。這個(gè)流程如圖 3 所示。對(duì)于對(duì)象移除，該流程由 SAM 和最先進(jìn)的修復(fù)器組成，如 LaMa [99]。用戶的點(diǎn)擊操作被用作 SAM 的提示，以生成對(duì)象區(qū)域的掩碼，然后 LaMa 使用 corrosion 和 dilation 操作進(jìn)行填充。對(duì)于對(duì)象的填充和替換，第二步使用像 Stable Diffusion (SD) [103] 這樣的 AI 生成的內(nèi)容模型，通過文本提示用新生成的對(duì)象填充選定的對(duì)象。

一個(gè)類似的想法也可以在 Edit Everything [40] 中看到，如圖 4 所示，該方法允許用戶使用簡單的文本指令編輯圖像。

真實(shí)場(chǎng)景

研究者表示 SAM 具有協(xié)助處理許多真實(shí)世界場(chǎng)景的能力，例如真實(shí)世界的物體檢測(cè)、物體計(jì)數(shù)以及移動(dòng)物體檢測(cè)場(chǎng)景。最近，[108] 對(duì) SAM 在多種真實(shí)世界分割場(chǎng)景（例如，自然圖像、農(nóng)業(yè)、制造業(yè)、遙感和醫(yī)療健康場(chǎng)景）中的性能進(jìn)行了評(píng)估。該論文發(fā)現(xiàn)，在像自然圖像這樣的常見場(chǎng)景中，它具有優(yōu)秀的泛化能力，而在低對(duì)比度的場(chǎng)景中，它的效果較差，而且在復(fù)雜場(chǎng)景中需要強(qiáng)大的先驗(yàn)知識(shí)。

例如，在民用基礎(chǔ)設(shè)施缺陷評(píng)估的應(yīng)用中，[42] 利用 SAM 來檢測(cè)混凝土結(jié)構(gòu)中的裂縫，并將其性能與基線 U-Net [109] 進(jìn)行比較。裂縫檢測(cè)過程如圖 6 所示。結(jié)果顯示，SAM 在檢測(cè)縱向裂縫方面表現(xiàn)優(yōu)于 UNet，這些裂縫更可能在正常場(chǎng)景中找到類似的訓(xùn)練圖像，而在不常見的場(chǎng)景，即剝落裂縫方面，SAM 的表現(xiàn)不如 U-Net。

使用 SAM 和 U-Net 進(jìn)行裂紋檢測(cè)的過程。圖摘自原論文 [42]。

與裂縫檢測(cè)中的復(fù)雜圖像案例不同，由于隕石坑的形狀主要集中在圓形或橢圓形，所以使用 SAM 作為檢測(cè)工具來進(jìn)行隕石坑檢測(cè)更為合適。隕石坑是行星探索中最重要的形態(tài)特征之一，檢測(cè)和計(jì)數(shù)它們是行星科學(xué)中一個(gè)重要但耗時(shí)的任務(wù)。盡管現(xiàn)有的機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺工作成功地解決了隕石坑檢測(cè)中的一些特定問題，但它們依賴于特定類型的數(shù)據(jù)，因此在不同的數(shù)據(jù)源中無法很好地工作。

在 [110] 中，研究者提出了一種使用 SAM 對(duì)不熟悉對(duì)象進(jìn)行零樣本泛化的通用隕石坑檢測(cè)方案。這個(gè)流程使用 SAM 來分割輸入圖像，對(duì)數(shù)據(jù)類型和分辨率沒有限制。然后，它使用圓形 - 橢圓形指數(shù)來過濾不是圓形 - 橢圓形的分割掩碼。最后，使用一個(gè)后處理過濾器來去除重復(fù)的、人為的和假陽性的部分。這個(gè)流程在當(dāng)前領(lǐng)域顯示出其作為通用工具的巨大潛力，并且作者還討論了只能識(shí)別特定形狀的缺點(diǎn)。

復(fù)雜場(chǎng)景

除了上述的常規(guī)場(chǎng)景，SAM 是否能解決復(fù)雜場(chǎng)景（如低對(duì)比度場(chǎng)景）中的分割問題，也是一個(gè)有意義的問題，可以擴(kuò)大其應(yīng)用范圍。為了探索 SAM 在更復(fù)雜場(chǎng)景中的泛化能力，Ji 等人 [22] 在三種場(chǎng)景，即偽裝動(dòng)物、工業(yè)缺陷和醫(yī)學(xué)病變中，定量地將其與尖端模型進(jìn)行比較。他們?cè)谌齻€(gè)偽裝物體分割（COS）數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，即擁有 250 個(gè)樣本的 CAMO [116]，擁有 2026 個(gè)樣本的 COD10K [117]，以及擁有 4121 個(gè)樣本的 NC4K [118]。并將其與基于 Transformer 的模型 CamoFormer-P/S [119] 和 HitNet [120] 進(jìn)行比較。結(jié)果表明，SAM 在隱蔽場(chǎng)景中的技巧不足，并指出，潛在的解決方案可能依賴于在特定領(lǐng)域的先驗(yàn)知識(shí)的支持。在 [29] 中也可以得出同樣的結(jié)論，作者在上述同樣的三個(gè)數(shù)據(jù)集上，將 SAM 與 22 個(gè)最先進(jìn)的方法在偽裝物體檢測(cè)上進(jìn)行比較。

Cao 等人 [115] 提出了一個(gè)新的框架，名為 Segment Any Anomaly + (SAA+)，用于零樣本異常分割，如圖 7 所示。該框架利用混合提示規(guī)范化來提高現(xiàn)代基礎(chǔ)模型的適應(yīng)性，從而無需領(lǐng)域特定的微調(diào)就能進(jìn)行更精確的異常分割。作者在四個(gè)異常分割基準(zhǔn)上進(jìn)行了詳細(xì)的實(shí)驗(yàn)，即 VisA [122]，MVTecAD [123]，MTD [124] 和 KSDD2 [125]，并取得了最先進(jìn)的性能。

He 等人 [126] 提出了第一種方法（WSSAM），利用 SAM 進(jìn)行弱監(jiān)督隱蔽物體分割，解決了使用稀疏注釋數(shù)據(jù)分割與周圍環(huán)境融為一體的物體的挑戰(zhàn)（參見圖 8）。所提出的 WSSAM 包括基于 SAM 的偽標(biāo)記和多尺度特征分組，以提高模型學(xué)習(xí)和區(qū)分隱蔽物體和背景。作者發(fā)現(xiàn)，僅使用 scribble 監(jiān)督 [127]，SAM 就可以生成足夠好的分割掩碼，以訓(xùn)練分割器。

更多模型和應(yīng)用：視覺及其他

視覺相關(guān)

首先是醫(yī)療成像。醫(yī)療圖像分割的目的是展示相應(yīng)組織的解剖或病理結(jié)構(gòu)，可以用于計(jì)算機(jī)輔助診斷和智能臨床手術(shù)。

下圖 10 為醫(yī)療圖像 SAM 概覽，包括了計(jì)算機(jī)斷層掃描（CT）圖像、磁共振成像（MRI）圖像、結(jié)腸鏡檢查圖像、多格式圖像、H&E 染色組織切片圖像等。

其次是視頻。在計(jì)算機(jī)視覺領(lǐng)域，視頻目標(biāo)跟蹤（VOT）和視頻分割被認(rèn)為是至關(guān)重要且不可或缺的任務(wù)。VOT 涉及在視頻幀中定位特定目標(biāo)，然后在整個(gè)視頻的其余部分對(duì)其進(jìn)行跟蹤。因此，VOT 具有各種實(shí)際應(yīng)用，例如監(jiān)視和機(jī)器人技術(shù)。

SAM 在 VOT 領(lǐng)域做出了杰出貢獻(xiàn)。參考文獻(xiàn) [46] 中引入了跟蹤一切模型（Track Anything Model, TAM），高效地在視頻中實(shí)現(xiàn)了出色的交互式跟蹤和分割。下圖 11 為 TAM pipeline。

此外另一個(gè)跟蹤模型為 SAMTrack，詳見參考文獻(xiàn) [172]。SAMTrack 是一種視頻分割框架，可通過交互和自動(dòng)的方法實(shí)現(xiàn)目標(biāo)跟蹤和分割。下圖 12 為 SAMTrack 的 pipeline。

下圖 13 為一個(gè)輕量級(jí) SAM 指導(dǎo)的優(yōu)化模塊（SAM-guided refinement module, SEEM），用于提升現(xiàn)有方法的性能。

接著是數(shù)據(jù)注釋。SAMText [180] 是一種用于視頻中場(chǎng)景文本掩碼注釋的可擴(kuò)展 pipeline。它利用 SAM 在大型數(shù)據(jù)集 SAMText-9M 上生成掩碼注釋，該數(shù)據(jù)集包含超過 2,400 個(gè)視頻片段和超過 900 萬個(gè)掩碼注釋。

此外參考文獻(xiàn) [143] 利用現(xiàn)有遙感目標(biāo)檢測(cè)數(shù)據(jù)集和以數(shù)據(jù)為中心的機(jī)器學(xué)習(xí)模型 SAM，構(gòu)建了一個(gè)大規(guī)模遙感圖像分割數(shù)據(jù)集 SAMRS，包含目標(biāo)分類、位置和實(shí)例信息，可以用于語義分割、實(shí)例分割和目標(biāo)檢測(cè)研究。

視覺之外

首先是 3D 重建。除了實(shí)現(xiàn)細(xì)粒度的 3D 分割，SA3D [183] 可以用于 3D 重建。利用 3D 掩碼網(wǎng)格，研究者可以確定物體在 3D 中的占用空間，并以各種方式重建。下圖 14 為 SA3D 的整體 pipeline。

參考文獻(xiàn) [186] 提出了一種新的對(duì)象移除 pipeline ORNeRF，它使用單個(gè)視圖上的點(diǎn)或文本 prompt 從 3D 場(chǎng)景中移除對(duì)象。通過使用點(diǎn)投影策略將用戶注釋快速傳播給所有視圖，該方法使用比以往工作更少的時(shí)間實(shí)現(xiàn)了更好的性能。下圖 15 為 ORNeRF 的框架。

其次是非歐式域。為了為不同任務(wù)處理不同特征維度，下圖 16 中所示的 SNA 方法引入了一個(gè)專門的可精簡圖卷積層。該層可以根據(jù)輸入的特征維度進(jìn)行通道的動(dòng)態(tài)激活或停用。

然后是機(jī)器人。下圖 17 展示了 Instruct2Act [190] 的整體流程。在感知部分，預(yù)定義的 API 用于訪問多個(gè)基礎(chǔ)模型。SAM [20] 準(zhǔn)確定位候選對(duì)象，CLIP [13] 對(duì)它們進(jìn)行分類。該框架利用基礎(chǔ)模型的專業(yè)知識(shí)和機(jī)器人能力將復(fù)雜的高級(jí)指令轉(zhuǎn)換為精確的策略代碼。

接著是視頻文本定位。下圖 18 展示了一種為視頻文本定位任務(wù)生成掩碼注釋的可擴(kuò)展高效解決方案 SAMText [180]。通過將 SAM 模型應(yīng)用于邊界框注釋，它可以為大規(guī)模視頻文本數(shù)據(jù)集生成掩碼注釋。

此外還有圖像字幕。Wang et al. [44] 提出了一種用于可控圖像字幕的方法 Caption Anything（CAT），如下圖 20 所示，CAT 的框架將多模態(tài)控制引入圖像字幕，呈現(xiàn)符合人類意圖的各種視覺焦點(diǎn)和語言風(fēng)格。

視聽也有涉及。參考文獻(xiàn) [45] 的視聽定位和分割方法用于學(xué)習(xí)可以對(duì)齊音頻和視覺信息的跨模態(tài)表示，具體如下圖 21 所示。AV-SAM 利用預(yù)訓(xùn)練音頻編碼器和圖像編碼器中跨音頻和視覺特征的像素級(jí)視聽融合來聚合跨模態(tài)表示。然后將聚合的跨模態(tài)特征輸入 prompt 編碼器和掩碼解碼器，生成最終的視聽分割掩碼。

最后是多模態(tài)視覺和開放詞匯交互分割。參考文獻(xiàn) [44] 的方法如下圖 22 所示，旨在使用僅文本輸入的 CLIP 策略來完全取代手動(dòng)點(diǎn)（manual point）。這種方法提供來自文本輸入的像素級(jí)結(jié)果，可以很容易地轉(zhuǎn)換為 SAM 模型的點(diǎn) prompt。

結(jié)語

本文首次全面回顧了計(jì)算機(jī)視覺及其他領(lǐng)域 SAM 基礎(chǔ)模型的研究進(jìn)展。首先總結(jié)了基礎(chǔ)模型（大語言模型、大型視覺模型和多模態(tài)大模型）的發(fā)展歷史以及 SAM 的基本術(shù)語，并著重于 SAM 在各種任務(wù)和數(shù)據(jù)類型中的應(yīng)用，總結(jié)和比較了 SAM 的并行工作及其后續(xù)工作。研究者還討論 SAM 在廣泛的圖像處理應(yīng)用中的巨大潛力，包括軟件場(chǎng)景、真實(shí)世界場(chǎng)景和復(fù)雜場(chǎng)景。

此外，研究者分析和總結(jié)了 SAM 在各種應(yīng)用程序中的優(yōu)點(diǎn)和局限性。這些觀察結(jié)果可以為未來開發(fā)更強(qiáng)大的基礎(chǔ)模型和進(jìn)一步提升 SAM 的穩(wěn)健性和泛化性提供一些洞見。文章最后總結(jié)了 SAM 在視覺和其他領(lǐng)域的大量其他令人驚嘆的應(yīng)用。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分割一切模型SAM首篇全面綜述：28頁、200 篇參考文獻(xiàn)