小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

干貨匯總:一文讀懂計算機視覺,干貨滿滿記得收藏

 新用戶0118F7lQ 2022-07-21 發(fā)布于湖南

從此不迷路

計算機視覺研究院
Image

Image

公眾號IDComputerVisionGzq

學(xué)習(xí)群掃碼在主頁獲取加入方式

計算機視覺研究院專欄

作者:Edison_G

計算機視覺(Computer Vision),通常簡稱CV,是一個通過技術(shù)幫助計算機“看到”并“看懂”圖像的研究領(lǐng)域,例如使計算機理解照片或視頻的內(nèi)容。

1

 前言

計算機視覺(Computer Vision),通常簡稱CV,是一個通過技術(shù)幫助計算機“看到”并“看懂”圖像的研究領(lǐng)域,例如使計算機理解照片或視頻的內(nèi)容。

這篇文章將對計算機視覺進行整體介紹。本文章共分為六個部分,分別是:

·計算機視覺為什么重要

·什么是計算機視覺

·計算機視覺的基本原理

·計算機視覺的典型任務(wù)

·計算機視覺在日常生活中的應(yīng)用場景

·計算機視覺面臨的挑戰(zhàn) 


2

 計算機視覺為什么重要

在生理學(xué)上,視覺(Vision)的產(chǎn)生都始于視覺器官感受細胞的興奮,并于視覺神經(jīng)系統(tǒng)對收集到的信息進行加工之后形成。我們?nèi)祟愅ㄟ^視覺來直觀地了解眼前事物的形體和狀態(tài),大部分人依靠視覺來完成做飯、越過障礙、讀路牌、看視頻以及無數(shù)其他任務(wù)。事實上,如果不是盲人這類特殊群體,絕大多數(shù)人對外界信息的獲取都是通過視覺完成的,而這個占比高達80%以上——這個比例并不是沒有根據(jù)的,著名實驗心理學(xué)家赤瑞特拉(Treicher)曾通過大量的實驗證實:人類獲取的信息的83%來自視覺,11%來自聽覺,剩下的6%來自嗅覺、觸覺、味覺。所以,對于人類來說,視覺無疑是最重要的一種感覺。

不僅人類是“視覺動物”,對于大多數(shù)動物來說,視覺也都起到十分重要的作用。通過視覺,人和動物感知外界物體的大小、明暗、顏色、動靜,獲得對機體生存具有重要意義的各種信息,通過這些信息能夠得知,周圍的世界是怎樣的,以及如何和世界交互。


Image

 
而在計算機視覺出現(xiàn)之前,圖像對于計算機來說是黑盒的狀態(tài)。
一張圖像對于計算機來說只是一個文件、一串數(shù)據(jù)。計算機并不知道圖片里的內(nèi)容到底是什么,只知道這張圖片是什么尺寸,占多少內(nèi)存大小,什么格式的等等。

Image 

 
如果計算機、人工智能想要在現(xiàn)實世界發(fā)揮重要作用,就必須看懂圖片!
因此,半個世紀以來,計算機科學(xué)家一直在想辦法讓計算機也擁有視覺,從而產(chǎn)生了“計算機視覺”這個領(lǐng)域。

Image 

網(wǎng)絡(luò)的迅速發(fā)展也令計算機視覺變得尤為重要。下圖是2020年以來網(wǎng)絡(luò)上新增數(shù)據(jù)量的走勢圖?;疑珗D形是結(jié)構(gòu)化數(shù)據(jù),藍色圖形是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖片和視頻)??梢院苊黠@的發(fā)現(xiàn),圖片和視頻的數(shù)量正在以指數(shù)級的速度瘋狂增長。

Image


互聯(lián)網(wǎng)由文本和圖像組成。搜索文本相對簡單,但為了搜索圖像,算法需要知道圖像包含的內(nèi)容。在很長的一段時間內(nèi),人類沒有足夠的技術(shù)來理解圖像和視頻的內(nèi)容,只能依靠人工標注來獲取圖像或視頻的描述。如何能讓計算機更好地理解這些圖像信息,便是當今計算機技術(shù)面臨的一大挑戰(zhàn)。為了充分利用圖像或視頻數(shù)據(jù),需要讓計算機“查看”圖像或視頻,并理解內(nèi)容。

 

3

 什么是計算機視覺

計算機視覺是人工智能領(lǐng)域的一個重要分支,簡單來說,它要解決的問題就是:讓計算機看懂圖像或者視頻里的內(nèi)容。
比如:
圖片里的寵物是貓還是狗?
圖片里的人是老張還是老王?
視頻里的人在做什么事情?
更進一步的說,計算機視覺就是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等,并進一步做圖形處理,得到更適合人眼觀察或傳送給儀器檢測的圖像。作為一個科學(xué)學(xué)科,計算機視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取高層次信息的人工智能系統(tǒng)。從工程的角度來看,它尋求利用自動化系統(tǒng)模仿人類視覺系統(tǒng)來完成任務(wù)。
計算機視覺的最終目標是使計算機能像人那樣通過視覺觀察和理解世界,具有自主適應(yīng)環(huán)境的能力。但能真正實現(xiàn)計算機能夠通過攝像機感知這個世界卻是非常之難,因為雖然攝像機拍攝的圖像和我們平時所見是一樣的,但對于計算機來說,任何圖像都只是像素值的排列組合,是一堆死板的數(shù)字。如何讓計算機從這些死板的數(shù)字里面讀取到有意義的視覺線索,是計算機視覺應(yīng)該解決的問題。
 

4

 計算機視覺的基本原理

用過相機或手機的都知道,計算機擅長拍出有驚人保真度和細節(jié)的照片,從某種程度上來說,計算機的人工“視覺”比人類與生自來的視覺能力強多了。但正像我們平日所說的“聽見不等于聽懂”一樣,“看見”也不等于“看懂”,要想讓計算機真正地“看懂”圖像,那就不是一件簡單的事情了。
圖像是一個大像素網(wǎng)格,每個像素有顏色,顏色是三種基色的組合:紅,綠,藍。通過組合三種顏色的強度——即叫做RGB值,我們可以得到任何顏色。
最簡單的、最適合拿來入門的計算機視覺算法是:跟蹤一個有顏色的物體,比如一個粉色的球,我們首先記下球的顏色,保存最中心像素的RGB值,然后給程序喂入圖像,讓程序找最接近這個顏色的像素。算法可以從左上角開始,檢查每個像素,計算和目標顏色的差異。檢查了每個像素后,最貼近的一部分像素,很可能就是球所在的像素。這個算法并不限制于在這單張圖片上運行,我們可以把算法運行在視頻的每一幀圖像上,跟蹤球的位置。當然,因為光線、陰影和其他因素的影響,球的顏色會有變化,不會和我們存的RGB值完全一樣,但會很接近。不過在一些極端的情況下,比如晚上進行足球比賽,追蹤效果就可能會非常差;而且如果其中一隊的球衣顏色和球的顏色一樣,算法就完全“暈了”。因此,除非環(huán)境可以嚴格控制,這類顏色跟蹤算法很少會被真正投入使用。
而如今更多使用的計算機視覺算法一般都會涉及“深度學(xué)習(xí)”(Deep Learning)的方法和技術(shù),其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)因為其優(yōu)越的性能,使用最為廣泛。由于“深度學(xué)習(xí)”所涉及的知識過于廣泛,本篇就不對其進行更詳細的敘述了。如想了解更多關(guān)于“深度學(xué)習(xí)”的相關(guān)知識,不妨看下AI入門課程——《英特爾? OpenVINO?工具套件初級課程》。它從AI的基本概念開始,介紹人工智能與視覺應(yīng)用的相關(guān)知識,幫助用戶快速理解英特爾?OpenVINO?工具套件的基本概念及應(yīng)用場景。整個課程包含了視頻的處理,深度學(xué)習(xí)的相關(guān)知識,人工智能應(yīng)用的推理加速,以及英特爾?OpenVINO?工具套件的Demo演示,由淺入深,一步一步帶你掌握深度學(xué)習(xí)。 

5

 計算機視覺的典型任務(wù)


  • 圖像分類
圖像分類是根據(jù)圖像的語義信息對不同類別圖像進行區(qū)分,是計算機視覺的核心,是物體檢測、圖像分割、物體跟蹤、行為分析、人臉識別等其他高層次視覺任務(wù)的基礎(chǔ)。
例如下圖,通過圖像分類,計算機識別到圖像中有人(person)、樹(tree)、草地(grass)、天空(sky)。
 

Image

 
圖像分類在許多領(lǐng)域都有著廣泛的應(yīng)用,如:安防領(lǐng)域的人臉識別和智能視頻分析等,交通領(lǐng)域的交通場景識別,互聯(lián)網(wǎng)領(lǐng)域基于內(nèi)容的圖像檢索和相冊自動歸類,醫(yī)學(xué)領(lǐng)域的圖像識別等。
 
  • 目標檢測
目標檢測任務(wù)的目標是給定一張圖像或是一個視頻幀,讓計算機找出其中所有目標的位置,并給出每個目標的具體類別。
如下圖,以識別和檢測人為例,用邊框標記圖像中所有人的位置。

Image

 
而在多類別目標檢測中,一般使用不同顏色的邊框?qū)z測到的不同物體的位置進行標記,如下圖所示。 

Image

 
  • 語義分割
語義分割是計算機視覺中的基本任務(wù),在語義分割中我們需要將視覺輸入分為不同的語義可解釋類別。它將整個圖像分成像素組,然后對像素組進行標記和分類。例如,我們可能需要區(qū)分圖像中屬于汽車的所有像素,并把這些像素涂成藍色。如下圖,把圖像分為人(紅色)、樹木(深綠)、草地(淺綠)、天空(藍色)標簽。
Image
 
·實例分割
實例分割是目標檢測和語義分割的結(jié)合,在圖像中將目標檢測出來(目標檢測),然后對每個像素打上標簽(語義分割)。對比上圖、下圖可見,如以人為目標,語義分割不區(qū)分屬于相同類別的不同實例(所有人都標為紅色),實例分割區(qū)分同類的不同實例(使用不同顏色區(qū)分不同的人)。

Image

 
·目標追蹤
目標跟蹤是指對圖像序列中的運動目標進行檢測、提取、識別和跟蹤,獲得運動目標的運動參數(shù),進行處理與分析,實現(xiàn)對運動目標的行為理解,以完成更高一級的檢測任務(wù)。

Image

 

6

 計算機視覺在日常生活中的應(yīng)用場景

計算機視覺的應(yīng)用場景非常廣泛,下面列舉幾個生活中常見的應(yīng)用場景。
 
· 門禁、支付寶上的人臉識別
 

Image

 
· 停車場、收費站的車牌識別
 

Image


 
· 上傳視頻到網(wǎng)站或APP時的風(fēng)險識別
 

Image

 
· 抖音等APP上的各種自拍道具(需要先識別出人臉的位置)
 

Image

 

7

 計算機視覺面臨的挑戰(zhàn)

目前,計算機視覺技術(shù)發(fā)展迅速,已具備初步的產(chǎn)業(yè)規(guī)模。未來計算機視覺技術(shù)的發(fā)展主要面臨以下挑戰(zhàn):
一是如何在不同的應(yīng)用領(lǐng)域和其他技術(shù)更好的結(jié)合,計算機視覺在解決某些問題時可以廣泛利用大數(shù)據(jù),已經(jīng)逐漸成熟并且可以超過人類,而在某些問題上卻無法達到很高的精度;
二是如何降低計算機視覺算法的開發(fā)時間和人力成本,目前計算機視覺算法需要大量的數(shù)據(jù)與人工標注,需要較長的研發(fā)周期以達到應(yīng)用領(lǐng)域所要求的精度與耗時;
三是如何加快新型算法的設(shè)計開發(fā),隨著新的成像硬件與人工智能芯片的出現(xiàn),針對不同芯片與數(shù)據(jù)采集設(shè)備的計算機視覺算法的設(shè)計與開發(fā)也是挑戰(zhàn)之一。
 

8

 結(jié)語

計算機視覺作為人工智能細分領(lǐng)域中發(fā)展最快、應(yīng)用最為廣泛的技術(shù)之一,它如同人工智能的“眼睛”,為各行各業(yè)捕捉和分析更多信息。隨著算法的更迭、硬件算力的升級、數(shù)據(jù)的大爆發(fā),以及未來5G技術(shù)發(fā)展帶來的高速網(wǎng)絡(luò),計算機視覺在應(yīng)用方面也將會有更加廣闊的發(fā)展空間,讓我們拭目以待吧!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多