后臺(tái)有很多人問如何入門CV,這篇是舊文重發(fā),文章很長(zhǎng),翻譯自某外文博客,時(shí)間有點(diǎn)久,但道理是相通的,非常值得一讀!這篇文章從一個(gè)剛剛開始計(jì)算機(jī)視覺研究的初學(xué)者的角度,詳細(xì)探討了這個(gè)領(lǐng)域的文獻(xiàn)、專家學(xué)者、研究組、博客,并重點(diǎn)說明了如何開始研究,如何選擇方向,如何看論文、實(shí)現(xiàn)代碼、調(diào)試代碼等,并詳細(xì)說明了研究計(jì)算機(jī)視覺應(yīng)該如何學(xué)習(xí)機(jī)器學(xué)習(xí)等。是初入該領(lǐng)域的博士、學(xué)者、欲深入研究的開發(fā)者的非常值得詳細(xì)考察和收藏的參考。由于微信公眾號(hào)限制,原文很多超鏈接無法點(diǎn)擊,點(diǎn)擊閱讀原文,可以查看完整文章。 頂級(jí)會(huì)議和期刊第一梯隊(duì)頂級(jí)會(huì)議: CVPR, ECCV, ICCV, NIPS, IJCAI 高聲譽(yù)第二梯隊(duì)的頂級(jí)會(huì)議: BMVC 著名的第二梯隊(duì)頂級(jí)會(huì)議: ICIP, ACCV, ICPR, SIGGRAPH 頂級(jí)期刊: PAMI, IJCV 著名期刊: CVIU, IVC Microsoft Academic Research 列出的 頂級(jí)會(huì)議 Ranks from Core Ranks from Arnetminer source 列出了近幾年的會(huì)議論文 journal 列出了期刊的影響因子 來自 EigenFactor 的期刊分?jǐn)?shù)
頂級(jí)專家作者微軟學(xué)術(shù)Microsoft Academic authors list 谷歌學(xué)術(shù)Google Scholar List HOG 特征作者 Navneet Dalal Jitendra Malik. Gary Bradski OpenCV創(chuàng)始締造者 David Lowe SIFT特征發(fā)明人 List of vision people (but not necessarily top authors) Computer Vision: Algorithms and Applications by Richard Szeliski
頂級(jí)研究組Check them here Check others here CMU: Robotics everywhere. LEAR ImageLab Group Machine Vision Laboratory at UWE ALCOR Centre for Image Processing and Analysis (CIPA) ImageMetry VISILAB GRIMA – Machine Intelligence Group Vision and Sensing Research Group – University of Canberra CAVE – Computer Vision Laboratory at Columbia University Computational Biomedicine Laboratory (CBL), University of Houston Vision Lab – University of Antwerp.
Visual Geometry Group, Oxford UK (Andrew Zisserman’s group) LEAR, Grenoble, France (Cordelia Schmid’s group) WILLOW, Paris France (Jean Ponce’s group) CVLAB EPFL, Laussane Switzerland (Pascal Fua’s group) Computer vision group ETH, Zurich Switzerland (Luc Van Gool’s group) UCB (Malik, Darrel, Efros) UMD (Davis, Chellappa, Jacobs, Aloimonos, Doermann) UIUC (Forsyth, Hoiem, Ahuja, Lazebnik) UCSD (Kriegman) UT-Austin (Aggarwal, Grauman) Stanford (Fei-Fei Li, Savarese) USC (Nevatia, Medioni) Brown (Felzenszwalb, Hays, Sudderth) NYU (Rob Fergus) UC-Irvine (Ramanan, Fowlkes) UNC (Tamara Berg, Alex Berg, Jan-Michael Frahm) Columbia (Belhumeur, Shree Nayar, Shih-Fu Chang) Laboratory for Computational Intelligence, University of British Columbia, Vancouver (David Lowe’s group) Computer Science Department, University of Toronto, Toronto (Deep Learning fame Hilton, Srivastava, Salakhutdinov) Centre for Vision Research, York University, Toronto
博客Tomasz Malisiewicz blog The Serious Computer Vision Blog Research blog of Roman Shapovalov Computer Vision Talks Steves Computer Vision Blog The Computer Vision Computer Vision Blog Andy’s Computer Vision and Machine Learning Blog Computer Vision Models solem’s vision blog uncannyvision blog Blogs on Computer Vision, Machine Vision and Image Processing All About Computer Vision Open Computer Vision
CV工業(yè)界的實(shí)驗(yàn)室和創(chuàng)業(yè)公司Microsoft and Google IBM Research NEC Labs America Acute3D (Sophia Antipolis, France) was founded in 2011. Bubbli ShoppTag Oculusai Videosurf (video search) Willow garage (robotics) Sportvision (sports broadcast) Intelli-vision (surveillance) Gauss Surgical Adobe’s Advanced Technology Labs Dolby
如何開始研究我喜歡把計(jì)算機(jī)視覺問題分為兩種類型 一些研究方向設(shè)計(jì)到人工智能基于學(xué)習(xí)的方法。比如圖像分類,OCR,視頻跟蹤等 大多數(shù)你所能看到的論文都是這種方向的. 學(xué)習(xí)意味著我們有很多數(shù)據(jù) (e.g. 比如ImageNet,100萬圖像和他們的標(biāo)簽),然后學(xué)習(xí)這種模式 (e.g. 比如分類圖像中的字符) 對(duì)這種類型的方向,你必須學(xué)習(xí)很多機(jī)器學(xué)習(xí)的知識(shí)
其他研究方向涉及到不需要學(xué)習(xí)的算法,比如3D重建,光流計(jì)算,全景拼接(52CV君評(píng)論:其實(shí)現(xiàn)在3D重建和光流估計(jì)已經(jīng)有很多基于學(xué)習(xí)的算法了,可在本站搜索關(guān)鍵字獲取相關(guān)信息)
使用課本和課程一種直接的方法是從書本開始 不要被困在書本里。請(qǐng)記住,你想開始研究。嘗試了解基礎(chǔ)知識(shí)并進(jìn)行一些編碼。保持你的眼睛定睛在對(duì)你來說最近有趣的工作上。 嘗試找出不同的研究視覺問題..看哪個(gè)更令你興奮。 然后你要進(jìn)入下一個(gè)階段: “從論文開始”
從論文開始從頂級(jí)會(huì)議和期刊的論文開始。其他低級(jí)別的會(huì)議可能會(huì)有虛假結(jié)果并浪費(fèi)您的時(shí)間。 CVPR保留重要會(huì)議和許多論文的清單。 使用文件知道什么是可用的軌道.. Wiki也會(huì)有幫助 使用Google Scholar查找特定問題的綜述。綜述可以節(jié)省大部分時(shí)間。 考慮最近過去3年的論文。假設(shè)我們?cè)?014年,考慮2011年,然后是2012年,然后是2013年。不要從2014年開始。 收集文件,使標(biāo)題看起來相關(guān)。搜索他們找到是否有源代碼。嘗試從源代碼文件開始。
開始將是艱難的,因?yàn)槟阌龅搅嗽S多你不知道的術(shù)語和工具。耐心一點(diǎn)。谷歌搜索他們,在論壇上提問,如Quora或Stackoverflow。 嘗試找到一個(gè)特定研究方向(例如3D重建,點(diǎn)云,場(chǎng)景理解,物體識(shí)別,大圖像數(shù)據(jù),多目標(biāo)跟蹤,圖像描述符理論等)。查看wiki或會(huì)議論文目錄以查找您感興趣的內(nèi)容。 使用會(huì)議來了解某方向論文或使用Google學(xué)術(shù)搜索 關(guān)注那些研究工作更權(quán)威的的研究人員。關(guān)注高引用次數(shù)文獻(xiàn)。 首選從有運(yùn)行軟件的研究工作開始,節(jié)省你的時(shí)間。 為了學(xué)習(xí)一些工程實(shí)現(xiàn)方向,請(qǐng)為您選擇一個(gè)簡(jiǎn)單而漂亮的論文然后實(shí)現(xiàn)它。復(fù)現(xiàn)論文的結(jié)果。在這樣做的時(shí)候,會(huì)有很多問題彈出,很多時(shí)候你將不得不做一些假設(shè),因?yàn)槟闼吹降恼撐闹型ǔ2⒉皇撬械亩继岬搅?。還有許多實(shí)現(xiàn)細(xì)節(jié),比如如何有效地實(shí)現(xiàn)這一點(diǎn)不會(huì)被列出。您將了解諸如性能,實(shí)驗(yàn)等問題??蛇x擇的論文比如:Viola Jones face detection, Christophe Lampert Efficient Subwindow Search, or Brian Fulkerson superpixel neighborhoods 等。實(shí)現(xiàn)具有完整代碼的論文是一個(gè)非常好的主意,以便您可以檢查自己的實(shí)現(xiàn)有什么問題。 對(duì)于你自己的研究工作,要嘗試使用現(xiàn)有開源代碼,而不是一切都從頭開始,不要重復(fù)造輪子! 如果論文沒有公開代碼,你可以嘗試聯(lián)系作者是否可以得到代碼。 如果理解幾次嘗試?yán)斫庖黄撐娜匀缓茈y,就轉(zhuǎn)到另一片論文?;蛘邠Q一個(gè)方向。(這是你在尋找研究方向的時(shí)候) 這也許對(duì)你有用,最佳獲獎(jiǎng)?wù)撐募?/p> 研究生研討課程取決于論文。
從代碼開始從代碼到紙張,是從一些可用的代碼開始理解你所研究的問題 找一個(gè)開源庫,然后嘗試它,比如OpenCV 有很多不錯(cuò)的書關(guān)于OpenCV Youtube 上也有不少視頻: https://www./playlist?v=MfnEtFAWooQ&list=PLo1wvPF7fMxQ_SXibg1azwBfmTFn02B9O https://www./playlist?v=xEnPZ78queI&list=PLDqunwM5dbtIbEuXv1rB7OFBoRzEF8GH6 https://www./playlist?v=IwsHuSITs3c&list=PLTgRMOcmRb3PvUZpNTRsdkzVuZ4z_s444 https://www./playlist?v=cgo0UitHfp8&list=PLvwB65U8V0HHCEyW2UTyOJym5FsdqfbHQ
學(xué)習(xí)Matlab并使用它來編寫初始解決方案原型(因?yàn)樗容^快的能夠開發(fā)出原型) Helpful: Join OpenCV yahoo group and read comments & messages. 選擇一個(gè)有意思的toy項(xiàng)目并實(shí)現(xiàn)它
機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是從數(shù)據(jù)中學(xué)習(xí)的核心算法。 對(duì)于計(jì)算機(jī)視覺而言,特別是初學(xué)者,最開始的時(shí)候你不需要學(xué)習(xí)太多機(jī)器學(xué)習(xí)。你可以像黑箱一樣使用他們就夠了 你想要在這個(gè)領(lǐng)域成長(zhǎng)夠多,你就要關(guān)注更多的細(xì)節(jié)。 最開始,您只需要學(xué)習(xí)一些基礎(chǔ)知識(shí)+最近使用的算法。 每4-5年,都有一些算法在文獻(xiàn)中流行 建立該領(lǐng)域的基礎(chǔ)知識(shí): 了解最近使用的算法是什么 嘗試閱讀有關(guān)這些算法的更多信息 嘗試做一些編碼。搜索流行的工具并使用它們 例如對(duì)于SVM(libsvm),CNN(Caffe) 要么詢問一些專業(yè)人士 或在您的問題中下載2-3年范圍內(nèi)的頂級(jí)會(huì)議論文。瀏覽它們并且知道他們使用了什么學(xué)習(xí)算法。 總的來說應(yīng)該是很少重復(fù)的人。多關(guān)注他們 然后
現(xiàn)在,您可以回到前面論文/書籍并繼續(xù)閱讀,當(dāng)涉及ML時(shí),您會(huì)發(fā)現(xiàn)主題更加容易。 更加進(jìn)深 請(qǐng)參閱Andrew Nn Standford Machine Learning Course 其他網(wǎng)絡(luò)上的視頻和書籍 請(qǐng)參閱Mostafa博士的”Learning From Data“視頻。 學(xué)習(xí)Waleed博士的CS395: Pattern Recognition 。 教科書:Pattern Recognition and Machine Learning 要更多地了解學(xué)習(xí)如何發(fā)生? 了解更多算法主題和背后的數(shù)學(xué)
一些推薦論文積累經(jīng)驗(yàn)在獲得博士學(xué)位時(shí),您通常會(huì)學(xué)會(huì)處理所有這些問題 您如何高效可靠地解決研究中的所有問題?為了了解所有這些問題,您基本上必須成為研究小組的成員幾年。如果你在一個(gè)專注于物體檢測(cè)的實(shí)驗(yàn)室里,你周圍會(huì)有很多學(xué)生在解決相同的問題,在深夜與同學(xué)交談是我知道你可以獲得專業(yè)知識(shí)的唯一途徑了解:多交流打聽。 您如何調(diào)試代碼并有效調(diào)整參數(shù)?最佳實(shí)踐是看更高級(jí)學(xué)生的優(yōu)秀代碼。在開始調(diào)試機(jī)器學(xué)習(xí)算法之前,您應(yīng)該總體上熟悉調(diào)試。調(diào)試機(jī)器學(xué)習(xí)算法不像調(diào)試快速排序。如果你修正了所有的錯(cuò)誤,你的算法可能仍然不起作用,可能是因?yàn)槠渌麊栴},比如缺乏數(shù)據(jù),模型復(fù)雜度太低等等。坦率地說,調(diào)試視覺/學(xué)習(xí)算法更像是藝術(shù)而不是科學(xué)。 調(diào)整您未編寫的算法或軟件庫的參數(shù)并非易事。您應(yīng)該學(xué)會(huì)如何正確使用驗(yàn)證數(shù)據(jù),了解如何運(yùn)行完整的訓(xùn)練/評(píng)估流程,并準(zhǔn)備好進(jìn)行交叉驗(yàn)證。 你如何用個(gè)人電腦實(shí)現(xiàn)大規(guī)模的問題?(對(duì)于圖像/視頻分析,可能會(huì)有大量的數(shù)據(jù)超出你的內(nèi)存,如何處理它?)一般來說,你不會(huì)實(shí)現(xiàn)一個(gè)大的在一臺(tái)PC上出現(xiàn)問題。我在研究生院學(xué)到的最有價(jià)值的技能之一就是如何在群集中并行計(jì)算。沒有群集的大學(xué)/實(shí)驗(yàn)室很難與擁有大中型集群的大學(xué)競(jìng)爭(zhēng)。這也是許多教授加入Google和Facebook等組織的原因之一 —他們擁有數(shù)據(jù)和計(jì)算資源,可以讓高級(jí)研究人員處理越來越多的大型問題。 如果您無法訪問大型集群,那么我會(huì)建議您在Google這樣的地方申請(qǐng)實(shí)習(xí)。你會(huì)在那里學(xué)到很多東西(至少我是)。雖然你無法將自己編寫的任何代碼帶回家,但是你會(huì)學(xué)到很多課程,這些課程會(huì)影響你作為學(xué)生的生活。如果你必須在一臺(tái)機(jī)器上工作,你將不得不將數(shù)據(jù)集切割成更小的塊,并逐漸將塊加載到內(nèi)存中。
材料在線視頻和會(huì)談在線課程:離散推理和人工視覺學(xué)習(xí) UCF計(jì)算機(jī)視覺視頻講座:視頻 EGGN 512 – 計(jì)算機(jī)視覺視頻 視頻講座包括許多計(jì)算機(jī)視覺。 技術(shù)會(huì)談 對(duì)于一些會(huì)議,如ICML2011,他們主持視頻中的大部分(全部)會(huì)談。其他人,如CVPR2011,只有選定的視頻。這是了解大量近期工作而不依賴閱讀報(bào)告的好方法。 CVPR2010,他們?yōu)闀?huì)談主持了很多視頻。他們也有很多夏季學(xué)校的ML視頻。 Wired,IEEE Spectrum,TechCrunch,TED,BigThink,Sixty Symbols,GISCIA,http://www./user/GoogleTechTalks,
課程計(jì)算機(jī)視覺簡(jiǎn)介(斯坦福大學(xué);李飛飛教授)相當(dāng)標(biāo)準(zhǔn)的CV課程。 計(jì)算機(jī)視覺(UIUC; Forsyth教授)相當(dāng)標(biāo)準(zhǔn)的CV課程。 視覺中的基于學(xué)習(xí)的方法(CMU; Alexei Efros教授)我學(xué)習(xí)了很多關(guān)于紋理(紋理)識(shí)別和一些使用花式ML技術(shù)的最先進(jìn)的方法。 基礎(chǔ)物體識(shí)別和場(chǎng)景理解 (CMU; Antonio Torralba教授)這是一個(gè)持續(xù)不斷的課程,側(cè)重于更高層次的視覺。第一場(chǎng)講座看起來很有前途,但我不確定班上的其他人會(huì)是什么樣子。 機(jī)器視覺MIT 課程 計(jì)算機(jī)視覺麻省理工學(xué)院課程進(jìn)展
計(jì)算機(jī)視覺計(jì)算機(jī)視覺:模型,學(xué)習(xí)和推理 – 這是一個(gè)很好的(免費(fèi)的!)預(yù)印本,主要傾向于機(jī)器學(xué)習(xí)。每個(gè)部分都提供了一套涉及的模型或機(jī)器學(xué)習(xí)工具的背景以及推理方法。開始是對(duì)必要概率和機(jī)器學(xué)習(xí)概念的深入概述。我剛開始閱讀本書,但對(duì)于獲取零件模型和形狀模型等概述非常有用。 計(jì)算機(jī)視覺:算法和應(yīng)用 – Richard Szeliski。一本調(diào)查書。這是更傳統(tǒng)的教科書,在許多目前的CV課程中都有引用,如李飛飛的上述內(nèi)容以及我校目前的CV課程(JHU)。 計(jì)算機(jī)視覺中的多視圖幾何 – Richard Hartley和Andrew Zisserman 計(jì)算機(jī)視覺現(xiàn)代方法 – David Forsyth和Jean Ponce 視覺對(duì)象識(shí)別:人工智能和機(jī)器學(xué)習(xí)綜合講座 – Kristen Grauman和Bastian Leibe 由Trucco和Verri介紹3D計(jì)算機(jī)視覺 Digital Image Processing 3rd Edition by Gonzales and Woods 圖像分析的實(shí)用算法 http://www./books
計(jì)算機(jī)視覺和圖像處理編碼用Python編程計(jì)算機(jī)視覺 – Jan Erik Solem 學(xué)習(xí)OpenCV – Gray Bradski和Adrian Kaehler 數(shù)字圖像處理基礎(chǔ):Matlab中的實(shí)例 – Chris Solomon和Toby Breckon
人類視覺視覺:視覺信息的人類表現(xiàn)和處理的計(jì)算調(diào)查 – David Marr 邁向視覺信息理論的步驟:主動(dòng)感知,信號(hào) – 符號(hào)轉(zhuǎn)換以及傳感與控制之間的相互作用 – Stefano Soatto 基本視覺:視覺感知介紹 – 羅伯特斯諾登,彼得湯普森和湯姆Troscianko 用Python編程計(jì)算機(jī)視覺
其他CV論文是來自視覺會(huì)議的近期計(jì)算機(jī)視覺論文集。 視覺識(shí)別和機(jī)器學(xué)習(xí)暑期學(xué)校,格勒諾布爾,2012 我會(huì)參加一些機(jī)器學(xué)習(xí)課程,并參加信號(hào)處理/時(shí)頻分析/小波分析的一些課程。
精彩的應(yīng)用程序永不停止圖像學(xué)習(xí)(NEIL) 這是一個(gè)計(jì)算機(jī)程序運(yùn)行24X7瀏覽互聯(lián)網(wǎng)從互聯(lián)網(wǎng)數(shù)據(jù)提取視覺信息。它得到了谷歌和國(guó)防部海軍研究辦公室的支持。 它目前識(shí)別對(duì)象 – 對(duì)象關(guān)系,對(duì)象 – 屬性關(guān)系,場(chǎng)景 – 對(duì)象關(guān)系,場(chǎng)景 – 屬性關(guān)系
人臉檢測(cè) 網(wǎng)球追蹤 與深度相機(jī)的身體姿勢(shì)估計(jì) 微軟展示的3D掃描技術(shù),Heads Turn 顏色變化顯示人血流量 只有公共Flickr照片才能在3D中重建整個(gè)城市 自主物體,例如自駕車 Predator對(duì)象跟蹤 Kinect Fusion – 從移動(dòng)Kinect實(shí)時(shí)3D模型構(gòu)建 Veebot,一個(gè)采集血液樣本的機(jī)器人 Harp:檢測(cè)激光的中斷以播放音符(簡(jiǎn)單,強(qiáng)大)。Piano。 Google照片搜索 Physical security PTAM是AR的重要應(yīng)用 谷歌眼鏡 谷歌街景:在街道層面捕捉世界 Word Lens:基于增強(qiáng)現(xiàn)實(shí)相機(jī)的語言翻譯應(yīng)用程序。手機(jī)攝像頭可以識(shí)別一種語言的文本,并顯示用另一種語言翻譯的文字。我發(fā)現(xiàn)關(guān)于這個(gè)應(yīng)用程序的最好的東西是翻譯是在沒有連接到互聯(lián)網(wǎng)的情況下實(shí)時(shí)執(zhí)行的! CarSafe:該應(yīng)用程序使用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)算法來監(jiān)視和檢測(cè)駕駛員是否疲倦或分心,同時(shí)使用兩臺(tái)獨(dú)立的攝像機(jī)跟蹤道路狀況。本文提供了一些細(xì)節(jié)和結(jié)果:CarSafe:駕駛員安全應(yīng)用程序,可在智能手機(jī)上使用雙攝像頭檢測(cè)危險(xiǎn)駕駛行為 iOnRoad:這是一款使用Qualcomm FastCV移動(dòng)優(yōu)化計(jì)算機(jī)視覺庫的移動(dòng)駕駛輔助系統(tǒng)應(yīng)用程序。它使用智能手機(jī)的本機(jī)相機(jī)和傳感器來執(zhí)行各種功能。該應(yīng)用程序具有先進(jìn)的功能,如前方碰撞警告,車道偏離警告,車頭監(jiān)控和汽車定位器。 Jumio:用于在線和移動(dòng)簽出的實(shí)時(shí)信用卡掃描和驗(yàn)證應(yīng)用程序。他們還在許多國(guó)家提供護(hù)照和執(zhí)照的身份證明。
令人興奮的算法HOG特征+線性SVM對(duì)物體檢測(cè)非常有用。 基于部件的HOG + SVM 基于范例的HOG + SVM
RANSAC(RANdom SAmple Consensus) – 簡(jiǎn)單/強(qiáng)大/魯棒 霍夫變換算法 基于KD森林的近似最近鄰算法 馬爾可夫隨機(jī)場(chǎng) 2D圖像拼接,圖像挖掘,帶有SIFT算法的紋理對(duì)象的三維重建 SURF Viola-Jones:人臉檢測(cè) 形狀上下文 可變形零件模型 同時(shí)定位和映射 Simultaneous localization and mapping
其他工作機(jī)會(huì)數(shù)據(jù)集軟件我的清單 http://www./software http://www./blog/
截止日期有用的網(wǎng)站Ad-hocksICCV Marr獎(jiǎng) 計(jì)算機(jī)視覺和商業(yè)應(yīng)用 ImageNet挑戰(zhàn) PASCAL挑戰(zhàn) Imageworld用于發(fā)布計(jì)算機(jī)視覺,圖像分析和醫(yī)學(xué)圖像分析領(lǐng)域的全球事件和學(xué)術(shù)工作機(jī)會(huì)。 機(jī)器人比賽 什么是Deep Learning仍然無法解決的一些計(jì)算機(jī)視覺任務(wù)? Awesome Computer Vision Awesome Deep Vision Emails Digest in Vision
鏈接如果你想購(gòu)買一本系統(tǒng)講解計(jì)算機(jī)視覺的書,推薦清華大學(xué)章毓晉老師2017年出版的《計(jì)算機(jī)視覺教程(第2版)》。 章教授是CV領(lǐng)域的國(guó)內(nèi)權(quán)威,多年在計(jì)算機(jī)視覺領(lǐng)域鉆研,在國(guó)內(nèi)外發(fā)表眾多論文,出版了10多種專著及教材(相信你肯定知道他寫的《圖像工程》),在計(jì)算機(jī)視覺領(lǐng)域影響力極大。 原文出處: https://sites.google.com/site/mostafasibrahim/research/articles/how-to-start
|