DIY Deep Learning for Vision: A Tutorial with Caffe 報(bào)告筆記

openlog 2015-02-02

展開全文

簡(jiǎn)介

報(bào)告時(shí)間是北京時(shí)間 12月14日凌晨一點(diǎn)到兩點(diǎn)，主講人是 Caffe 團(tuán)隊(duì)的核心之一 Evan Shelhamer。第一次用 GoToMeeting 參加視頻會(huì)議，效果真是不錯(cuò)。

報(bào)告后分享出了視頻和展示文件。另一講座，cuDNN: Accelerating Convolutional Neural Networks using GPUs，視頻和展示文件也已放出。

Caffe 此前聽過沒用過，所以報(bào)告前自己試運(yùn)行了一下，參照官方教程。Caffe 安裝、上手都很快，Protobuf 式的層定義很直觀，模型修改或算法調(diào)整變得很容易，相當(dāng)于只需要改配置文件。還找到了他們放在 Google Docs 上一個(gè)教程 PPT，DIY Deep Learning for Vision: a Hands-On Tutorial with Caffe （已搬到墻里），后來(lái)發(fā)現(xiàn)這次報(bào)告的 PPT 就是在這個(gè)基礎(chǔ)上修改的。

本次報(bào)告主要內(nèi)容是

對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的一些介紹，包括若干深度學(xué)習(xí)的經(jīng)典模型；
Caffe 的優(yōu)勢(shì)（模塊化、速度、社區(qū)支持等）、基本結(jié)構(gòu)（網(wǎng)絡(luò)定義、層定義、Blob等）和用法（模型中損失函數(shù)、優(yōu)化方法、共享權(quán)重等的配置、應(yīng)用舉例、參數(shù)調(diào)優(yōu)的技巧），以及未來(lái)方向（CPU/GPU 并行化、Pythonification、Fully Convolutional Networks等）。

以下是報(bào)告中的截圖配上自己的一點(diǎn)筆記，一手資料請(qǐng)參見上面給出的會(huì)后分享鏈接。

要點(diǎn)記錄

PPT 的首頁(yè)取自該項(xiàng)目的一個(gè)在線 demo，輸入圖片 url，識(shí)別物體類別。

左邊是淺層特征，各類別物體雜亂無(wú)章；右邊是深度特征，一些類別有較為明顯的分別。特別地，dog、bird、invertebrate 這三類動(dòng)物類別離得較近，而 building、vehicle、commodity 這類無(wú)生命類別離得較近，可見深度特征的強(qiáng)大。

此外，在深層結(jié)構(gòu)當(dāng)中，隱層神經(jīng)元的激活可能與特定的物體類別有關(guān)，比如有的神經(jīng)元對(duì)人像敏感，而有的對(duì)數(shù)字或建筑物敏感，最下面一層是閃光燈（或與之類似，比如反光的腦門……）效果。

Caffe 的優(yōu)勢(shì)，網(wǎng)絡(luò)結(jié)構(gòu)的模塊化和易表達(dá)是顯然的，社區(qū)資源也同樣強(qiáng)大，比如下兩頁(yè)內(nèi)容。

Caffe 的 Reference Models 可供學(xué)術(shù)使用，比如 AlexNet、R-CNN、CaffeNet，包括模型定義、優(yōu)化方法和預(yù)訓(xùn)練權(quán)重。

Model Zoo 中有用戶貢獻(xiàn)的模型可供參考使用，比如 VGG、Network-in-Network。

Caffe 支持豐富的模型表達(dá)形式，包括 DAGs、Weight Sharing 以及 Siamese Network。

網(wǎng)絡(luò)和層定義采用 protobuf 的樣式。

Layer 指的是權(quán)重和偏置，可以定義連接數(shù)、權(quán)重初始化方法等。

Blob 是四維數(shù)據(jù)結(jié)構(gòu)，保存節(jié)點(diǎn)上的數(shù)值以及模型參數(shù)，可以通過編程在 CPU 和 GPU 間傳輸。

模型定義之外，還需要一個(gè)指定優(yōu)化策略的配置文件，用以訓(xùn)練模型。

使用 Caffe 訓(xùn)練的一般步驟就是

數(shù)據(jù)預(yù)處理；
模型定義；
求解策略定義；
運(yùn)行。

此處給出了兩個(gè)例子，Logistic Regression，Learn LeNet on MNIST，都很好 follow。

調(diào)參中重點(diǎn)講了一個(gè) 模型遷移的實(shí)例，用某項(xiàng)任務(wù)已有模型的參數(shù)作為新任務(wù)模型的參數(shù)初始值，然后進(jìn)行模型訓(xùn)練。

模型訓(xùn)練一般由淺入深，逐步降低學(xué)習(xí)速率，以保持預(yù)訓(xùn)練參數(shù)的某些性質(zhì)。

接下來(lái)具體講述了 Loss、Solver、DAG、Weight Sharing 的概念和配置。

對(duì)同一模型，不同 Solver 的表現(xiàn)有差。

一般深度學(xué)習(xí)模型是線性形式的，比如 LeNet，而 Caffe 支持 DAG 形式的模型。

Caffe 的近期動(dòng)向，CPU/GPU 并行化、Pythonification、Fully Convolutional Networks等。

Caffe 的團(tuán)隊(duì)，拜 Yangqing Jia 師兄……

文獻(xiàn)參考。

提問

語(yǔ)音回答中，Evan 提到 UCB 的一個(gè)團(tuán)隊(duì)正在開發(fā) Scala 接口，不過尚屬實(shí)驗(yàn)性質(zhì)；Caffe 團(tuán)隊(duì)在考慮和 UCB 的 AMP 團(tuán)隊(duì)合作，擴(kuò)展到 Spark 這一計(jì)算平臺(tái)上；除了已支持的 CPU/GPU 計(jì)算，也考慮擴(kuò)展支持 OpenCl；對(duì)于 Theano、Torch，鼓勵(lì)大家嘗試、比較……

文字問答如下，由 Yangqing Jia 回復(fù)。

Q: Is the pre-trained model avaialbe for download to accelerate our work on other kinds of images?

A: FYI - for pretrained models that we release, please refer to the model zoo page here: http://caffe./model_zoo.html

Q: Android platform ?

A: People have asked about android/ios platforms. In principle this is possible since the code is purely in C, but of course some engineering efforts are needed to write makefiles like Android.mk for this. Our bandwidth is limited and we are focusing on the research part, but we welcome pull requests on github if you write one (and we thank you in advance)! Also, kindly check out the blog post by my colleague Pete Warden about our efforts on running with Jetson TK1: http:///2014/10/25/how-to-run-the-caffe-deep-learning-vision-library-on-nvidias-jetson-mobile-gpu-board/

Q: Can you discuss status and/or considerations for adding opencl support (and so be vendor neutral, as opposed to NVIDIA CUDA)?

A: In terms of using OpenCL - it has been under discussion for a while, but we are kind of shortstaffed so we focus more on the research side - we welcome contributions from open-source communities of course, please join us at github :)

Q: do you have an online examples of unsupervised losses

A: For unsupevised losses and training there is a bundled example of an MNIST autoencoder.

更多的問答（60+）請(qǐng)參見主辦方提供的 Q&A Transcript。

總結(jié)

“盜取”一頁(yè) PPT 作為本文總結(jié)。

原文地址: http://frank19900731./blog/2014/12/04/diy-deep-learning-for-vision-a-tutorial-with-caffe-bao-gao-bi-ji/
作者 Frank Song 發(fā)布于 http://frank19900731. 轉(zhuǎn)載請(qǐng)注明

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： openlog > 《技術(shù)探討》

舉報(bào)/認(rèn)領(lǐng)