FCN(1)——從分類問題出發(fā)

高教幫 2019-04-19

展開全文

FCN（1）

從問題出發(fā)

前面我們介紹了許多利用CNN進行分類任務的模型，今天我們來看看用CNN做分割的模型。我們的主要內(nèi)容來自這篇文章——《Fully Convolutional Networks for Semantic Segmentation》。

圖像分割

首先我們來簡單看看圖像分割的任務是什么樣的。所謂的圖像分割就是將一幅圖像中各個實體的邊界確定下來，這樣我們可以通過尋找這個實體的邊界確定實體的位置。在自然場景中我們可以根據(jù)畫面中的實體進行劃分，在文檔圖片中，我們也可以找出每一個文字的邊界。這些都可以算作是完成分割任務。

當然，上面的描述還不太具有可操作性，我們可以把問題做進一步地轉化。我們可以把問題轉換成一個分類問題，我們判定每一個像素點的類別，然后將相鄰且類別相同的像素點聚集起來，不就可以找到實體的邊界了么？這樣也就是從分類問題出發(fā)解決分割問題的方式。

但是這樣解決分割問題的方法還是存在一些問題：之前我們對于一張圖像，最終只輸出一個結果或者幾個結果，結果的數(shù)量并不多；而現(xiàn)在我們輸出的數(shù)量和像素的數(shù)量相同，那么我們還能夠獲得和分類問題近似的精確率么？這里面存在著一些需要解決的問題，比如：

在分類問題中，為了解決圖像的transform invariance，我們會加入pooling層減小維度，這個被減小的緯度如何能夠再次放大呢？

FCN的解決方案

FCN，也就是Fully Convolutional Network，是一個不包含全連接層的網(wǎng)絡。這里面所謂的不包含全連接層，實際上并不是標榜自己沒有全連接層，而是為了保證計算過程中每一層數(shù)字的相對位置。在我們通常的印象中，全連接層需要把本來立體的圖像拍平，這樣原本存在的空間特性將被抹掉。為了確保我們識別出來的類別能和原來每一個像素點的位置對上，我們不能粗暴地把中間數(shù)據(jù)拍平，這也是網(wǎng)絡中不使用全連接層的原因。

我們可以利用常規(guī)的分類CNN網(wǎng)絡得到一個接近最終結果的中間層，這樣層的數(shù)據(jù)往往已經(jīng)可以代表了一些具有特定含義的特征，而不再像原始的像素亮度那樣含義晦澀。因此我們可以從這樣的信息出發(fā)得到一些分類信息，然后把這些分類信息重新映射到原始圖片大小的區(qū)域上。

由于中間層的維度比原始圖像小，那么恢復到原始大小必然意味著一些插值的工作。一旦使用了插值的算法（比方說bilinear），那么恢復的圖像的精度一定會出現(xiàn)問題。所以大神們也曾經(jīng)擔心過這個問題。于是他們也想出過一些其他的方法。

這些方法的特點就一條——

維度不縮?。?/span>

實際上想做到這一步從算法上來說也并不困難，但是這樣的方法會增加不少計算量，而且也存在自己的問題。最終大神們選擇了反卷積的方式完成了信息由小變大的工作。

反卷積可以讓維度由小變大，而且我們還可以通過學習其中的參數(shù)讓這個變化的過程變得不那么簡單粗暴。但是小維度畢竟是小維度，誰也沒法回避這個問題。就算采用反卷積的方式把維度擴大，精度損失的問題依舊無法避免。所以我們還需要其他的辦法。

這個辦法就是融合。我們不僅僅使用較深層的特征信息，還使用一些較淺的特征信息。我們知道較淺層的特征容易保留一些細節(jié)信息，比方說邊緣信息，較深的特征容易保留一些類別信息，那么如果我們把這兩部分信息融合起來，我們既可以保證找到的類別信息是準確的，同時我們也可以保證一些邊緣的位置信息能夠找準。這樣我們也就解決了這個問題。

文章中還提到了一個有意思的問題，那就是采樣的問題。一般來說我們的分類問題都是一張圖一套類別信息，而現(xiàn)在的分割問題變成了一張圖有許許多多的類別信息。這么多類別信息一起學習，會不會出現(xiàn)過擬合的問題？最終的實驗結果告訴了我們，過擬合的問題似乎并不存在，但是當初大家還是擔心了一下，也曾經(jīng)想過采用采樣的方式解決這個問題。對于最終輸出的每一個像素的類別信息，我們并不把所有的像素點的結果計算到loss中進行反向傳播，而是只取其中一部分的像素點。這個想法是有點道理的，因為每一個緊密相鄰的像素點之前的特征差距可能并不大，如果每一個像素點都計算在內(nèi)，那么就相當于我們對某一組特征增加了很高的權重。但好在我們對所有像素點都增加權重的話，這個影響還是會抵消的。

最后提一下分割問題和分類問題在evaluation方面的不同。對于經(jīng)典的分類問題，我們常用的loss是cross entropy loss，精確率判斷則是最終的類別判斷的正確率。而在分割問題中，我們除了判斷每一個像素點的“分類”loss和精確率，我們還可以計算IoU。它的全稱是Intersection of Union。我們有模型預測的邊界和Ground Truth的邊界。我們計算兩個邊界相交和它們相并的比例，也可以判斷最終的分割效果。如果以IOU作為評價標準，那么只要主體部分能夠分割正確，那么我們就可以拿到比較高的分數(shù)。所以添加過多淺層的信息可能不會對最終結果造成很大的準確率提升。

未來

從上面的內(nèi)容中，我們基本上完成了對FCN的基本介紹。FCN是一個將High-level問題的模型框架應用到Low-level問題的成功案例。但是，從已經(jīng)走過的歷史長河來看，這個方法開辟一片嶄新的領域，但是并沒有走在這個領域的前沿。所以相關的應用在此我們也不贅述了，留給大家自己開發(fā)了。

曾經(jīng)在圖像分割問題中，我們經(jīng)常使用概率圖模型的方式進行建模求解，正如一些童鞋所知。后來的大神們嘗試了深度CNN和CRF模型結合的手段進行嘗試，并獲得了非常不錯的成績。在后面的篇幅里我們就來看看兩種方法是如何結合在一起的。

當然，我們花了很長的時間介紹了CNN模型的方方面面，所以一路看下來的各位對CNN已經(jīng)比較熟悉，所謂沒吃過豬肉也見過豬跑了。但是CRF的內(nèi)容在此之前我們并未涉及到，因此想搞清楚CRF對于初學者還是有點壓力，下面我們會盡可能地用最通俗的語言介紹下CRF。