CVPR 2018 中國論文分享會之「分割與檢測」

本文作者： camel

2018-06-20 11:30

導語：西北工業(yè)大學、商湯科技、微軟亞洲研究院

雷鋒網 AI 科技評論按：本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中第 5 個 Session ——「Segmentation, Detection」環(huán)節(jié)的三場論文報告。

在第一個報告中，來自西北工業(yè)大學的戴玉超教授介紹了他們在物體檢測方面的工作。其工作的新穎之處在于，他們將較為經濟的但不太精確的傳統(tǒng)手工方法應用于深度學習網絡當中，即將傳統(tǒng)手工方法得到的結果視作預測結果 + 噪聲，從而作為監(jiān)督信號來同時訓練預測模型和噪聲模型，實現(xiàn)了傳統(tǒng)方法在深度學習時代的又一春。

第二個報告由來自商湯科技的石建萍博士介紹了商湯科技在自動駕駛相關問題中的研究工作，分別包括場景理解、物體理解、視頻理解和 3D 場景結構理解。其中物體理解方面的工作在去年 COCO 物體分割和物體識別中分別獲得第一名和第二名的成績。

來自微軟亞洲研究院的廖菁研究員在第三個報告中介紹了微軟亞洲研究院在神經風格變換方面的相關工作，包括理論和應用兩方面。在理論方面，他們通過分析先前的風格轉換不同類型的優(yōu)缺點，設計出了一種綜合兩類模型優(yōu)點，同時摒棄其缺點的模型。在應用方面，考慮到風格變換應用于VR/AR中，如果兩個視野的風格變換不一致將會導致鬼影出現(xiàn)，他們通過加入約束解決了該問題。

雷鋒網注：

[1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數(shù)據(jù)專委會合作舉辦，數(shù)十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session（共 22 個報告），1 個論壇，以及 20 多個 posters，雷鋒網 AI 科技評論將為您詳細報道。

[2] CVPR 2018 將于 6 月 18 - 22 日在美國鹽湖城召開。據(jù) CVPR 官網顯示，今年大會有超過 3300 篇論文投稿，其中錄取 979 篇；相比去年 783 篇論文，今年增長了近 25%。

更多報道請參看：

Session 1：GAN and Synthesis
Session 2: Deep Learning
Session 3: Person Re-Identification and Tracking
Session 4: Vision and Language
Session 5: Segmentation, Detection
Session 6: Human, Face and 3D Shape

一、傳統(tǒng)方法如何在深度學習時代盎然生機？

論文：Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective
報告人：戴玉超 - 西北工業(yè)大學，教授
論文下載地址：https://arxiv.org/abs/1803.10910

從 2012 年深度卷積網絡出現(xiàn)并被廣泛且成功地引入到其他領域后，許多傳統(tǒng)的方法都被拋棄到垃圾堆里。

CVPR 2018 中國論文分享會之「分割與檢測」

以視覺顯著性檢測為例，即從一幅圖像中提取人眼最感興趣的區(qū)域或者物體，當前所有的 benchmark 方法都是基于深度卷積網絡。那么傳統(tǒng)的基于經驗和手工設計的方法在深度學習的時代真的就完全沒用了嗎？

1、動機

戴玉超教授的這篇論文的工作正是對上述問題的回答。盡管深度學習方法當前來看取得了極大的成功，但是這些方法大多是基于監(jiān)督學習，也即需要用大量、準確的標注數(shù)據(jù)，而對于視覺顯著性檢測任務來講，標注數(shù)據(jù)依然是一個困難的事情。而另一方面，傳統(tǒng)的手工顯著性檢測方法中融入了人類的知識，盡管其表現(xiàn)不如現(xiàn)在大多數(shù)的基于深度神經網絡的方法，但是它可以通過無監(jiān)督學習的方法獲得結果。

CVPR 2018 中國論文分享會之「分割與檢測」

于是戴玉超教授等人就想，是否可以將傳統(tǒng)方法所獲得的結果看做是一個理想的顯著性檢測圖與噪聲的疊加，從而將這個結果作為監(jiān)督來同時訓練顯著性檢測模塊和噪聲模塊？如果成功，那么這將是一個端到端的無監(jiān)督視覺顯著性檢測模型。

2、框架

首先描述其任務，即：當給定一個彩色圖像 x_i 時，通過不同的「無監(jiān)督顯著性方法」得到一系列帶噪聲的顯著性圖 y_ij，在這些結果的監(jiān)督下學習一個更好的顯著性圖。

戴玉超等人設計的模型如下圖所示：

CVPR 2018 中國論文分享會之「分割與檢測」

這里包含一個隱藏的顯著性檢測模塊和一個噪聲模型模塊。當給定一個輸入圖像后，一個無監(jiān)督的手工的顯著性檢測方法會生成一個噪聲顯著性圖 y_ij。他們在這個框架中將這個圖視為待預測的顯著性圖與一個噪聲的疊加。這個噪聲是一個預設的帶參數(shù)的模型，例如高斯分布模型。通過不斷地優(yōu)化，最小化 loss 函數(shù)：

CVPR 2018 中國論文分享會之「分割與檢測」

從而同時訓練出一個較好的顯著性模型和相應的噪聲模型。

3、實驗結果

這里提到三種 baseline：第一種是用帶噪聲的無監(jiān)督顯著性直接作為 ground truth 進行監(jiān)督訓練；第二種是用平均后的無監(jiān)督顯著性作為 ground truth 進行監(jiān)督訓練；第三種是當前用標注數(shù)據(jù)進行監(jiān)督訓練的模型。對比結果如下：

CVPR 2018 中國論文分享會之「分割與檢測」

同時他們也比較了當前幾種較好的監(jiān)督和無監(jiān)督模型：

CVPR 2018 中國論文分享會之「分割與檢測」

從上述兩個結果中，可以看出這種方法相比多數(shù)無監(jiān)督模型的結果都要好很多，而相比監(jiān)督學習也并不差；最為關鍵的問題是，它不需要標注數(shù)據(jù)，是一個端到端的模型。

這種新穎的方法，顯然可以很輕易地拓展到其他領域，包括語義分割等。

二、自動駕駛中的研究問題

報告題目：Effective Scene Understanding for Autonomous Driving (4 papers)
報告人：石建萍 - 商湯科技
論文下載地址：
[1] 場景理解：Context Encoding for Semantic Segmentation ( oral )
[2] 物體理解：Path Aggregation Network for Instance Segmentation ( spotlight )
[3] 視頻理解：Low-Latency Video Semantic Segmentation ( spotlight )
[4] 3D 場景結構理解：GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose ( poster )

石建萍在此介紹了商湯科技在 CVPR 2018 上發(fā)表的眾多文章中的 4 篇，分別為自動駕駛研究中的場景理解、物體理解、視頻理解和 3D 場景結構理解。

1、場景理解

關于場景理解，商湯科技在 CVPR 2017 的一篇錄用論文中已做了相關研究，他們在那篇文章中提出了 PSPNet 模型，通過 pyramid pooling 的方法對場景做了一個全局的表示。

CVPR 2018 中國論文分享會之「分割與檢測」

這種方式能夠得到比較好的場景信息，但是（1）這個 pyramid pooling 的結構是人為設計出來的；（2）其計算仍然相對比較 heavy。針對這兩點，他們在今年的這篇文章中做了進一步的優(yōu)化和加速。其基本的想法就是將人為設計的 pyramid pooling 換成一種更靈活、有效的模塊。

CVPR 2018 中國論文分享會之「分割與檢測」

首先，他們把 feature encode 成類似 dictionary Learning 的表達方式。當一張輸入圖片經過 CNN 網絡之后，把信息 encode 到 dictionary basis 里面，其中場景的表述就被學到其中的 feature 上。然后再把學習到的場景的 feature 拉伸到圖片原有維度，于是便可以得到場景的信息。

除了 context encoding module，石建萍等人在模型中還加入了一個 loss，即 semantic encoding loss，其目的是為了學習全局中某一類別是否存在，加了這樣一個全局約束后，對于那些較小的類別的預測將更好一些。

CVPR 2018 中國論文分享會之「分割與檢測」

整體來說這種方法比去年的方法的表現(xiàn)稍好一點，但是石建萍仍然對此表示遺憾，因為她認為整個這個方向在去年一年里并沒有提升太多，所以還需要去看是否是因為別的原因（例如數(shù)據(jù)原因）導致性能無法有較大提升。

2、物體理解

物體理解的這篇文章是他們去年在 COCO 比賽中的工作，其中在物體分割上獲得了第一名，在物體檢測中獲得了第二名。

CVPR 2018 中國論文分享會之「分割與檢測」

據(jù)石建萍介紹，他們最初的目的就是希望能夠達到比較高的指標，因此他們當時就基于兩個最好的框架，一個是 FPNet，一個是 Mask-RCNN，并做了一系列的改進。

他們設計出的網絡如下：

CVPR 2018 中國論文分享會之「分割與檢測」

從這個網絡中，仍然可以看出 FPNet 和 Mask-RCNN 的影子。其改進的地方是：（a）將 FPNet 的 backbone 做了一次 bottom-up 的增強；（b）在 FPNet 中每一個 scale 的 proposal 都是從對應的 scale 直接得來的，但石建萍他們發(fā)現(xiàn)事實上其他 scale 也將對該 scale 的 proposal 有很大幫助，因此他們加入了 adaptive feature learning 的模塊；（c）在 Mask-RCNN 這一塊，他們加入了 fully-connected fusion，這樣可以保持更多的全局信息，使得 mask 有進一步的提升。

下面是加入各個模塊后在性能上所帶來的提升：

CVPR 2018 中國論文分享會之「分割與檢測」

3、視頻理解

從實際場景中拿到的大部分數(shù)據(jù)都是視頻數(shù)據(jù)，但是至今仍然沒有一個能夠很好地利用視頻的方案。石建萍等人在這篇文章中考慮的一個重點是如何降低視頻理解中的 latency，同時保持較好的表現(xiàn)。

其設計的網絡如下圖所示：

CVPR 2018 中國論文分享會之「分割與檢測」

關鍵的思想就是，給關鍵幀相對較高的計算量，而比較類似的幀相應地就少分配一些計算。在網絡中，另一個比較關鍵的點是，把前一幀的 feature 傳遞給后一幀。

CVPR 2018 中國論文分享會之「分割與檢測」

他們針對 features，設定一個 threshold，從而可以自動地選取關鍵幀。顯然這里 threshold 值的大小也決定了計算的精度；事實上如果沒有必要完全可以設置一個稍高的 threshold。此外，這種方式也可以動態(tài)地反映視頻幀的變化，例如當場景變化較快時關鍵點也會較快地出現(xiàn)。

CVPR 2018 中國論文分享會之「分割與檢測」

feature 傳遞則是通過底層的 feature 學習相應的權重，這些權重是和 input 相關的，通過這些權重可以實現(xiàn)自動地特征傳遞。另外一點是，他們還設計了調度策略，使得整個關鍵幀的計算可以延后，也即在非關鍵幀的部分也可以同時去計算關鍵幀的信息；通過這個調度方案，可以有效地將整個網絡的延遲降下來。

CVPR 2018 中國論文分享會之「分割與檢測」

相比來說其他的方案在做視頻理解時，往往需要針對每一幀做一個較為 heavy 的計算，而這篇文章所提出的方案能夠有效降低整個模型的 latency，而同時保證了較高的性能。

4、3D 場景結構理解

CVPR 2018 中國論文分享會之「分割與檢測」

之前 3D 場景結構理解的研究中，有做深度的估計，有做光流的估計，有做 camera 運動的估計等，但它們的每個部分都是獨立的網絡。石建萍等人因此考慮是否可以是否可以基于 CNN 的方案，加上幾何約束，來構建一個統(tǒng)一的框架，同時能夠得到一個更好的結果呢？

網絡模型的結構如下圖所示：

CVPR 2018 中國論文分享會之「分割與檢測」

整個模型為無監(jiān)督網絡，業(yè)績不需要任何外部信息就可以把深度、光流、相機運動訓練出來。首先通過一個 DepthNet 來預測深度，得到一個 depth map；另外用 PoseNet 通過前后兩幀之間的信息來預測 camera motion；隨后將 depth map 和 camera motion 組合成 rigid flow，通過 rigid flow 與 final flow 即可完成一個監(jiān)督學習。

另一方面，考慮到場景中會有一些不變的結構（rigid structure）；而人、車等則會因為運動而變化（non-rigid motion）。所以他們將這兩部分分解開來。通過 camera motion 可以比較容易地處理前者；對于 object motion 則需再加一個額外的約束。

整個 objective function 如下所示，包含了以上全部過程的 loss：

CVPR 2018 中國論文分享會之「分割與檢測」

最后結果可以看到，用這種無監(jiān)督的方法可以達到比以前的方法靠譜地多的深度、Flow 的結果，同時發(fā)現(xiàn)對運動比較大的 object 效果也是比較好的。代碼下載鏈接：http://github.com/yzcjtr/GeoNet

三、從深度和廣度介紹神經風格變換

報告題目：Extensions of Neural Style Transfer
報告人：廖菁 - 微軟亞洲研究院
論文下載：
1. Arbitrary Style Transfer with Deep Feature Reshuffle
2. Stereoscopic Neural Style Transfer

廖菁介紹了他們團隊在 CVPR 2018 上發(fā)表的兩篇關于 Neural Style Transfer 的延展性工作。一個是在深度方向的延展，即從理論上對以往的 NST 進行分類和總結，并提出了一種綜合各方優(yōu)點的方法。另一個是在廣度方向的延展，也即 NST 在 VR 和 AR 領域的應用，他們提出了約束左右眼風格變換不一致的網絡模型。

1、Deeper：分類和延展

風格轉換目前已經成為一個熱門的研究課題。其中 Neural Style Transfer 指的是，當給定兩張圖，一張是 Style Image，一張是 Content Image，然后通過一個預訓練的神經網絡將前者的風格變換到后者之上。這種方法通常依賴于預訓練的 CNN，CNN 能夠對圖像有一個很好的分解能力，在高層表征圖像的 content，在低層表征圖像的 style。

CVPR 2018 中國論文分享會之「分割與檢測」

因此就希望這張圖像的 deep feature 在高層能夠和 content image 相似，而在低層則和 Style image 相似。這即是 Neural Style Transfer 大體的思路。

目前所有的神經風格轉換都定義了兩個 loss 函數(shù)，分別為 content loss 和 style loss。這些神經風格轉換模型的 content loss 通常都采用了 feature map 之間的 L^2 loss 函數(shù)；但是在 style loss 上不同的模型卻各不相同。

CVPR 2018 中國論文分享會之「分割與檢測」

根據(jù) style loss 的不同，大致可以將這些模型分為兩類：一類是 parametric model，這類模型要求生成的圖片 feature map 和要學的 style image 的 feature map 在整體上具有統(tǒng)計相似性；另一類是 non-parametric model，這類模型希望最后生成圖片的 feature map 的 local patch 都是來源于 style image。所以可以說前者定義了 global 的相似性，而后者定義了 local 的相似性。

這兩種模型都各自有優(yōu)缺點。

CVPR 2018 中國論文分享會之「分割與檢測」

parametric model 能夠很好地學習到 style 的整體特征；但是它很難保證 localtexture 的結構，同時還會忽略一些空間布局，例如上圖中將帆船的紅色映射到了海水中。

CVPR 2018 中國論文分享會之「分割與檢測」

另一方面，non-parametric model 能夠很好地保證 local 的結構，但是它很有可能沒法保證對整體的模仿（上圖中藍色格調并沒有遷移到嬰兒身上），此外由于 local 的方法沒有限制 patch 怎么使用，所有有可能導致某一兩個 patch 被大量的使用（上面貓圖中黃色 patch 被大量使用），最終產生一個 wash-out artifact。

那么一個自然的思考就是，能否提出一種方法將兩者的優(yōu)點結合起來，而同時又能夠避免各自的缺點呢？廖菁團隊提出了這樣一種新穎的方法，他們稱之為 reshuffle。

CVPR 2018 中國論文分享會之「分割與檢測」

這種方法的核心思想史：將 style image 的 deep feature 做一個重排，也即每個 pixel 出現(xiàn)一次，但是出現(xiàn)的位置已經和原圖不一樣了。這種重排的結果首先先天地就符合 local 的 style loss；另一面，global loss 當前主要使用的就是對所有 pixel 進行加和的 gram matrix 方法，這種方法并不關心 pixel 是怎樣分布的，所以即使打亂了 pixel 的分布，也不會影響 global loss 的結果。因此這種 reshuffle 的方法即符合定義在 gram matrix 上的 global style，同時也符合定義在 patch 上的 local style。在論文中，他們對這個結果做了數(shù)學上的分析，這里不再展開。

不過這個方法中有一個嚴格的要求，即每個 pixel 只能出現(xiàn)一次。這種要求有時候會有問題，例如下圖：

CVPR 2018 中國論文分享會之「分割與檢測」

這里 content image 中有兩個人四個眼睛，而 Style image 里面只有一個人兩只眼睛。如果只允許 patch 用一次的話，眼睛的 patch 將不夠用。所以在實際操作中，廖菁他們定義了一個相對 soft 的 parameter，通過這個參數(shù)控制 patch 的使用數(shù)量。當參數(shù)比較大的時候，其約束就比較強，這時候模型更接近于 global 方法；相反則更接近 non-parametric 的 local 的結果。通過設置參數(shù)可以動態(tài)地調節(jié)結果偏向，從而自適應地來融合兩方的特征。

模型框架如下圖所示：

CVPR 2018 中國論文分享會之「分割與檢測」

風格轉換后的對比圖如下：

CVPR 2018 中國論文分享會之「分割與檢測」

從結果可以看出，這種 reshuffle 的方法的結果，相比 paramtric 的方法可以更好地保持局部的 texture，而相比 non-parametric 的方法可以更好地重現(xiàn) Style 的整體特征。

2、Broader：VR/AR 雙眼風格一致

現(xiàn)在 VR 和 AR 非常火，微軟也出了相關的產品 Hololens。當將風格轉換應用在 VR/AR 上時，首先將會出現(xiàn)一個問題，即 VR/AR 設備有左眼視野和右眼視野，如果對兩個視野的圖像單獨做風格轉換，也即它們的轉換之間沒有相關性，那么結果將導致左右眼看到的轉換后的風格圖像并不一致，當帶上 VR/AR 時就會出現(xiàn)各種鬼影，使得用戶不能很好地感受 3D 的風格結構。

CVPR 2018 中國論文分享會之「分割與檢測」