摘要
運(yùn)動分割的傳統(tǒng)方法是采用幾何約束去理解運(yùn)動?,F(xiàn)代cnn方法在運(yùn)動檢測上超越了一些著名結(jié)構(gòu),但也許不能精確描述著名的幾何約束方法。作者提出了一個(gè)統(tǒng)計(jì)的剛體運(yùn)動模型,基于角度預(yù)測約束。然后把這個(gè)分段剛體運(yùn)動組合到了復(fù)雜可變形和鉸接的對象,同時(shí)用到CNN的語義分割和一個(gè)第二對象層次的統(tǒng)計(jì)學(xué)模型。這種方法組合了傳統(tǒng)的幾何知識和cnn領(lǐng)域的模式識別能力,并在大范圍的運(yùn)動分割基準(zhǔn)數(shù)據(jù)集上取得了卓越的表現(xiàn)。
介紹
理解運(yùn)動是我們理解世界的基礎(chǔ),從預(yù)測眼前的未來到理解行為和相互作用,甚至是定義對象本身。在這項(xiàng)工作中,我們重新審視了移動攝像機(jī)視頻中運(yùn)動分割的經(jīng)典問題,這是理解和解釋運(yùn)動的第一步。運(yùn)動分割是一個(gè)有趣的問題,因?yàn)樗Y(jié)合了視覺的子領(lǐng)域,其中幾何是一個(gè)強(qiáng)大的約束 , 理解圖像在相機(jī)運(yùn)動下如何變化,還有一些“混亂”的問題,如分割和靈活移動物體的變形,其中幾乎沒有硬幾何約束。這個(gè)思路出現(xiàn)了一系列的方法,大多數(shù)使用了幾何方法同時(shí)很大程度上忽略了外表(),另外的一些試著用CNN結(jié)構(gòu)學(xué)習(xí)整個(gè)pipeline(),并嘗試學(xué)習(xí)圖像模式和流模式。單獨(dú)使用運(yùn)動線索而沒有用到運(yùn)動物體外觀模型的方法可能會在流有噪聲,模糊或難以確定的情況下失敗。這種純粹的幾何方法經(jīng)常理解運(yùn)動不夠充分。運(yùn)動物體的外表必須被考慮到。這就表明了需要使用到深度學(xué)習(xí)的方法去解決這個(gè)問題。當(dāng)然,CNN在物體識別上表現(xiàn)很卓越(),它擅長在圖像以及視頻中找到目標(biāo)()和圖像分割()。然而,有的情況單獨(dú)的外表不足以很好的分割。特別是在有偽裝的動物運(yùn)動的數(shù)據(jù)集情況下,其中運(yùn)動的對象在很多幀上幾乎是消失的。這篇文章中,作者使用了經(jīng)典的方法和現(xiàn)代用作外表建模的CNN組合運(yùn)動模型并獲得的很好的結(jié)果。作者設(shè)計(jì)了一個(gè)分層的運(yùn)動分割系統(tǒng),其中第一階段識別簡單的剛體運(yùn)動成分,第二階段整合這些成分成為完整的對象,受啟發(fā)于對每幀進(jìn)行語義分割()。

1.兩步分層運(yùn)動分割模型:分割一幀為剛體運(yùn)動;使用來自SharpMask()的目標(biāo)知識組合這些剛體成為可描述鉸接和變形的目標(biāo)對象模型,如人或動物。
2.一種新的光學(xué)流統(tǒng)計(jì)模型,作為對基本運(yùn)動場的噪聲測量。
3.一個(gè)貝葉斯方法用于計(jì)算一個(gè)相關(guān)于光學(xué)流向量的三維運(yùn)動方向的似然,其中我們整合了不可觀測的運(yùn)動場大小。這允許我們以與透視投影和我們的統(tǒng)計(jì)模型一致的方式將像素分配給剛性運(yùn)動模型。
首先是定義運(yùn)動分割。作者關(guān)注經(jīng)典的運(yùn)動分割定義,其中主要是分割出相對于背景運(yùn)動的所有的目標(biāo)。即便如此,仍有一些細(xì)節(jié)需要提出來弄清楚,如ground truth應(yīng)該是什么樣的。比如,在風(fēng)中搖曳的灌木從是否應(yīng)該被分割為一個(gè)運(yùn)動的目標(biāo)。這些問題在 A detailed rubric for motion segmentation有討論,并且這個(gè)工作調(diào)整了他們的關(guān)于ground truth的定義。作者在三個(gè)與傳統(tǒng)的運(yùn)動分割相定義一致的基準(zhǔn)數(shù)據(jù)集上報(bào)告了結(jié)果。 Freiburg-Berkeley Motion , Complex Background , and Camou?aged Animals. Davis data set是一個(gè)受歡迎的視頻分割基準(zhǔn)數(shù)據(jù)集,其中聚焦于分割顯著性目標(biāo)而不是所有的運(yùn)動的目標(biāo)。但作者的方法不是為此設(shè)計(jì)的,作者用討論目標(biāo)分割與運(yùn)動分割的關(guān)系以及在此數(shù)據(jù)集上的結(jié)果作為補(bǔ)充的材料。
相關(guān)工作
許多運(yùn)動分割論文都集中在二元運(yùn)動分割的問題上,其中像素被分類為移動或背景的一部分,但是沒有在不同的運(yùn)動對象之間做出區(qū)分()。其它的(),像這篇文章 一樣,解決了多標(biāo)簽運(yùn)動分割問題,其中為每個(gè)獨(dú)立運(yùn)動的對象提供了單獨(dú)的標(biāo)簽。在本節(jié)的其余部分中,我們不區(qū)分二元和多標(biāo)簽運(yùn)動分割。關(guān)于運(yùn)動的信息主要是產(chǎn)生于連續(xù)幀中匹配的像素。這可以是稀疏點(diǎn)軌跡或光學(xué)流的形式。基于稀疏點(diǎn)軌跡的方法在運(yùn)動分割上取得了好的結(jié)果。給定光學(xué)流,相同位移的像素點(diǎn)被分 組為對象。然后跟蹤這些對象,以便隨著時(shí)間的推移對它們進(jìn)行一致的分割。然而,基于追蹤的方法經(jīng)常分割到?jīng)]有移動的對象。兩幀之間的像素位移是一個(gè)關(guān)于深度和運(yùn)動的函數(shù),因此基于聚類的運(yùn)動追蹤形成的簇不僅僅是關(guān)于獨(dú)立的運(yùn)動對象,也是關(guān)于不同深度下的對象?;谡趽醯姆椒ㄊ艿筋愃粕疃认嚓P(guān)問題的影響。
基于透視投影的方法總體上比基于投影幾何的方法更精確,因?yàn)楹笳咴诮D像變換時(shí)省略了某些約束(例如正交性約束)()。Bideau發(fā)展了一個(gè)基于光學(xué)流的全自動運(yùn)動分割方法。遵循透視投影的幾何形狀,基于光學(xué)流動方向?qū)M(jìn)行分割。假設(shè)基礎(chǔ)運(yùn)動場幅度等于光學(xué)流動幅度,它們使用運(yùn)動場幅度來對每個(gè)流動矢量方向的信息量進(jìn)行建模。不像Bideau,作者以貝葉斯方式整合未知運(yùn)動場的大小,而不是假設(shè)它的值等于流量大小。一些目前的工作已經(jīng)利用對象分割和語義信息進(jìn)行錄像對象分割和運(yùn)動流估計(jì)。與這些工作不同,作者的工作將對象級語義知識與經(jīng)典視角幾何中的想法相結(jié)合,以準(zhǔn)確分割移動物體。
方法
作者的運(yùn)動分割系統(tǒng)是估計(jì)背景區(qū)域和一組剛性對象來(自動)初始化。并為此調(diào)整了公開的初始化代碼。在此系統(tǒng)中,作者考慮了兩個(gè)獨(dú)立的運(yùn)動概念:剛體運(yùn)動:能被轉(zhuǎn)換剛體3D區(qū)域描述的運(yùn)動。對象運(yùn)動:能被建模為包括一個(gè)或多個(gè)剛體運(yùn)動成分。
在整個(gè)錄像中,作者維護(hù)了一組剛體運(yùn)動。但這個(gè)組可能被擴(kuò)展以包含更多的新發(fā)現(xiàn)的運(yùn)動或者如果發(fā)現(xiàn)沒有更多的證據(jù)關(guān)于以前的剛性運(yùn)動則縮減。多個(gè)剛性運(yùn)動在一起能描述非常復(fù)雜的對象運(yùn)動。此方法維護(hù)了一組這樣的對象運(yùn)動,它們通常對應(yīng)于現(xiàn)實(shí)世界的對象,如汽車,行人或者動物。而背景,通常指靜態(tài)環(huán)境,能夠被建模為單剛性運(yùn)動。算法一給出了大體的主要循環(huán)。來自前一時(shí)間步驟的幾種類型的信息被用作當(dāng)前時(shí)間步驟的先驗(yàn)信息。這包括每個(gè)剛體運(yùn)動分量的(軟概率)掩模,每個(gè)對象的(軟概率)掩模,以及迄今為止如何將剛性分量分配給對象的歷史。此外,我們還結(jié)合了當(dāng)前光流的新信息()和SharpMask的區(qū)域提案()。主要步驟:
3.1.去除旋轉(zhuǎn)流
我們尋求一個(gè)相機(jī)的旋轉(zhuǎn),使得在從光學(xué)流動中減去該旋轉(zhuǎn)之后,剩余的流動對應(yīng)于純粹的平移運(yùn)動。這對于一個(gè)靜態(tài)背景區(qū)域來說是對的,因?yàn)檫@里像素位移僅僅是被攝像機(jī)運(yùn)動影響而不會是單獨(dú)運(yùn)動的對象。對于第一幀不會去處理出一個(gè)估計(jì)的背景區(qū)域。因此通過RANSAC()找到該旋轉(zhuǎn)。對于接下來的幀,可以根據(jù)前一時(shí)間的步驟得到背景區(qū)域的估計(jì),和僅僅 是根據(jù)背景像素得到攝像機(jī)旋轉(zhuǎn)的估計(jì)。除非另有說明,否則本文討論的所有剩余光學(xué)流動都是指光學(xué)流動的平移分量,即在移除相機(jī)旋轉(zhuǎn)后的光學(xué)流動。
3.2估計(jì)剛性運(yùn)動分量并將每個(gè)幀中的像素分配給剛性運(yùn)動分量
系統(tǒng)的下一步是估計(jì)一組J個(gè)剛體運(yùn)動模型Mj,j = 1 ... J,并將當(dāng)前圖像中的每個(gè)像素分配給其中一個(gè)運(yùn)動模型。如上面圖一所示,直觀上的,我們想在圖像中發(fā)現(xiàn)一組關(guān)于剛性結(jié)構(gòu)的移動,然后判斷哪些像素屬于哪些運(yùn)動模型。剛性運(yùn)動模型描述了一個(gè)剛性對象的3D運(yùn)動方向,而不是這個(gè)運(yùn)動的幅度。設(shè)(U,V,W)是相機(jī)相對于物體的平移運(yùn)動。設(shè)(X,Y,Z)是投影到圖像中的(x,y)的點(diǎn)的3D中的真實(shí)世界坐標(biāo)。設(shè)f是攝像機(jī)的焦距,運(yùn)動場向量(u,v)在圖像中的位置(x,y)由以下轉(zhuǎn)換式給出




3.3將剛性運(yùn)動分量分組成集成為對象模型
等式4中將一幀分割成了剛性運(yùn)動成分,非剛性移動的目標(biāo)經(jīng)常由多個(gè)剛性運(yùn)動組成。為了能精確地對對象建模,使用CNN來生成對象提議掩碼,并利用高級圖像理解的語義。根據(jù)生成的對象掩碼,將剛體運(yùn)動模型加入一個(gè)特定的對象。因此一組剛性運(yùn)動模型通常用于一個(gè)對象的建模。通過等式4給出幀的分割和一組提議掩碼,形成了與剛性運(yùn)動模型Mj的互斥子集Mk。每個(gè)Mk,k = 1 ... K包括屬于特定對象運(yùn)動的一組剛性運(yùn)動模型。步驟如下:1.使用SharpMask分割方法[35]生成對象提議,以創(chuàng)建對象的候選掩碼,并選擇僅對應(yīng)于移動對象的掩碼。2.將剛性運(yùn)動模型加入由語義分割引導(dǎo)的特定對象運(yùn)動的集合中。
生成移動對象提議,首先,使用SharpMask的語義分割生成一組對象提議以及對應(yīng)的分?jǐn)?shù),并保留前100個(gè)。我們分析這些對象建議掩碼并選擇最佳覆蓋圖像的非背景部分的子集,后者是從剛性運(yùn)動模型估計(jì)的。
接下來是將剛性運(yùn)動模型組合成一個(gè)特定的對象模型。給出運(yùn)動對象提議的掩碼和分割L,我們可以簡單地將每個(gè)運(yùn)動模型Mj分配給對象建議掩模,該對象建議掩模與對應(yīng)于Mj的剛性運(yùn)動區(qū)域具有最高交點(diǎn)。然而,對象建議掩模并不一定是時(shí)不變的,它們可能增大,消失或者在某一幀中遮住了其它對象。因此需要一個(gè)更加復(fù)雜的方法而不是簡單地將Mj分配給對象建議掩模。為了實(shí)現(xiàn)短時(shí)一致分割,做出如下要求:跟蹤物體隨時(shí)間的變化和時(shí)間一致地將運(yùn)動分量Mj分配給物體。

總之,我們首先根據(jù)其組件相似性(圖2的頂行)將剛性運(yùn)動分配給當(dāng)前幀的Q個(gè)運(yùn)動掩模。 然后,我們將剛性運(yùn)動重新分配給到目前為止已經(jīng)看到的K個(gè)移動對象(圖2的下排)。

對象移動模型:Mk T是一組屬于特定對象運(yùn)動的剛體運(yùn)動模型。每個(gè)剛體運(yùn)動模型描述了當(dāng)前幀T中一個(gè)對象 的運(yùn)動的一部分。設(shè)r是集合Mk T 的索引,現(xiàn)在下面解釋如何從一組Mk T的子集中生成一個(gè)高級的對象運(yùn)動模型Ok。類似于剛性運(yùn)動模型Mj,對象運(yùn)動模型Ok確定每個(gè)像素位置處的運(yùn)動方向。由于其剛性約束,Mj通常僅對運(yùn)動運(yùn)動的一部分進(jìn)行建模,而高層物體運(yùn)動模型通過對整個(gè)物體的整個(gè)運(yùn)動方向進(jìn)行建模來克服這一限制。對象運(yùn)動模型Ok是在Mk T中的剛性運(yùn)動模型集合上的每個(gè)像素處的MAP估計(jì)。計(jì)算每個(gè)剛性運(yùn)動Mr∈MkT的概率,給出在特定像素位置(x,y)(等式7)處觀察到的流動,并將最可能的運(yùn)動模型分配給該像素(等式8)。

下圖是一個(gè)例子

3.4將每幀中的像素分配給對象以進(jìn)行最終分割
給定對象運(yùn)動模型Ok,我們將幀分割成其獨(dú)立移動的對象。就像之前在等式4中將像素分配給運(yùn)動模型,現(xiàn)在的目標(biāo)是在每個(gè)像素位置(x,y)中選擇K個(gè)高級物體運(yùn)動模型中給定光學(xué)流向量v~t的概率最高的那個(gè):
似然性和先驗(yàn)的計(jì)算類似于幀到剛性運(yùn)動分量的分割過程,并且在下面導(dǎo)出。
流量似然和先驗(yàn)
令~q =(r,θ)是真實(shí)的平移運(yùn)動場矢量(具有幅度r和角度θ),表示總運(yùn)動場減去由于相機(jī)旋轉(zhuǎn)引起的分量,設(shè)vt是觀察到的光學(xué)流矢量~v的平移分量。 我們將vt建模為q的噪聲觀測:vt = ~q + ~n. (11)
我們將流動噪聲~n =(nu,nv)建模為拉普拉斯分布(對于u和v分量)的乘積,其中參數(shù)取決于運(yùn)動場的大小r:


(a):運(yùn)動場矢量~q僅是運(yùn)動場幅度r和運(yùn)動方向Mj xy的組合。
(b):vt中唯一的不確定性是由于流動噪聲n。
噪聲方差取決于r,流量噪聲分布的參數(shù)由Sintel數(shù)據(jù)庫估算。p(r | Mj xy)是給定特定運(yùn)動方向Mj xy的流量大小r的概率。假設(shè)p(r)與流動方向θ無關(guān),并將其近似為具有參數(shù)br的指數(shù)分布:

Prior. 在每個(gè)像素處的特定剛性運(yùn)動模型上的先驗(yàn)概率p(Mj xy)包括關(guān)于來自前一幀的每個(gè)運(yùn)動的后驗(yàn)概率(運(yùn)動先驗(yàn))的信息以及將該組件在下一幀中的位置限制為接近其預(yù)期位置。
Motion prior. 為了粗略估計(jì)根據(jù)Mj建模的運(yùn)動,我們按如下方式進(jìn)行:(1)我們沿著前一幀的光流傳播后驗(yàn)概率p(Mj xy | v~t)。(2)通過從相鄰的未被遮擋區(qū)域迭代平滑來內(nèi)插該區(qū)域。(3)然后我們通過用7x7高斯平滑來空間分配每個(gè)運(yùn)動分量存在的概率。
Location prior.位置先驗(yàn)將運(yùn)動成分的位置限制在靠近其先前位置。如果存在具有相似運(yùn)動的多個(gè)對象,則重要的是將每個(gè)對象運(yùn)動由其自己的一組剛性運(yùn)動分量來描述。一個(gè)剛性運(yùn)動模型不能被多個(gè)運(yùn)動對象所共享。因此我們以類似于運(yùn)動先驗(yàn)的方式在空間上傳播來自前一幀的難分割。
后面實(shí)驗(yàn)部分不再詳述。
(未完)