雙流法 (Two-Stream) 以及 C3D卷積

簡介

雙流法 以及 C3D 算是行為識別中比較經(jīng)典也是比較基本的兩種方法,一下就對這兩種方法進行一個簡單的記錄。
簡單來說,其實雙流法與C3D卷積網(wǎng)絡(luò)所要處理的問題都是在一段視頻中的類別信息(這里的信息根據(jù)數(shù)據(jù)集暫時都是為單一的信息),通過找到這個類別信息來表明這一段視頻的分類。

雙流法 (Two-Stream)

雙流法,顧名思義就好像是兩條小溪流各自流動最后匯聚到了一塊;其中一條小溪流的名稱為“RGB”圖信息,可以是3通道的信息,也可以是 RGB-D 的灰度圖信息; 而另一條小溪流的名稱是“光流”圖的信息,一般的光流圖為2通道的信息,分別為在X軸上的信息變化與Y軸上的信息變化?!竟饬魇峭ㄟ^對兩張圖進行梯度計算得到,抽象層面可以理解成是其關(guān)鍵點的像素點信息移動的信息】

如圖所示,其實做法非常的簡單,相當于訓(xùn)練兩個CNN的分類器。一個是專門對于 RGB 圖的, 一個專門對于光流圖的, 然后將兩者的結(jié)果進行一個 fushion 的過程。RGB圖的選擇,是對于所給的一段視頻隨機挑選出視頻中的任意一幀;而光流圖是選擇視頻中的任意一幀的時間然后及其后面的N幀疊合成一個光流棧進入訓(xùn)練。【這種光流的訓(xùn)練方式是論文作者認為,這樣子的光流疊加可以獲得它的運動信息流,但是實際上光流圖并不是以motion的信息來得到結(jié)果,有興趣可以參看(參考資料2)的內(nèi)容】

P.S: 因為這個雙流法是訓(xùn)練了兩個網(wǎng)絡(luò),在最后 softmax 前進行了fushion,顯示效果不錯。這是一篇14年的開篇之作,在16年時候,有人對fushion的位置進行了研究。(有興趣可以去閱讀論文:https://arxiv.org/abs/1604.06573

TSN

這里順便提一下 TSN ,一個根據(jù) two-stream 改進的網(wǎng)絡(luò)框架。這一個框架的改進初衷是因為最原始版本的two-stream對長視頻的內(nèi)容分類效果并不好。這里可以簡單的舉個例子想象一下,比如各個學校都是有運動會的,現(xiàn)在我們來到跳遠場地拍了一段一位選手的跳遠過程視頻。然后我們將這段視頻丟給原先的 Two-stream 框架進行測試,結(jié)果得到了一個跑步的結(jié)果。這是為什么呢?就是因為我們抽取機制的方式,我們隨機抽取與訓(xùn)練的方式,不能覆蓋的這段視頻的過程。因為跳遠是一個助跑與跳的過程,他有比較強烈的時間序列性質(zhì)。而TSN改進的方面非常的簡單,它只是將整段視頻切割成了3段(可以是3段),然后對每段進行 two-steam的訓(xùn)練,最后再進行疊加。如下圖所示:

C3D 卷積網(wǎng)絡(luò)

C3D 網(wǎng)絡(luò)其實也非常簡單,其實就是在2D卷積的過程中加上了時間維度的信息進行時間維度上的卷積。一個2D的卷積對于一個3維的【這里說3維是 一般我們的圖像是 C * W * H ,這里先解釋成三維來進行說明】,最后得到的是一個二維的feature map,假設(shè)當我們有 K 個卷積核時,進行面的堆疊,最后就形成一個三維結(jié)構(gòu) K * W * H (這里默認卷積不降維)。同理, C3D相當于是設(shè)計了一個3D的卷積對一個4維【抽象來看也可以是一個3維結(jié)構(gòu) (C * L)* W * H 】的結(jié)構(gòu)進行卷積最后得到一個3維的結(jié)構(gòu)。然后假設(shè)當我們有K個卷積核時,其實也可以算是3維deep時的疊加,也可以看做是堆疊成四維向量?!具@里你可以想象成,先進行了一步 2D 卷積得到 feature map 后,對這些 feature map 再在空間上進行卷積】

下圖,我們可以有一個直觀理解2D卷積和3D卷積的差別?!菊哉撐摹?/p>

我們可以根據(jù)這個箭頭的順序信息來理解卷積的過程【這里最好將圖片先看做 RGB-D 來理解,比較容易,因為這種方式它的通道數(shù)是 1 】,先進行一個平面的卷積來得到這張圖的 feature map 之后在其時間序列上再進行卷積。

得到 feature map 后的圖形卷積過程,可以類似如下圖所示:

筆者個人認為,C3D的卷積過程其實可以看做時序序列的附近信息逐步疊合的過程??梢杂酶惺芤皝砣ハ胂?,他有點類似從散到點的過程(如下圖的類似過程)。筆者個人認為可能在這樣的一個過程中,對于動作的序列信息比如最開始一張圖片對于后續(xù)的動作影響比重比例稍有欠妥,可能是可以提升的地方?!具@里也就是個人的推測而已,可以當做笑話】

【參考資料】

  1. http://m.itdecent.cn/p/0b4964261673
  2. https://blog.csdn.net/elaine_bao/article/details/80891173【光流在視頻識別中的作用】
  3. https://zhuanlan.zhihu.com/p/34929782 【two-stream】
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容