CornerNet: 將目標(biāo)檢測問題視作關(guān)鍵點(diǎn)檢測與配對

CornerNet


前言

CornerNet于2019年3月份提出,CW近期回顧了下這個(gè)在當(dāng)時(shí)引起不少關(guān)注的目標(biāo)檢測模型,它的亮點(diǎn)在于提出了一套新的方法論——將目標(biāo)檢測轉(zhuǎn)化為對物體成對關(guān)鍵點(diǎn)(角點(diǎn))的檢測。通過將目標(biāo)物體視作成對的關(guān)鍵點(diǎn),其不需要在圖像上鋪設(shè)先驗(yàn)錨框(anchor),可謂實(shí)實(shí)在在的anchor-free,這也減少了整體框架中人工設(shè)計(jì)(handcraft)的成分。

為了讓自己的梳理工作更好地反饋到自身以實(shí)現(xiàn)內(nèi)化,CW決定在此記錄下自己對CornerNet的理解,同時(shí)也和大家進(jìn)行分享,如果有幸能夠幫助到你們,那我就更是happy了!

本文內(nèi)容有些長,但是如果你打算認(rèn)真回顧和思考有關(guān)CornerNet技術(shù)原理的細(xì)節(jié),不妨耐心地看下去。CW也將本文的目錄列出來了,大家也可根據(jù)自身需求節(jié)選部分內(nèi)容來看。


目錄

? ??研究動機(jī)及背景

? ??概述

? ??整體框架

? ??角點(diǎn)檢測

? ??角點(diǎn)配對

? ??Corner Pooling

? ??訓(xùn)練

? ??測試

? ??實(shí)驗(yàn)分析

? ??思考

研究動機(jī)及背景

作者發(fā)現(xiàn),目標(biāo)檢測中anchor-based方法存在以下問題:

? ? 1. 為了給gt提供正樣本,需要密集鋪設(shè)多尺度的anchors,但這同時(shí)會造成正負(fù)樣本不均衡;

? ? 2. anchor的存在就勢必引入眾多handcraft成分,如anchor數(shù)量、尺度、長寬比等,模型的訓(xùn)練效果極大地受到這些因素的影響,另外還會影響模型推斷速度

那么如何改進(jìn)呢..不知怎地,作者靈光一閃,想到在解決人體姿態(tài)估計(jì)問題的方法中,有一類bottom-up框架,其方法是先對人體關(guān)鍵點(diǎn)部位進(jìn)行檢測,再將檢測到的關(guān)鍵點(diǎn)部位拼接成人的姿態(tài)。

于是,作者腦回路:“咦,要不我也這么干好了!我也來檢測關(guān)鍵點(diǎn)。目標(biāo)檢測最終不是要定位物體對應(yīng)的預(yù)測框嗎,那我就檢測出框的左上和右下兩個(gè)角點(diǎn),這樣我也能定位出整個(gè)框了,萬歲!”。于是,CornerNet就這樣機(jī)緣巧合地“出生”了。


概述

概括地說,CornerNet使用單個(gè)卷積網(wǎng)絡(luò)來檢測物體的左上角和右下角:

? ? --通過預(yù)測得到的熱圖(heatmaps)來判別各位置是否屬于角點(diǎn);

? ? --基于預(yù)測的角點(diǎn)嵌入向量(embeddings)來對角點(diǎn)進(jìn)行配對(屬于同一物體的一對角點(diǎn)的embeddings之間的距離會比較小,屬于不同物體的則比較大),從而判斷哪些左上角點(diǎn)和右下角點(diǎn)是屬于同一物體的;

? ? --使用預(yù)測的偏移量(offsets)對角點(diǎn)位置進(jìn)行調(diào)整

另外,為了更好地檢測角點(diǎn),提出了新型的池化層——Corner Pooling。


整體框架

Overview

首先將輸入圖像通過預(yù)處理模塊:1個(gè)7×7的卷積模塊(conv+bn+relu)+1個(gè)殘差模塊,分別下采樣2倍,這會將輸入圖像尺寸縮小為原來的1/4(論文中使用的輸入圖像大小是511×511,于是下采樣后得到128×128大小的輸出特征圖)。

然后將預(yù)處理模塊輸出的特征圖輸入到backbone提取特征,backbone采用的是沙漏網(wǎng)絡(luò)(Hourglass Network)結(jié)構(gòu),這里串聯(lián)(堆疊)了兩個(gè)相同結(jié)構(gòu)的Hourglass Network,其中每個(gè)在經(jīng)過下采樣操作后會上采樣恢復(fù)到之前的大小,因此backbone輸出特征圖的大小與其輸入一致。

Hourglass Network后連接著兩個(gè)預(yù)測模塊,分別用于預(yù)測左上角和右下角。每個(gè)模塊包含其獨(dú)立的角池化(Corner Pooling)模塊。

接著,將Hourglass Network的輸出特征輸入到Corner Pooling模塊得到池化特征。

最后,將池化特征分別輸入到3個(gè)不同的卷積模塊來預(yù)測heatmaps、embeddings以及offsets。


角點(diǎn)檢測

檢測包括分類+定位,這里主要是分類,即判斷特征圖上的各個(gè)(特征點(diǎn))位置是否屬于角點(diǎn),不需要顯式回歸角點(diǎn)的位置,角點(diǎn)的位置基本由特征點(diǎn)的位置決定,然后通過預(yù)測的offsets進(jìn)行調(diào)整。


Heatmaps

分類基于兩組heatmaps,分別用于左上角和右下角的判斷。每組heatmap的shape是C \times H\times W,C是物體類別數(shù)(不含背景),H \times W是特征圖的尺寸。這樣,每個(gè)通道就對應(yīng)特定類別物體的角點(diǎn)判斷。理想狀態(tài)下,它是一個(gè)二值mask,值為1就代表該位置屬于角點(diǎn),而通常模型預(yù)測出來每個(gè)位置上的值是0~1,代表該位置屬于角點(diǎn)的置信度。

Penalty Reduction

由此可知,對于每個(gè)角點(diǎn),只有1個(gè)正樣本位置。那么訓(xùn)練時(shí),1個(gè)gt在heatmap上的標(biāo)簽就只有在其對應(yīng)的位置上值為1,其余均為0。不知你有沒feel到,這樣的話,很容易由于正樣本過少而導(dǎo)致低召回率。在實(shí)際情況中,即使我們選擇一對與gt角點(diǎn)有一定程度偏離的角點(diǎn)來形成預(yù)測框,那么它也有可能與gt box有較高的重疊度(IoU),這樣的預(yù)測框作為檢測結(jié)果也是不錯(cuò)的選擇(如下圖,紅框是gt bboxes,綠框是距離gt角點(diǎn)較近的角點(diǎn)對形成的bboxes)。

penalty reduction

于是,對于那些距離gt角點(diǎn)位置較近的負(fù)樣本位置,我們可以“在心里暗暗地將它們也作為候選的正樣本”,轉(zhuǎn)化到數(shù)學(xué)形式上,就是在計(jì)算loss時(shí)減低對它們的懲罰度,懲罰度與它們距離gt角點(diǎn)的遠(yuǎn)近相關(guān)(gt角點(diǎn) to 負(fù)樣本:你離我越近,我對你越溫柔~)。

具體來說,距離gt角點(diǎn)在半徑為r的圓內(nèi)的那些負(fù)樣本,我們重新計(jì)算其標(biāo)簽值為0~1之間的值(而非原來的0),離gt角點(diǎn)越近越接近1,否則越接近0:

以上x,y代表負(fù)樣本位置與gt角點(diǎn)位置的橫、縱坐標(biāo)之差,i,j是特征點(diǎn)的位置,\sigma 起到控制懲罰度嚴(yán)厲程度(變化快慢)的作用,值越大,懲罰越輕(可聯(lián)想到高斯曲線越扁平)。你看看,這就是CornerNet對這批“候選正樣本”的愛~

OK,已經(jīng)感受到愛了,那么怎么用到loss計(jì)算上呢?作者設(shè)計(jì)了一種focal loss的變體:

a variant of focal loss

p_{cij}代表模型預(yù)測的heatmap中位置(i,j)屬于類別?c物體角點(diǎn)的置信度,\alpha =2,\beta =4。由上式可知,紅色框部分就可以達(dá)到降低距離gt角點(diǎn)較近的那些負(fù)樣本懲罰度的效果。而對于那些遠(yuǎn)離gt角點(diǎn)的負(fù)樣本,它們對應(yīng)的標(biāo)簽值依然是0,因此不受影響。

CornerNet告訴我們,許多事情不是非正即負(fù)、非0即1,世界本就是混沌。做人也一樣,不能太死板,對待他人要理解與包容,適當(dāng)?shù)膶捜菽軌蛟谏钪蝎@取小確幸(說不定還有大確幸呢)。


Radius Computation

以上只談到對于距離gt角點(diǎn)在半徑為r的圓內(nèi)的那些負(fù)樣本“給予適當(dāng)?shù)膶捜荨?,但并未說明半徑如何計(jì)算,不急,因?yàn)橐夥匠淌?,可以先喝杯咖啡,休息下?/p>

在作者制定的規(guī)則下,半徑是基于這樣一個(gè)條件計(jì)算出來的:在圓內(nèi)的角點(diǎn)對形成的bbox(以下記為pred bbox)與gt box的IoU不小于t(作者在實(shí)驗(yàn)中設(shè)置為0.3)。根據(jù)這個(gè)條件,可以分3種情況來考慮:

i).?pred bbox包圍著gt box,同時(shí)兩邊與圓相切

這時(shí),IoU = \frac{hw}{(h+2r)(w+2r)}

移項(xiàng),整理得二元一次方程:

(4IoU)r^2+2IoU(h+w)r+(IoU-1)hw=0

還記得根的判別式因子嗎?其各項(xiàng)依次為:

a=4IoU,b=2IoU(h+w),c=(IoU-1)hw

易知,判別式b^2-4ac>0(因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=IoU%3C1" alt="IoU<1" mathimg="1">,所以c<0),于是有解:

r=\frac{-b\pm \sqrt{b^2-4ac} }{2a}

但是,我們需要的半徑應(yīng)該是正根,于是最終:

r=\frac{-b + \sqrt{b^2-4ac} }{2a}


ii).?gt box包圍著pred bbox,同時(shí)兩邊與圓相切

這時(shí),IoU=\frac{(h-2r)(w-2r)}{hw}

同上,移項(xiàng)整理得:

4r^{2}-2(h+w)r+(1-IoU)hw=0

此時(shí),根的判別式因子:

a=4,b=-2(h+w),c=(1-IoU)hw

判別式:

b^{2}-4ac=4(h+w)^{2}-16hw(1-IoU) > 4(h+w)^{2}-16hw=4(h-w)^{2}\geq 0

于是,方程有解,并且此時(shí)兩個(gè)根\frac{-b\pm\sqrt{b^{2}-4ac}}{2a}都是正根。為了兼容其它情況,我們需要取小的根,即:

r=\frac{-b-\sqrt{b^{2}-4ac}}{2a}


iii). pred bbox與gt box部分重疊,兩者分別有兩邊與圓相切

此時(shí),IoU=\frac{(h-r)(w-r)}{2hw-(h-r)(w-r)}

移項(xiàng)整理得:

r^{2}-(h+w)r+\frac{1-IoU}{1+IoU}hw=0

根的判別式因子:

a=1,b=-(h+w),c=\frac{1-IoU}{1+IoU}hw

易證判別式b^{2}-4ac>0(請讓CW偷下懶..),最終取較小的根:

r=\frac{-b-\sqrt{b^{2}-4ac}}{2a}

3種情況都是根據(jù)求根公式計(jì)算出對應(yīng)的半徑值r1,r2,r3,在實(shí)現(xiàn)時(shí),將IoU=t代入計(jì)算。為了兼容各種情況,最終r的取值需要是三個(gè)解中的最小值:

r=min(r1,r2,r3)


location offsets

offsets用于調(diào)整預(yù)測的角點(diǎn)位置,使得定位更精確。注意,其和anchor-based框架中回歸的偏移量不同,在這里,offsets的實(shí)質(zhì)是量化誤差。

由于在卷積神經(jīng)網(wǎng)絡(luò)中存在著下采樣層,于是將特征圖中的位置重新映射到輸入圖像中的空間時(shí),勢必會存在量化誤差,這極大地影響了小目標(biāo)邊界框的定位。

為了緩解這一現(xiàn)象,在訓(xùn)練時(shí),計(jì)算gt角點(diǎn)位置映射到特征圖位置時(shí)的量化誤差,將其作為offsets的訓(xùn)練標(biāo)簽:

量化誤差

其中n是下采樣率, (x_{k},y_{k}) 是角點(diǎn)k在原圖的位置。

訓(xùn)練模型讓其學(xué)會預(yù)測這個(gè)誤差值,以便在最終檢測時(shí)重新調(diào)整預(yù)測的角點(diǎn)位置。使用smooth-l1 loss對這部分進(jìn)行學(xué)習(xí):

smooth l1 loss

訓(xùn)練完畢后,在測試時(shí),就可以這樣調(diào)整預(yù)測的角點(diǎn)位置(實(shí)際實(shí)現(xiàn)時(shí)并非這樣,這里僅僅打個(gè)簡單的比方):

假設(shè)在heatmap上位置(x,y)被預(yù)測為角點(diǎn),其對應(yīng)預(yù)測的offsets為\bar{o}=(\Delta x, \Delta y),那么其映射到原圖上的位置就是 (x_{0}=\left[ (x+\Delta x)n \right], y_{0}=\left[ (y+\Delta y)n \right])。


角點(diǎn)配對

在特征圖的每個(gè)位置上,模型還會預(yù)測角點(diǎn)對應(yīng)的嵌入向量(embeddings),用于將左上角點(diǎn)和右下角點(diǎn)進(jìn)行配對。能否匹配成一對主要是由embeddings之間的距離來決定的(當(dāng)然,其實(shí)還有其它條件,如預(yù)測的角點(diǎn)必須屬于相同類別、右下角點(diǎn)的坐標(biāo)必須大于左上角點(diǎn)的坐標(biāo))。理想狀態(tài)下,同一物體的一對角點(diǎn)對應(yīng)的embeddings之間的距離較小,而不同物體的則較大。那么,如何實(shí)現(xiàn)這一目標(biāo)呢?

在訓(xùn)練時(shí),CornerNet使用'pull loss'來拉近屬于同一物體的角點(diǎn)的embeddings,同時(shí)使用'push loss'來遠(yuǎn)離屬于不同物體的角點(diǎn)的embeddings

pull loss & push loss

其中e_{tk},e_{bk}分別為目標(biāo)物體k的左上角和右下角對應(yīng)的embeddings,e_{k}則是兩者的均值,\Delta=1,代表不同物體的角點(diǎn)對應(yīng)的embeddings之間的margin下限(e_{k}toe_{j}:我們不熟,別靠太近,保持1米以外的文明距離)。N是目標(biāo)物體的數(shù)量,也就是說,僅對gt角點(diǎn)位置對應(yīng)的預(yù)測embeddings計(jì)算這些損失。

Corner Pooling

由于實(shí)際生活中許多物體并沒有角狀,比如圓形的餐盤、條形的繩子等,因此并沒有直觀明顯的視覺特征來表征角點(diǎn)。這也就是說,通過現(xiàn)有的視覺濾波器(卷積層、池化層等)去捕捉圖像的局部特征來檢測角點(diǎn),效果并不會太好。比如以下這些情況,物體的左上角和右下角點(diǎn)處并不存在物體本身的部分,即這些角點(diǎn)的位置本身并不存在物體的特征。

于是,為了在角點(diǎn)處獲取到物體特征,我們需要將物體的特征匯集到角點(diǎn)處。比如對于左上角,可以將其水平向右以及豎直向下的特征都“收集”過來;而對于右下角點(diǎn),則將其水平向左以及豎直向上的特征“收集”過來。

基于這種思想,作者提出了Corner Pooling,分別對用于收集左上角點(diǎn)特征和右下角點(diǎn)特征。對于左上角點(diǎn),其處理如下:

其中f_{t},f_{l}分別表示池化層的輸入特征圖,它們的目標(biāo)是分別將豎直方向和水平方向的特征不斷匯集到上方和左方。這樣,在f_{t},f_{l}中的左上角點(diǎn)就分別擁有了豎直方向和水平方向的極大值特征,t_{ij},l_{ij}分別代表f_{t},f_{l}中位置(i,j)的特征值。

最終,將f_{t},f_{l}進(jìn)行element-wise add得到輸出特征圖,于是,在其中的左上角點(diǎn)處就擁有了豎直加水平方向的極大值特征。

top-left corner pooling

對于右下角點(diǎn)的處理也是同樣道理,經(jīng)Corner Pooling處理后,會在輸出特征圖的右下角點(diǎn)處匯聚到豎直和水平方向的極大值特征。


訓(xùn)練

網(wǎng)絡(luò)模型在基于Pytorch的默認(rèn)方式下進(jìn)行隨機(jī)初始化,并且沒有在額外的數(shù)據(jù)集上預(yù)訓(xùn)練。

輸入圖像的分辨率設(shè)置為511×511,4倍下采樣后輸出特征的分辨率為128×128。為了減少過擬合,采用了不少數(shù)據(jù)增強(qiáng)技術(shù),包括:隨機(jī)水平翻轉(zhuǎn)、隨機(jī)縮放、隨機(jī)裁剪以及隨機(jī)色彩抖動(調(diào)整圖像的亮度、飽和度和對比度)。 最后,還將PCA應(yīng)用于輸入圖像。

batch size設(shè)置為49,使用10個(gè)(Titan X PASCAL)GPUs來訓(xùn)練,其中每個(gè)batch在master GPU上分配4張圖,其余GPUs各分配5張。

訓(xùn)練損失最終的形式為:

其中\alpha=\beta=0.1,\gamma=1

使用Adam優(yōu)化器進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為 2.5\times 10^{-4}。初始先訓(xùn)練250k次迭代,在實(shí)驗(yàn)中與其它檢測器進(jìn)行比較時(shí),額外再訓(xùn)練250k次迭代,并且在最后的50k次迭代中將學(xué)習(xí)率減低至2.5\times 10^{-5}


Intermediate Supervision

作者在訓(xùn)練時(shí)還添加了中間監(jiān)督。前文提到過,backbone是兩個(gè)相同結(jié)構(gòu)的Hourglass Networks串聯(lián)而成,中間監(jiān)督的意思就是對第一個(gè)Hourglass Network的輸出預(yù)測也實(shí)行監(jiān)督。具體來說,就是將第一個(gè)Hourglass Network的輸出特征圖也輸入到后面的預(yù)測模塊:先經(jīng)過corner pooling池化,然后分別輸入到不同的卷積模塊分別預(yù)測heatmaps、embeddings和offsets,對這部分的預(yù)測結(jié)果也計(jì)算損失進(jìn)行訓(xùn)練。

那么可能有帥哥/靚女會疑問:那第二個(gè)Hourglass Network的輸入是什么呢?

OK,CW也大方地補(bǔ)充說明下:其實(shí)在兩個(gè)Hourglass Networks之間還有些中間處理模塊,它們的實(shí)質(zhì)都是conv+bn+relu和殘差模塊,將第一個(gè)Hourglass Network的輸入、輸出特征圖經(jīng)過這些中間模塊處理后就是第二個(gè)Hourglass Network的輸入。


測試

prediction module

模型整體框架的pipeline就不細(xì)說了,前文已經(jīng)詳細(xì)解析過,概括來說就是:Preprocess (7x7Conv+Bn+Relu & Residual Module)->Hourglass Networks->Corner Pooling->Prediction Head(output Heatmaps, Embeddings & Offsets)。

這里主要說明下測試時(shí)對圖像的處理和對模型輸出的后處理。


測試圖像處理

測試時(shí)對圖像的處理方式還蠻有“個(gè)性”,作者在paper中一筆帶過:

? Instead of resizing an image to a fixed size, we maintain the original resolution of the image and pad it with zeros before feeding it to CornerNet.

意思是,不改變圖像分辨率,但使用0填充。但是,具體怎么做的,填充多少部分卻沒有詳細(xì)說明(能不能坦誠相對..)。CW對這實(shí)在不能忍,看了源碼后,發(fā)現(xiàn)是這樣做的:

# new_height, new_width是原圖高、寬縮放后的值

# (CornerNet其實(shí)還有個(gè)多尺度版本,支持對原圖多個(gè)尺度進(jìn)行檢測)

# inp_height、inp_width就是要輸入到網(wǎng)絡(luò)中的圖像高、寬

inp_height = new_height | 127

inp_width = new_width | 127

# 初始化一個(gè)全0的圖像,這個(gè)就是要輸入到網(wǎng)絡(luò)中的圖像

images = np.zeros((1, 3, inp_height, inp_width), dtype=np.float32)

代碼中 ' | 127 ' 這種方式會將new height和new width的低7位全部置1,猜測作者這樣做的意思應(yīng)該是想使得輸入圖像的尺寸至少為128x128吧(聯(lián)想到CornerNet訓(xùn)練時(shí)輸入分辨率是511x511,輸出特征圖分辨率正好是128x128)。

最后,將原圖裁剪下來放置在填充的全0圖像中,保持中心對齊,同時(shí)會記錄原圖在這個(gè)填充圖像中的區(qū)域邊界:(y_{min}, y_{max}, x_{min},x_{max}),以便后續(xù)將檢測結(jié)果還原到原圖坐標(biāo)空間。也就是說,在網(wǎng)絡(luò)輸入圖像中,區(qū)域邊界以外的部分都是0。

另外,對于每張圖片,還會將其水平鏡像圖片也一并輸入到網(wǎng)絡(luò)中(組成一個(gè)batch)進(jìn)行測試,最終的檢測結(jié)果是綜合原圖和鏡像圖片的結(jié)果。


后處理

OK,再來說說后處理過程,看是如何得到最終檢測結(jié)果的。

????1. 首先,對heatmaps使用kernel大小為3×3的最大池化層(pad=1),輸出分辨率維持不變。將池化后的heatmaps與原h(huán)eatmaps作比較,于是可以知道,值改變了的位置就是非極大值位置,將這些位置的值(即置信度)置0,那么這些位置在后續(xù)就不可能作為可能的角點(diǎn)位置了,這樣起到了抑制非極大值的作用(paper中稱為NMS,但其實(shí)和目標(biāo)檢測常用的NMS有所區(qū)別,這里特別說明下);

????2. 然后,從heatmaps中根據(jù)置信度選擇top100個(gè)左上角和右下角位置(在所有分類下進(jìn)行,不區(qū)分類別),并且根據(jù)對應(yīng)位置預(yù)測的offsets來調(diào)整角點(diǎn)位置;

? ? 3. 接著,計(jì)算左上角和右下角(每個(gè)左上角都和其余99個(gè)右下角)位置對應(yīng)預(yù)測的embeddings之間的距離,距離大于0.5的、屬于不同類別的、坐標(biāo)關(guān)系不滿足(右下角坐標(biāo)需大于左上角)的角點(diǎn)對就不能匹配成一對;

? ? 4. 緊接著,角點(diǎn)已經(jīng)完成配對,再次根據(jù)每對角點(diǎn)的平均置信度(得分)選出top100對,同時(shí)它們的平均得分作為各目標(biāo)的檢測分?jǐn)?shù);

? ? 5. 最后,結(jié)合原圖和鏡像圖的以上結(jié)果,在各類別下對角點(diǎn)對形成的bbox實(shí)施soft-nms(也就是說,soft-nms是對原圖和鏡像圖的預(yù)測bbox一并做的,但是分類別進(jìn)行),如果之后每張圖片保留下來的bbox大于100個(gè),那么去掉多余的,僅保留得分top100的檢測結(jié)果


實(shí)驗(yàn)分析

性能瓶頸

CornerNet同時(shí)輸出熱圖、嵌入和偏移,所有這些結(jié)果都會影響檢測性能。 比如:熱圖中漏檢了任何一個(gè)角點(diǎn)就會丟失一個(gè)目標(biāo)、不正確的嵌入將導(dǎo)致許多錯(cuò)誤的邊界框、預(yù)測的偏移不正確則嚴(yán)重影響邊界框的定位。

為了理解每個(gè)部件對最終的誤差有多大程度的影響,作者通過將預(yù)測的熱圖和偏移替換為gt,并在驗(yàn)證集上評估性能,以此來進(jìn)行誤差分析:

誤差分析

由實(shí)驗(yàn)結(jié)果可知,單獨(dú)使用gt熱圖就可以將AP從38.5%提高到74.0%,這表明CornerNet的主要瓶頸在于角點(diǎn)的識別。

對負(fù)樣本位置的懲罰度降低

CornerNet在訓(xùn)練過程中減少了在gt角點(diǎn)位置一定半徑的圓內(nèi)的負(fù)樣本位置的懲罰。為了理解這對檢測性能的影響,作者在實(shí)驗(yàn)中額外訓(xùn)練了一個(gè)沒有降低懲罰度的網(wǎng)絡(luò)和另一個(gè)有懲罰度降低但半徑值是固定的網(wǎng)絡(luò),然后在驗(yàn)證集上將它們與CornerNet進(jìn)行比較:

實(shí)驗(yàn)結(jié)果顯示,即使使用固定的半徑值,只要有懲罰度降低就可以將基線的AP提升2.7%,而使用基于物體大小計(jì)算出來的半徑則可以進(jìn)一步將AP提高2.9%。此外,我們看到減少懲罰度特別有利于大中型目標(biāo)。

思考

最后,CW談?wù)勚档盟伎嫉膸讉€(gè)點(diǎn):

1. 為何減少對部分負(fù)樣本的懲罰有利于大中型目標(biāo)的檢測,卻對小目標(biāo)的不友好呢?

可以feel到,大中型目標(biāo)的尺度相對較大,那么即使角點(diǎn)和gt有些許偏移,也是由較高的可能性生成與gt box充分重疊的bbox的。因此,降低懲罰度的背后實(shí)際是提供了更多潛在的正樣本,于是提高了召回率。

相反,小目標(biāo)尺度較小,對角點(diǎn)位置檢測的要求也因此較為苛刻,對于大中型目標(biāo)來說降低懲罰度提供了更多潛在的正樣本,但對小目標(biāo)來說可能它們就是實(shí)實(shí)在在的負(fù)樣本了。另外,通過實(shí)驗(yàn)結(jié)果可知,降低懲罰度對于小目標(biāo)來說其AP比基線也沒有下降太多,可以(寬容地)認(rèn)為沒有太大影響。


2. 后處理時(shí)使用max pooling進(jìn)行非極大值抑制是否不妥?

想象下,如果兩個(gè)物體的角點(diǎn)靠得非常近,那么其中一個(gè)物體的檢測就很有可能被“誤殺”掉,可憐不..

不知道為何不基于一個(gè)置信度閥值去卡掉不好的檢測結(jié)果,作者也沒有相關(guān)的實(shí)驗(yàn)說明。


3. 測試時(shí)為何要連鏡像圖也一并輸入進(jìn)行檢測?

關(guān)于這點(diǎn),作者也沒有給出理由,也沒有給出實(shí)驗(yàn)結(jié)果對比如果單獨(dú)使用原圖檢測效果如何。CW猜測,使用鏡像圖,可能是為了更充分地檢測角點(diǎn)

在水平鏡像圖中,右上角和左下角會分別變成左上角和右下角。于是,使用鏡像圖的話,就可以對原圖中相反方向的角點(diǎn)對進(jìn)行檢測,從而彌補(bǔ)在原圖中檢測角點(diǎn)對不夠充分的問題(由前面的實(shí)驗(yàn)分析可知,CornerNet的主要瓶頸就在于角點(diǎn)的識別)。


4. 為何不適用多尺度特征來進(jìn)行預(yù)測?

作者在paper中強(qiáng)調(diào)過,僅使用最后一層特征來進(jìn)行預(yù)測:

? Unlike many other state-of-the-art detectors, we only use the features from the last layer of the whole network to make predictions.

怎么好像有點(diǎn)驕傲味道?

對于這點(diǎn),在paper中其實(shí)有“半虛半實(shí)”地說到過。作者說,特征圖相比于輸入圖像只下采樣了4倍(因此對于小目標(biāo)影響應(yīng)該不會太嚴(yán)重),而backbone使用的是Hourglass Networks:在一系列下采樣后又上采樣至相同的分辨率,同時(shí)其中還添加了skip connection,因此最終的輸出特征能夠同時(shí)擁有淺層的全局信息(利于定位)與高層的局部信息(利于識別)。

另外,作者也通過實(shí)驗(yàn)將backbone替換成ResNet with FPN,結(jié)果顯示backbone還是使用Hourglass Networks比較好。但是!在實(shí)驗(yàn)中,作者僅使用FPN的最后一層進(jìn)行預(yù)測,要是使用FPN多層的特征進(jìn)行預(yù)測的話,性能誰搞誰低還真說不準(zhǔn)..


5. 為何基于角點(diǎn)能夠比基于錨框的檢測效果好?

作者在paper中展示了CornerNet與其它anchor-based的檢測器的性能比較,結(jié)果顯示CornerNet能夠取得更優(yōu)的性能。對于這個(gè)情況,作者認(rèn)為:

a). anchor boxes的中心點(diǎn)需要依賴于四條邊,而角點(diǎn)卻只依賴于兩條邊,因此角點(diǎn)更易定位(CW覺得應(yīng)該叫可確定性更加高比較合適,是否真的更易定位難說..)。同時(shí)加上使用了corner pooling(這個(gè)專門為角點(diǎn)檢測而服務(wù)的大殺器),于是效果會比anchor-based更佳;

b). 本質(zhì)上采用了更高效的檢測機(jī)制:僅使用O(wh)個(gè)corners就能替代了O(w^{2}h^{2})個(gè)可能的anchor boxes

對于以上b,解釋下:

假設(shè)h \times w大小的圖像,角點(diǎn)由于僅用位置信息就可代表其可能性,因此有O(wh)種;而anchor box的可能性除了與中心點(diǎn)位置有關(guān),還與其長、寬相關(guān)。中心點(diǎn)位置可能性有O(wh)種,而一個(gè)anchor box在固定中心點(diǎn)又有O(wh)種長寬的可能,于是anchor boxes的可能性就是O(w^{2}h^{2})了。



End

以上就是本文的內(nèi)容了,若朋友你覺得CW的理解有不妥之處或者你有任何idea想和我交流,歡迎在下方評論區(qū)show出。大家一起進(jìn)行思想的碰撞,才更有意思,更好玩!畢竟,CW不要無聊的風(fēng)格。

CW
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容