CornerNet

前言

CornerNet于2019年3月份提出，CW近期回顧了下這個(gè)在當(dāng)時(shí)引起不少關(guān)注的目標(biāo)檢測模型，它的亮點(diǎn)在于提出了一套新的方法論——將目標(biāo)檢測轉(zhuǎn)化為對物體成對關(guān)鍵點(diǎn)(角點(diǎn))的檢測。通過將目標(biāo)物體視作成對的關(guān)鍵點(diǎn)，其不需要在圖像上鋪設(shè)先驗(yàn)錨框(anchor)，可謂實(shí)實(shí)在在的anchor-free，這也減少了整體框架中人工設(shè)計(jì)(handcraft)的成分。

為了讓自己的梳理工作更好地反饋到自身以實(shí)現(xiàn)內(nèi)化，CW決定在此記錄下自己對CornerNet的理解，同時(shí)也和大家進(jìn)行分享，如果有幸能夠幫助到你們，那我就更是happy了！

本文內(nèi)容有些長，但是如果你打算認(rèn)真回顧和思考有關(guān)CornerNet技術(shù)原理的細(xì)節(jié)，不妨耐心地看下去。CW也將本文的目錄列出來了，大家也可根據(jù)自身需求節(jié)選部分內(nèi)容來看。

研究動機(jī)及背景

作者發(fā)現(xiàn)，目標(biāo)檢測中anchor-based方法存在以下問題：

? ? 1. 為了給gt提供正樣本，需要密集鋪設(shè)多尺度的anchors，但這同時(shí)會造成正負(fù)樣本不均衡；

? ? 2. anchor的存在就勢必引入眾多handcraft成分，如anchor數(shù)量、尺度、長寬比等，模型的訓(xùn)練效果極大地受到這些因素的影響，另外還會影響模型推斷速度

那么如何改進(jìn)呢..不知怎地，作者靈光一閃，想到在解決人體姿態(tài)估計(jì)問題的方法中，有一類bottom-up框架，其方法是先對人體關(guān)鍵點(diǎn)部位進(jìn)行檢測，再將檢測到的關(guān)鍵點(diǎn)部位拼接成人的姿態(tài)。

于是，作者腦回路：“咦，要不我也這么干好了！我也來檢測關(guān)鍵點(diǎn)。目標(biāo)檢測最終不是要定位物體對應(yīng)的預(yù)測框嗎，那我就檢測出框的左上和右下兩個(gè)角點(diǎn)，這樣我也能定位出整個(gè)框了，萬歲！”。于是，CornerNet就這樣機(jī)緣巧合地“出生”了。

概述

概括地說，CornerNet使用單個(gè)卷積網(wǎng)絡(luò)來檢測物體的左上角和右下角：

? ? --通過預(yù)測得到的熱圖(heatmaps)來判別各位置是否屬于角點(diǎn)；

? ? --基于預(yù)測的角點(diǎn)嵌入向量(embeddings)來對角點(diǎn)進(jìn)行配對(屬于同一物體的一對角點(diǎn)的embeddings之間的距離會比較小，屬于不同物體的則比較大)，從而判斷哪些左上角點(diǎn)和右下角點(diǎn)是屬于同一物體的；

? ? --使用預(yù)測的偏移量(offsets)對角點(diǎn)位置進(jìn)行調(diào)整

另外，為了更好地檢測角點(diǎn)，提出了新型的池化層——Corner Pooling。

整體框架

Overview

首先將輸入圖像通過預(yù)處理模塊：1個(gè)7×7的卷積模塊(conv+bn+relu)+1個(gè)殘差模塊，分別下采樣2倍，這會將輸入圖像尺寸縮小為原來的1/4(論文中使用的輸入圖像大小是511×511，于是下采樣后得到128×128大小的輸出特征圖)。

然后將預(yù)處理模塊輸出的特征圖輸入到backbone提取特征，backbone采用的是沙漏網(wǎng)絡(luò)(Hourglass Network)結(jié)構(gòu)，這里串聯(lián)(堆疊)了兩個(gè)相同結(jié)構(gòu)的Hourglass Network，其中每個(gè)在經(jīng)過下采樣操作后會上采樣恢復(fù)到之前的大小，因此backbone輸出特征圖的大小與其輸入一致。

Hourglass Network后連接著兩個(gè)預(yù)測模塊，分別用于預(yù)測左上角和右下角。每個(gè)模塊包含其獨(dú)立的角池化(Corner Pooling)模塊。

接著，將Hourglass Network的輸出特征輸入到Corner Pooling模塊得到池化特征。

最后，將池化特征分別輸入到3個(gè)不同的卷積模塊來預(yù)測heatmaps、embeddings以及offsets。

角點(diǎn)檢測

檢測包括分類+定位，這里主要是分類，即判斷特征圖上的各個(gè)(特征點(diǎn))位置是否屬于角點(diǎn)，不需要顯式回歸角點(diǎn)的位置，角點(diǎn)的位置基本由特征點(diǎn)的位置決定，然后通過預(yù)測的offsets進(jìn)行調(diào)整。

Heatmaps

分類基于兩組heatmaps，分別用于左上角和右下角的判斷。每組heatmap的shape是 $C \times H\times W$ ， $C$ 是物體類別數(shù)(不含背景)， $H \times W$ 是特征圖的尺寸。這樣，每個(gè)通道就對應(yīng)特定類別物體的角點(diǎn)判斷。理想狀態(tài)下，它是一個(gè)二值mask，值為1就代表該位置屬于角點(diǎn)，而通常模型預(yù)測出來每個(gè)位置上的值是0~1，代表該位置屬于角點(diǎn)的置信度。

Penalty Reduction

由此可知，對于每個(gè)角點(diǎn)，只有1個(gè)正樣本位置。那么訓(xùn)練時(shí)，1個(gè)gt在heatmap上的標(biāo)簽就只有在其對應(yīng)的位置上值為1，其余均為0。不知你有沒feel到，這樣的話，很容易由于正樣本過少而導(dǎo)致低召回率。在實(shí)際情況中，即使我們選擇一對與gt角點(diǎn)有一定程度偏離的角點(diǎn)來形成預(yù)測框，那么它也有可能與gt box有較高的重疊度(IoU)，這樣的預(yù)測框作為檢測結(jié)果也是不錯(cuò)的選擇(如下圖，紅框是gt bboxes，綠框是距離gt角點(diǎn)較近的角點(diǎn)對形成的bboxes)。

penalty reduction

于是，對于那些距離gt角點(diǎn)位置較近的負(fù)樣本位置，我們可以“在心里暗暗地將它們也作為候選的正樣本”，轉(zhuǎn)化到數(shù)學(xué)形式上，就是在計(jì)算loss時(shí)減低對它們的懲罰度，懲罰度與它們距離gt角點(diǎn)的遠(yuǎn)近相關(guān)(gt角點(diǎn) to 負(fù)樣本：你離我越近，我對你越溫柔~)。

具體來說，距離gt角點(diǎn)在半徑為 $r$ 的圓內(nèi)的那些負(fù)樣本，我們重新計(jì)算其標(biāo)簽值為0~1之間的值(而非原來的0)，離gt角點(diǎn)越近越接近1，否則越接近0：

以上 $x,y$ 代表負(fù)樣本位置與gt角點(diǎn)位置的橫、縱坐標(biāo)之差， $i,j$ 是特征點(diǎn)的位置， $\sigma$ 起到控制懲罰度嚴(yán)厲程度(變化快慢)的作用，值越大，懲罰越輕(可聯(lián)想到高斯曲線越扁平)。你看看，這就是CornerNet對這批“候選正樣本”的愛~

OK，已經(jīng)感受到愛了，那么怎么用到loss計(jì)算上呢？作者設(shè)計(jì)了一種focal loss的變體：

a variant of focal loss

$p_{cij}$ 代表模型預(yù)測的heatmap中位置 $(i,j)$ 屬于類別? $c$ 物體角點(diǎn)的置信度， $\alpha =2,\beta =4$ 。由上式可知，紅色框部分就可以達(dá)到降低距離gt角點(diǎn)較近的那些負(fù)樣本懲罰度的效果。而對于那些遠(yuǎn)離gt角點(diǎn)的負(fù)樣本，它們對應(yīng)的標(biāo)簽值依然是0，因此不受影響。

CornerNet告訴我們，許多事情不是非正即負(fù)、非0即1，世界本就是混沌。做人也一樣，不能太死板，對待他人要理解與包容，適當(dāng)?shù)膶捜菽軌蛟谏钪蝎@取小確幸(說不定還有大確幸呢)。

Radius Computation

以上只談到對于距離gt角點(diǎn)在半徑為 $r$ 的圓內(nèi)的那些負(fù)樣本“給予適當(dāng)?shù)膶捜荨?，但并未說明半徑如何計(jì)算，不急，因?yàn)橐夥匠淌?，可以先喝杯咖啡，休息下?/p>

在作者制定的規(guī)則下，半徑是基于這樣一個(gè)條件計(jì)算出來的：在圓內(nèi)的角點(diǎn)對形成的bbox(以下記為pred bbox)與gt box的IoU不小于 $t$ (作者在實(shí)驗(yàn)中設(shè)置為0.3)。根據(jù)這個(gè)條件，可以分3種情況來考慮：

i).?pred bbox包圍著gt box，同時(shí)兩邊與圓相切

這時(shí)， $IoU = \frac{hw}{(h+2r)(w+2r)}$

移項(xiàng)，整理得二元一次方程：

$(4IoU)r^2+2IoU(h+w)r+(IoU-1)hw=0$

還記得根的判別式因子嗎？其各項(xiàng)依次為：

$a=4IoU,b=2IoU(h+w),c=(IoU-1)hw$

易知，判別式 $b^2-4ac>0$ (因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=IoU%3C1" alt="IoU<1" mathimg="1">，所以 $c<0$ )，于是有解：

$r=\frac{-b\pm \sqrt{b^2-4ac} }{2a}$

但是，我們需要的半徑應(yīng)該是正根，于是最終：

$r=\frac{-b + \sqrt{b^2-4ac} }{2a}$

ii).?gt box包圍著pred bbox，同時(shí)兩邊與圓相切

這時(shí)， $IoU=\frac{(h-2r)(w-2r)}{hw}$

同上，移項(xiàng)整理得：

$4r^{2}-2(h+w)r+(1-IoU)hw=0$

此時(shí)，根的判別式因子：

$a=4,b=-2(h+w),c=(1-IoU)hw$

判別式：

$b^{2}-4ac=4(h+w)^{2}-16hw(1-IoU) > 4(h+w)^{2}-16hw=4(h-w)^{2}\geq 0$

于是，方程有解，并且此時(shí)兩個(gè)根 $\frac{-b\pm\sqrt{b^{2}-4ac}}{2a}$ 都是正根。為了兼容其它情況，我們需要取小的根，即：

$r=\frac{-b-\sqrt{b^{2}-4ac}}{2a}$

iii). pred bbox與gt box部分重疊，兩者分別有兩邊與圓相切

此時(shí)， $IoU=\frac{(h-r)(w-r)}{2hw-(h-r)(w-r)}$

移項(xiàng)整理得：

$r^{2}-(h+w)r+\frac{1-IoU}{1+IoU}hw=0$

根的判別式因子：

$a=1,b=-(h+w),c=\frac{1-IoU}{1+IoU}hw$

易證判別式 $b^{2}-4ac>0$ (請讓CW偷下懶..)，最終取較小的根：

$r=\frac{-b-\sqrt{b^{2}-4ac}}{2a}$

3種情況都是根據(jù)求根公式計(jì)算出對應(yīng)的半徑值 $r1,r2,r3$ ，在實(shí)現(xiàn)時(shí)，將 $IoU=t$ 代入計(jì)算。為了兼容各種情況，最終 $r$ 的取值需要是三個(gè)解中的最小值：

$r=min(r1,r2,r3)$

location offsets

offsets用于調(diào)整預(yù)測的角點(diǎn)位置，使得定位更精確。注意，其和anchor-based框架中回歸的偏移量不同，在這里，offsets的實(shí)質(zhì)是量化誤差。

由于在卷積神經(jīng)網(wǎng)絡(luò)中存在著下采樣層，于是將特征圖中的位置重新映射到輸入圖像中的空間時(shí)，勢必會存在量化誤差，這極大地影響了小目標(biāo)邊界框的定位。

為了緩解這一現(xiàn)象，在訓(xùn)練時(shí)，計(jì)算gt角點(diǎn)位置映射到特征圖位置時(shí)的量化誤差，將其作為offsets的訓(xùn)練標(biāo)簽：

量化誤差

其中 $n$ 是下采樣率， $(x_{k},y_{k})$ 是角點(diǎn) $k$ 在原圖的位置。

訓(xùn)練模型讓其學(xué)會預(yù)測這個(gè)誤差值，以便在最終檢測時(shí)重新調(diào)整預(yù)測的角點(diǎn)位置。使用smooth-l1 loss對這部分進(jìn)行學(xué)習(xí)：

smooth l1 loss

訓(xùn)練完畢后，在測試時(shí)，就可以這樣調(diào)整預(yù)測的角點(diǎn)位置(實(shí)際實(shí)現(xiàn)時(shí)并非這樣，這里僅僅打個(gè)簡單的比方)：

假設(shè)在heatmap上位置 $(x,y)$ 被預(yù)測為角點(diǎn)，其對應(yīng)預(yù)測的offsets為 $\bar{o}=(\Delta x, \Delta y)$ ，那么其映射到原圖上的位置就是 $(x_{0}=\left[ (x+\Delta x)n \right], y_{0}=\left[ (y+\Delta y)n \right])$ 。

角點(diǎn)配對

在特征圖的每個(gè)位置上，模型還會預(yù)測角點(diǎn)對應(yīng)的嵌入向量(embeddings)，用于將左上角點(diǎn)和右下角點(diǎn)進(jìn)行配對。能否匹配成一對主要是由embeddings之間的距離來決定的(當(dāng)然，其實(shí)還有其它條件，如預(yù)測的角點(diǎn)必須屬于相同類別、右下角點(diǎn)的坐標(biāo)必須大于左上角點(diǎn)的坐標(biāo))。理想狀態(tài)下，同一物體的一對角點(diǎn)對應(yīng)的embeddings之間的距離較小，而不同物體的則較大。那么，如何實(shí)現(xiàn)這一目標(biāo)呢？

在訓(xùn)練時(shí)，CornerNet使用'pull loss'來拉近屬于同一物體的角點(diǎn)的embeddings，同時(shí)使用'push loss'來遠(yuǎn)離屬于不同物體的角點(diǎn)的embeddings：

pull loss & push loss

其中 $e_{tk},e_{bk}$ 分別為目標(biāo)物體 $k$ 的左上角和右下角對應(yīng)的embeddings， $e_{k}$ 則是兩者的均值， $\Delta=1$ ，代表不同物體的角點(diǎn)對應(yīng)的embeddings之間的margin下限( $e_{k}$ to $e_{j}$ ：我們不熟，別靠太近，保持1米以外的文明距離)。 $N$ 是目標(biāo)物體的數(shù)量，也就是說，僅對gt角點(diǎn)位置對應(yīng)的預(yù)測embeddings計(jì)算這些損失。

Corner Pooling

由于實(shí)際生活中許多物體并沒有角狀，比如圓形的餐盤、條形的繩子等，因此并沒有直觀明顯的視覺特征來表征角點(diǎn)。這也就是說，通過現(xiàn)有的視覺濾波器(卷積層、池化層等)去捕捉圖像的局部特征來檢測角點(diǎn)，效果并不會太好。比如以下這些情況，物體的左上角和右下角點(diǎn)處并不存在物體本身的部分，即這些角點(diǎn)的位置本身并不存在物體的特征。

于是，為了在角點(diǎn)處獲取到物體特征，我們需要將物體的特征匯集到角點(diǎn)處。比如對于左上角，可以將其水平向右以及豎直向下的特征都“收集”過來；而對于右下角點(diǎn)，則將其水平向左以及豎直向上的特征“收集”過來。

基于這種思想，作者提出了Corner Pooling，分別對用于收集左上角點(diǎn)特征和右下角點(diǎn)特征。對于左上角點(diǎn)，其處理如下：

其中 $f_{t},f_{l}$ 分別表示池化層的輸入特征圖，它們的目標(biāo)是分別將豎直方向和水平方向的特征不斷匯集到上方和左方。這樣，在 $f_{t},f_{l}$ 中的左上角點(diǎn)就分別擁有了豎直方向和水平方向的極大值特征， $t_{ij},l_{ij}$ 分別代表 $f_{t},f_{l}$ 中位置 $(i,j)$ 的特征值。

最終，將 $f_{t},f_{l}$ 進(jìn)行element-wise add得到輸出特征圖，于是，在其中的左上角點(diǎn)處就擁有了豎直加水平方向的極大值特征。

top-left corner pooling

對于右下角點(diǎn)的處理也是同樣道理，經(jīng)Corner Pooling處理后，會在輸出特征圖的右下角點(diǎn)處匯聚到豎直和水平方向的極大值特征。

訓(xùn)練

網(wǎng)絡(luò)模型在基于Pytorch的默認(rèn)方式下進(jìn)行隨機(jī)初始化，并且沒有在額外的數(shù)據(jù)集上預(yù)訓(xùn)練。

輸入圖像的分辨率設(shè)置為511×511，4倍下采樣后輸出特征的分辨率為128×128。為了減少過擬合，采用了不少數(shù)據(jù)增強(qiáng)技術(shù)，包括：隨機(jī)水平翻轉(zhuǎn)、隨機(jī)縮放、隨機(jī)裁剪以及隨機(jī)色彩抖動(調(diào)整圖像的亮度、飽和度和對比度)。最后，還將PCA應(yīng)用于輸入圖像。

batch size設(shè)置為49，使用10個(gè)(Titan X PASCAL)GPUs來訓(xùn)練，其中每個(gè)batch在master GPU上分配4張圖，其余GPUs各分配5張。

訓(xùn)練損失最終的形式為：

其中 $\alpha=\beta=0.1,\gamma=1$

使用Adam優(yōu)化器進(jìn)行優(yōu)化，初始學(xué)習(xí)率設(shè)置為 $2.5\times 10^{-4}$ 。初始先訓(xùn)練250k次迭代，在實(shí)驗(yàn)中與其它檢測器進(jìn)行比較時(shí)，額外再訓(xùn)練250k次迭代，并且在最后的50k次迭代中將學(xué)習(xí)率減低至 $2.5\times 10^{-5}$

Intermediate Supervision

作者在訓(xùn)練時(shí)還添加了中間監(jiān)督。前文提到過，backbone是兩個(gè)相同結(jié)構(gòu)的Hourglass Networks串聯(lián)而成，中間監(jiān)督的意思就是對第一個(gè)Hourglass Network的輸出預(yù)測也實(shí)行監(jiān)督。具體來說，就是將第一個(gè)Hourglass Network的輸出特征圖也輸入到后面的預(yù)測模塊：先經(jīng)過corner pooling池化，然后分別輸入到不同的卷積模塊分別預(yù)測heatmaps、embeddings和offsets，對這部分的預(yù)測結(jié)果也計(jì)算損失進(jìn)行訓(xùn)練。

那么可能有帥哥/靚女會疑問：那第二個(gè)Hourglass Network的輸入是什么呢？

OK，CW也大方地補(bǔ)充說明下：其實(shí)在兩個(gè)Hourglass Networks之間還有些中間處理模塊，它們的實(shí)質(zhì)都是conv+bn+relu和殘差模塊，將第一個(gè)Hourglass Network的輸入、輸出特征圖經(jīng)過這些中間模塊處理后就是第二個(gè)Hourglass Network的輸入。

測試

prediction module

模型整體框架的pipeline就不細(xì)說了，前文已經(jīng)詳細(xì)解析過，概括來說就是：Preprocess (7x7Conv+Bn+Relu & Residual Module)->Hourglass Networks->Corner Pooling->Prediction Head(output Heatmaps, Embeddings & Offsets)。

這里主要說明下測試時(shí)對圖像的處理和對模型輸出的后處理。

測試圖像處理

測試時(shí)對圖像的處理方式還蠻有“個(gè)性”，作者在paper中一筆帶過：

? Instead of resizing an image to a fixed size, we maintain the original resolution of the image and pad it with zeros before feeding it to CornerNet.

意思是，不改變圖像分辨率，但使用0填充。但是，具體怎么做的，填充多少部分卻沒有詳細(xì)說明(能不能坦誠相對..)。CW對這實(shí)在不能忍，看了源碼后，發(fā)現(xiàn)是這樣做的：

# new_height, new_width是原圖高、寬縮放后的值

# (CornerNet其實(shí)還有個(gè)多尺度版本，支持對原圖多個(gè)尺度進(jìn)行檢測)

# inp_height、inp_width就是要輸入到網(wǎng)絡(luò)中的圖像高、寬

inp_height = new_height | 127

inp_width = new_width | 127

# 初始化一個(gè)全0的圖像，這個(gè)就是要輸入到網(wǎng)絡(luò)中的圖像

images = np.zeros((1, 3, inp_height, inp_width), dtype=np.float32)

代碼中 ' | 127 ' 這種方式會將new height和new width的低7位全部置1，猜測作者這樣做的意思應(yīng)該是想使得輸入圖像的尺寸至少為128x128吧(聯(lián)想到CornerNet訓(xùn)練時(shí)輸入分辨率是511x511，輸出特征圖分辨率正好是128x128)。

最后，將原圖裁剪下來放置在填充的全0圖像中，保持中心對齊，同時(shí)會記錄原圖在這個(gè)填充圖像中的區(qū)域邊界： $(y_{min}, y_{max}, x_{min},x_{max})$ ，以便后續(xù)將檢測結(jié)果還原到原圖坐標(biāo)空間。也就是說，在網(wǎng)絡(luò)輸入圖像中，區(qū)域邊界以外的部分都是0。

另外，對于每張圖片，還會將其水平鏡像圖片也一并輸入到網(wǎng)絡(luò)中(組成一個(gè)batch)進(jìn)行測試，最終的檢測結(jié)果是綜合原圖和鏡像圖片的結(jié)果。

后處理

OK，再來說說后處理過程，看是如何得到最終檢測結(jié)果的。

????1. 首先，對heatmaps使用kernel大小為3×3的最大池化層(pad=1)，輸出分辨率維持不變。將池化后的heatmaps與原h(huán)eatmaps作比較，于是可以知道，值改變了的位置就是非極大值位置，將這些位置的值(即置信度)置0，那么這些位置在后續(xù)就不可能作為可能的角點(diǎn)位置了，這樣起到了抑制非極大值的作用(paper中稱為NMS，但其實(shí)和目標(biāo)檢測常用的NMS有所區(qū)別，這里特別說明下)；

????2. 然后，從heatmaps中根據(jù)置信度選擇top100個(gè)左上角和右下角位置(在所有分類下進(jìn)行，不區(qū)分類別)，并且根據(jù)對應(yīng)位置預(yù)測的offsets來調(diào)整角點(diǎn)位置；

? ? 3. 接著，計(jì)算左上角和右下角(每個(gè)左上角都和其余99個(gè)右下角)位置對應(yīng)預(yù)測的embeddings之間的距離，距離大于0.5的、屬于不同類別的、坐標(biāo)關(guān)系不滿足(右下角坐標(biāo)需大于左上角)的角點(diǎn)對就不能匹配成一對；

? ? 4. 緊接著，角點(diǎn)已經(jīng)完成配對，再次根據(jù)每對角點(diǎn)的平均置信度(得分)選出top100對，同時(shí)它們的平均得分作為各目標(biāo)的檢測分?jǐn)?shù)；

? ? 5. 最后，結(jié)合原圖和鏡像圖的以上結(jié)果，在各類別下對角點(diǎn)對形成的bbox實(shí)施soft-nms(也就是說，soft-nms是對原圖和鏡像圖的預(yù)測bbox一并做的，但是分類別進(jìn)行)，如果之后每張圖片保留下來的bbox大于100個(gè)，那么去掉多余的，僅保留得分top100的檢測結(jié)果

實(shí)驗(yàn)分析

性能瓶頸

CornerNet同時(shí)輸出熱圖、嵌入和偏移，所有這些結(jié)果都會影響檢測性能。比如：熱圖中漏檢了任何一個(gè)角點(diǎn)就會丟失一個(gè)目標(biāo)、不正確的嵌入將導(dǎo)致許多錯(cuò)誤的邊界框、預(yù)測的偏移不正確則嚴(yán)重影響邊界框的定位。

為了理解每個(gè)部件對最終的誤差有多大程度的影響，作者通過將預(yù)測的熱圖和偏移替換為gt，并在驗(yàn)證集上評估性能，以此來進(jìn)行誤差分析：

誤差分析

由實(shí)驗(yàn)結(jié)果可知，單獨(dú)使用gt熱圖就可以將AP從38.5％提高到74.0％，這表明CornerNet的主要瓶頸在于角點(diǎn)的識別。

對負(fù)樣本位置的懲罰度降低

CornerNet在訓(xùn)練過程中減少了在gt角點(diǎn)位置一定半徑的圓內(nèi)的負(fù)樣本位置的懲罰。為了理解這對檢測性能的影響，作者在實(shí)驗(yàn)中額外訓(xùn)練了一個(gè)沒有降低懲罰度的網(wǎng)絡(luò)和另一個(gè)有懲罰度降低但半徑值是固定的網(wǎng)絡(luò)，然后在驗(yàn)證集上將它們與CornerNet進(jìn)行比較：

實(shí)驗(yàn)結(jié)果顯示，即使使用固定的半徑值，只要有懲罰度降低就可以將基線的AP提升2.7％，而使用基于物體大小計(jì)算出來的半徑則可以進(jìn)一步將AP提高2.9%。此外，我們看到減少懲罰度特別有利于大中型目標(biāo)。

思考

最后，CW談?wù)勚档盟伎嫉膸讉€(gè)點(diǎn)：

1. 為何減少對部分負(fù)樣本的懲罰有利于大中型目標(biāo)的檢測，卻對小目標(biāo)的不友好呢？

可以feel到，大中型目標(biāo)的尺度相對較大，那么即使角點(diǎn)和gt有些許偏移，也是由較高的可能性生成與gt box充分重疊的bbox的。因此，降低懲罰度的背后實(shí)際是提供了更多潛在的正樣本，于是提高了召回率。

相反，小目標(biāo)尺度較小，對角點(diǎn)位置檢測的要求也因此較為苛刻，對于大中型目標(biāo)來說降低懲罰度提供了更多潛在的正樣本，但對小目標(biāo)來說可能它們就是實(shí)實(shí)在在的負(fù)樣本了。另外，通過實(shí)驗(yàn)結(jié)果可知，降低懲罰度對于小目標(biāo)來說其AP比基線也沒有下降太多，可以(寬容地)認(rèn)為沒有太大影響。

2. 后處理時(shí)使用max pooling進(jìn)行非極大值抑制是否不妥？

想象下，如果兩個(gè)物體的角點(diǎn)靠得非常近，那么其中一個(gè)物體的檢測就很有可能被“誤殺”掉，可憐不..

不知道為何不基于一個(gè)置信度閥值去卡掉不好的檢測結(jié)果，作者也沒有相關(guān)的實(shí)驗(yàn)說明。

3. 測試時(shí)為何要連鏡像圖也一并輸入進(jìn)行檢測？

關(guān)于這點(diǎn)，作者也沒有給出理由，也沒有給出實(shí)驗(yàn)結(jié)果對比如果單獨(dú)使用原圖檢測效果如何。CW猜測，使用鏡像圖，可能是為了更充分地檢測角點(diǎn)：

在水平鏡像圖中，右上角和左下角會分別變成左上角和右下角。于是，使用鏡像圖的話，就可以對原圖中相反方向的角點(diǎn)對進(jìn)行檢測，從而彌補(bǔ)在原圖中檢測角點(diǎn)對不夠充分的問題(由前面的實(shí)驗(yàn)分析可知，CornerNet的主要瓶頸就在于角點(diǎn)的識別)。

4. 為何不適用多尺度特征來進(jìn)行預(yù)測？

作者在paper中強(qiáng)調(diào)過，僅使用最后一層特征來進(jìn)行預(yù)測：

? Unlike many other state-of-the-art detectors, we only use the features from the last layer of the whole network to make predictions.

怎么好像有點(diǎn)驕傲味道？

對于這點(diǎn)，在paper中其實(shí)有“半虛半實(shí)”地說到過。作者說，特征圖相比于輸入圖像只下采樣了4倍(因此對于小目標(biāo)影響應(yīng)該不會太嚴(yán)重)，而backbone使用的是Hourglass Networks：在一系列下采樣后又上采樣至相同的分辨率，同時(shí)其中還添加了skip connection，因此最終的輸出特征能夠同時(shí)擁有淺層的全局信息(利于定位)與高層的局部信息(利于識別)。

另外，作者也通過實(shí)驗(yàn)將backbone替換成ResNet with FPN，結(jié)果顯示backbone還是使用Hourglass Networks比較好。但是！在實(shí)驗(yàn)中，作者僅使用FPN的最后一層進(jìn)行預(yù)測，要是使用FPN多層的特征進(jìn)行預(yù)測的話，性能誰搞誰低還真說不準(zhǔn)..

5. 為何基于角點(diǎn)能夠比基于錨框的檢測效果好？

作者在paper中展示了CornerNet與其它anchor-based的檢測器的性能比較，結(jié)果顯示CornerNet能夠取得更優(yōu)的性能。對于這個(gè)情況，作者認(rèn)為：

a). anchor boxes的中心點(diǎn)需要依賴于四條邊，而角點(diǎn)卻只依賴于兩條邊，因此角點(diǎn)更易定位(CW覺得應(yīng)該叫可確定性更加高比較合適，是否真的更易定位難說..)。同時(shí)加上使用了corner pooling(這個(gè)專門為角點(diǎn)檢測而服務(wù)的大殺器)，于是效果會比anchor-based更佳；

b). 本質(zhì)上采用了更高效的檢測機(jī)制：僅使用 $O(wh)$ 個(gè)corners就能替代了 $O(w^{2}h^{2})$ 個(gè)可能的anchor boxes

對于以上b，解釋下：

假設(shè) $h \times w$ 大小的圖像，角點(diǎn)由于僅用位置信息就可代表其可能性，因此有 $O(wh)$ 種；而anchor box的可能性除了與中心點(diǎn)位置有關(guān)，還與其長、寬相關(guān)。中心點(diǎn)位置可能性有 $O(wh)$ 種，而一個(gè)anchor box在固定中心點(diǎn)又有 $O(wh)$ 種長寬的可能，于是anchor boxes的可能性就是 $O(w^{2}h^{2})$ 了。

End

以上就是本文的內(nèi)容了，若朋友你覺得CW的理解有不妥之處或者你有任何idea想和我交流，歡迎在下方評論區(qū)show出。大家一起進(jìn)行思想的碰撞，才更有意思，更好玩！畢竟，CW不要無聊的風(fēng)格。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

CornerNet: 將目標(biāo)檢測問題視作關(guān)鍵點(diǎn)檢測與配對

CornerNet: 將目標(biāo)檢測問題視作關(guān)鍵點(diǎn)檢測與配對

前言

目錄

研究動機(jī)及背景

概述

整體框架

角點(diǎn)檢測

Heatmaps

Penalty Reduction

Radius Computation

location offsets

角點(diǎn)配對

Corner Pooling

訓(xùn)練

Intermediate Supervision

測試

測試圖像處理

后處理

實(shí)驗(yàn)分析

性能瓶頸

對負(fù)樣本位置的懲罰度降低

思考

End

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

CornerNet: 將目標(biāo)檢測問題視作關(guān)鍵點(diǎn)檢測與配對

前言

目錄

研究動機(jī)及背景

概述

整體框架

角點(diǎn)檢測

Heatmaps

Penalty Reduction

Radius Computation

location offsets

角點(diǎn)配對

Corner Pooling

訓(xùn)練

Intermediate Supervision

測試

測試圖像處理

后處理

實(shí)驗(yàn)分析

性能瓶頸

對負(fù)樣本位置的懲罰度降低

思考

End

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av