V3
v3主要就做了兩個事情,一個是換了v2里的backbone,從darknet19換成了darknet53,加深了層數(shù),并且加了殘差通道。
另外v3還借鑒FPN(Feature Pyramid Networks)對多尺度的特征做了融合。
網(wǎng)絡(luò)輸入是416*416*3的圖,輸出有三個尺度,13*13*255, 26*26*255,52*52*255。然后每個尺度都融合了前一個尺度的上采樣特征。從而幫助模型學(xué)習(xí)到不同尺度的特征,而且也幫助模型可以更好的檢測小物體。
V4
替換了激活函數(shù),從leaky relu換成了mish,mish的好處是減小了過小值對模型的影響(leaky relu中如果值過小,對模型的影響反而大),而且比leaky relu更平滑。
使用了SPP層,金字塔池化。
FPN+PAN:先自上到下學(xué)習(xí)語義信息,再自下到上學(xué)習(xí)定位信息
mosaic數(shù)據(jù)增強(qiáng),將不同圖片堆疊到一張圖上,解決小目標(biāo)比較少的問題。
dropblock,因?yàn)閐ropout是一個個神經(jīng)的丟,很有可能細(xì)粒度太小導(dǎo)致起不到正則的效果,因此dropblock就是一塊一塊的丟。
CIOU:解決了IOU無法提供優(yōu)化方向的問題,因?yàn)镮OU只是提供了重合度,但沒提供如何減小重合度的方向
V5
出了四個模型,可以根據(jù)需求選擇
自適應(yīng)圖片縮放,自適應(yīng)錨框縮放
參考鏈接
https://www.bilibili.com/video/BV1Vg411V7bJ
https://www.bilibili.com/video/BV1kv4y1Z7eR