YOLO v3~v5

V3

v3主要就做了兩個事情,一個是換了v2里的backbone,從darknet19換成了darknet53,加深了層數(shù),并且加了殘差通道。
另外v3還借鑒FPN(Feature Pyramid Networks)對多尺度的特征做了融合。
網(wǎng)絡(luò)輸入是416*416*3的圖,輸出有三個尺度,13*13*255, 26*26*255,52*52*255。然后每個尺度都融合了前一個尺度的上采樣特征。從而幫助模型學(xué)習(xí)到不同尺度的特征,而且也幫助模型可以更好的檢測小物體。

V4

替換了激活函數(shù),從leaky relu換成了mish,mish的好處是減小了過小值對模型的影響(leaky relu中如果值過小,對模型的影響反而大),而且比leaky relu更平滑。
使用了SPP層,金字塔池化。
FPN+PAN:先自上到下學(xué)習(xí)語義信息,再自下到上學(xué)習(xí)定位信息
mosaic數(shù)據(jù)增強(qiáng),將不同圖片堆疊到一張圖上,解決小目標(biāo)比較少的問題。
dropblock,因?yàn)閐ropout是一個個神經(jīng)的丟,很有可能細(xì)粒度太小導(dǎo)致起不到正則的效果,因此dropblock就是一塊一塊的丟。
CIOU:解決了IOU無法提供優(yōu)化方向的問題,因?yàn)镮OU只是提供了重合度,但沒提供如何減小重合度的方向

V5

出了四個模型,可以根據(jù)需求選擇
自適應(yīng)圖片縮放,自適應(yīng)錨框縮放

參考鏈接
https://www.bilibili.com/video/BV1Vg411V7bJ
https://www.bilibili.com/video/BV1kv4y1Z7eR

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容