目前transformer從語言到視覺任務(wù)的挑戰(zhàn)主要是由于這兩個領(lǐng)域間的差異: 1、尺度變化大 2、高分辨率的輸入 為了解決以上兩點,我們提出了...
個人理解 1、為什么和其他anchor-based方法相比,小目標檢測的表現(xiàn)差?可能有兩個原因: Encoder模塊中的Residual Blo...
個人感覺從理論上在實際場景下應(yīng)該很有效,在自己的數(shù)據(jù)集上使用也漲了2個點?,F(xiàn)實中標注的數(shù)據(jù)大部分不確定性都很很強、場景也更復(fù)雜。引入Genera...
一、主要貢獻 作者以RetinaNet和FCOS為例,分析了anchor-based和anchor-free的性能差異的原因: 1、每個位置的a...
個人看法 關(guān)于作者提出的norm-based的方法的依賴條件,我認為通過簡單的修改就能解決,并且在自己的yolov3的項目中也成功應(yīng)用,剪枝率大...
DeepSort學(xué)習(xí)筆記 deepsort作為多目標跟蹤的經(jīng)典算法,相信每個入門MOT領(lǐng)域的人都是從deepsort開始,網(wǎng)上有大量的學(xué)習(xí)教程,...
個人理解 針對作者的幾點結(jié)論的個人理解,感覺根本原因并不是在anchor based和anchor free的方法上,個人認為,造成結(jié)果不同的主...
基于TPS的STN模塊-Robust Scene Text Recognition with Automatic Rectification T...
DBNet 簡介 由于分割網(wǎng)絡(luò)的結(jié)果可以準確描述諸如扭曲文本的場景,因而基于分割的自然場景文本檢測方法變得流行起來。基于分割的方法其中關(guān)鍵的步驟...