標題:NetTrack: Tracking Highly Dynamic Objects with a Net
作者:Guangze Zheng, Shijie Lin, Haobo Zuo, Changhong Fu, Jia Pan
機構(gòu):香港大學(xué)、同濟大學(xué)
原文鏈接:https://arxiv.org/abs/2403.11186
代碼鏈接:https://github.com/George-Zhuang/NetTrack
數(shù)據(jù)集鏈接:https://pan.baidu.com/s/1Ztu8-JJLFHmMkJyWrJQ8lQ?pwd=bft5
官方主頁:https://george-zhuang.github.io/nettrack/
摘要
開放世界目標復(fù)雜的動態(tài)特性對多目標跟蹤提出了不可忽視的挑戰(zhàn),通常表現(xiàn)為嚴重的變形、快速運動和遮擋。大多數(shù)方法只依賴粗粒度的對象提示,例如方框和對象的整體外觀,由于動態(tài)對象的內(nèi)部關(guān)系扭曲,容易退化。為了解決這個問題,這項工作提出了NetTrack,一個高效、通用和負擔得起的跟蹤框架,引入了對動態(tài)健壯的細粒度學(xué)習(xí)。具體地說,NetTrack利用點級視覺提示,構(gòu)建了與細粒度網(wǎng)絡(luò)的動態(tài)感知關(guān)聯(lián)。相應(yīng)地,結(jié)合了細粒采樣器和匹配方法。此外,NetTrack還學(xué)習(xí)對象與文本的對應(yīng)關(guān)系,以實現(xiàn)細粒度本地化。為了評估MOT在極其動態(tài)的開放世界場景中的性能,構(gòu)建了一個鳥群跟蹤(BFT)數(shù)據(jù)集,該數(shù)據(jù)集在物種多樣性和開放世界場景下表現(xiàn)出高度的動態(tài)性。對BFT的綜合評估驗證了細粒度學(xué)習(xí)在對象動態(tài)性上的有效性,并在TAO、TAO-OW、AnimalTrack和GMOT-40等開放世界基準測試上進行了深入的遷移實驗,驗證了NetTrack即使在沒有微調(diào)的情況下也具有很強的泛化能力。
1 引言
多目標跟蹤(MOT)的目的是在視頻和現(xiàn)實世界中保持對感興趣對象的連續(xù)視覺感知。傳統(tǒng)的MOT方法往往假設(shè)對象是粗粒度的實體,因為在經(jīng)典的MOT任務(wù)中,特定對象類別[10]和場景的動態(tài)性并不顯著,并且對象內(nèi)部的關(guān)系相對穩(wěn)定。然而,在開放世界MOT任務(wù)中跟蹤任意對象,特別是高動態(tài)對象的需求嚴重挑戰(zhàn)了這一假設(shè)。
開放世界物體的高度動態(tài)性,表現(xiàn)為嚴重的變形、快速的運動和頻繁的遮擋,在兩個主要方面對現(xiàn)有的方法提出了挑戰(zhàn):
1)關(guān)聯(lián)對于大多數(shù)方法來說,僅僅依賴于粗粒度的視覺表示,高的動態(tài)性使得時間連續(xù)性在關(guān)聯(lián)方面變得脆弱,因為對象中的內(nèi)部關(guān)系被扭曲。這些方法通常將整個對象表示為粗粒度邊界框或相應(yīng)的特征,并且動態(tài)性顯著降低了這些表示跨越不同時間步長的相似性,如圖1-b所示。
2)本地化高度動態(tài)化也對建立準確的文本-對象對應(yīng)關(guān)系進行本地化提出了挑戰(zhàn)。最新的(SOTA)方法通常在預(yù)訓(xùn)練中學(xué)習(xí)整個圖像和文本之間的粗粒度對應(yīng)。對于嚴重變形或遮擋的對象,這些方法通常難以定位。

在這項工作中,我們提出了NetTrack,引入細粒度學(xué)習(xí)來解決上述兩個方面的問題。關(guān)于關(guān)聯(lián),NetTrack利用對象外觀上的物理點,這些點不太容易受到對象動態(tài)化的影響,并形成細粒度的視覺提示。對于定位,使用扎根的預(yù)訓(xùn)練來學(xué)習(xí)對象和文本之間的細粒度對應(yīng)。因此,我們的主要貢獻概述如下:
i. 用于動態(tài)感知關(guān)聯(lián)的細粒度網(wǎng)絡(luò)而不是將對象視為粗粒度實體,該工作使用細粒度網(wǎng)絡(luò)跟蹤對象,該網(wǎng)絡(luò)利用對象外觀表面上的興趣點(POI)。形變等動態(tài)性通過改變?nèi)窒鄬ξ恢煤屯庥^特征分布扭曲了POI之間的內(nèi)在關(guān)系,而點本身的細粒度表示,如局部外觀顏色和與鄰接點的關(guān)系,幾乎不受影響,并表現(xiàn)出健壯性,如圖1-b所示。根據(jù)這一觀點,我們設(shè)計了一個細粒度采樣器來發(fā)現(xiàn)潛在的POI,并利用這些點的細粒度視覺線索,以及新興的物理點跟蹤方法[12,22,28],進行穩(wěn)健的跟蹤。隨后,提出了一種簡單有效的細粒度相似度計算方法來確定被跟蹤的POI與候選對象之間的包容關(guān)系。提出的細粒度相似度評分與已有的粗粒度相似度評分相結(jié)合,實現(xiàn)了更穩(wěn)健的動態(tài)對象關(guān)聯(lián)。
ii. 用于動態(tài)感知關(guān)聯(lián)的細粒度網(wǎng)絡(luò)而不是將對象視為粗粒度實體,該工作使用細粒度網(wǎng)絡(luò)跟蹤對象,該網(wǎng)絡(luò)利用對象外觀表面上的興趣點(POI)。形變等動態(tài)性通過改變?nèi)窒鄬ξ恢煤屯庥^特征分布扭曲了POI之間的內(nèi)在關(guān)系,而點本身的細粒度表示,如局部外觀顏色和與鄰接點的關(guān)系,幾乎不受影響,并表現(xiàn)出健壯性,如圖1-b所示。根據(jù)這一觀點,我們設(shè)計了一個細粒度采樣器來發(fā)現(xiàn)潛在的POI,并利用這些點的細粒度視覺線索,以及新興的物理點跟蹤方法[12,22,28],進行穩(wěn)健的跟蹤。隨后,提出了一種簡單有效的細粒度相似度計算方法來確定被跟蹤的POI與候選對象之間的包容關(guān)系。提出的細粒度相似度評分與已有的粗粒度相似度評分相結(jié)合,實現(xiàn)了更穩(wěn)健的動態(tài)對象關(guān)聯(lián)。對象-文本對應(yīng)細粒度定位為了發(fā)現(xiàn)和定位跟蹤中高度動態(tài)的對象,本工作采用預(yù)訓(xùn)練方法通過短語基礎(chǔ)[32,41,68]進行跟蹤,以實現(xiàn)細粒度對象-文本對應(yīng)。與使用粗粒度圖文對應(yīng)的基于剪輯的跟蹤方法[23,34]相比,NetTrack可以更有效地區(qū)分高度動態(tài)的對象,如圖2所示。此外,通過在框架內(nèi)嵌入描述符(圖2中的GPT-3.5[6]),所提出的框架學(xué)習(xí)上下文信息,例如提供的專業(yè)應(yīng)用和知識上下文,以減輕背景干擾,并實現(xiàn)用于高效動態(tài)目標跟蹤的實際應(yīng)用。
iii. 不同場景下的高動態(tài)基準測試和傳輸實驗本工作引入了一個高動態(tài)的開放世界MOT數(shù)據(jù)集,名為鳥群跟蹤(BFT),以評估跟蹤方法在跟蹤高動態(tài)目標方面的性能。BFT特別值得注意的是22種鳥類的復(fù)雜和不可預(yù)測的動態(tài),主要原因有三:
1)三維活動空間造成的快速運動。
2)頻繁拍打翅膀造成的變形[37]。
3)由于鳥群中鳥類的集體行為而引起的閉塞[38,39]。
此外,BFT包括14個不同的開放場景和106個序列中的22個物種,展示了豐富的多樣性,如圖1-c所示。經(jīng)測試,本文提出的NetTrack框架在跟蹤BFT中的高動態(tài)目標方面達到了SOTA性能。此外,全面的零鏡頭傳輸實驗表明,NetTrack在幾個具有挑戰(zhàn)性的開放世界 MOT基準上超過了跟蹤基線,例如TAO、TAO-OW、AnimalTrack和GMOT-40。引入的細粒度學(xué)習(xí)有助于增強NetTrack的泛化能力,即使沒有細調(diào)。作為一個高效、通用且經(jīng)濟實惠的跟蹤框架,NetTrack在開放世界應(yīng)用場景中也顯示出潛力,進一步突顯了其對下游任務(wù)的適用性。

2. 相關(guān)工作
開放世界多目標跟蹤方法按檢測跟蹤是MOT中最流行的框架,它包括定位潛在目標并隨著時間的推移將它們關(guān)聯(lián)起來。傳統(tǒng)的MOT方法通常關(guān)注有限的場景和對象類別,如公共場所的行人或自動駕駛場景中的車輛。相比之下,開放世界的跟蹤任務(wù)要求跟蹤者能夠在復(fù)雜和動態(tài)的場景中跟蹤任何對象?;贑LIP的開放場景目標檢測的興起促進了這一任務(wù),促使先進的開放世界跟蹤基線利用CLIP風(fēng)格的預(yù)訓(xùn)練,通過利用文本和圖像之間的對應(yīng)關(guān)系來實現(xiàn)泛化。然而,這些主流的跟蹤方法通常將目標視為粗粒度的包圍盒,但開放世界對象的高動態(tài)性往往會擾亂這種粗略表示的時間相似性。此外,與剪貼式預(yù)訓(xùn)練中使用的淺融合視覺語言特征相比,定位動態(tài)對象通常需要在對象和文本之間建立細粒度的對應(yīng)關(guān)系,以抵消對象的外觀扭曲或損害。
最近出現(xiàn)的物理點跟蹤方法啟發(fā)了這項工作,引入了對象的細粒度視覺線索。這些方法的目標是跟蹤視頻片段上的任意物理點,依賴于點級外觀表示,而不是粗略地傳播整個對象,因此有望保持對動態(tài)對象的良好泛化。此外,基于短語基礎(chǔ)的預(yù)訓(xùn)練方法也被應(yīng)用于開放集合對象檢測任務(wù),由于對象級別、語言感知和語義豐富的視覺表示,預(yù)計其對于動態(tài)對象跟蹤的潛在益處。
開放世界多目標跟蹤基準經(jīng)典MOT基準主要關(guān)注有限的對象類別和場景,其中對象通常保持穩(wěn)定的外觀或姿勢并經(jīng)歷相對簡單的運動,例如跟蹤行人或車輛。隨著對開放世界跟蹤應(yīng)用的需求不斷增加,關(guān)注更廣泛場景和對象類的MOT基準應(yīng)運而生。TAO在海量數(shù)據(jù)中包含大量看不見的對象,GMOT-40側(cè)重于跟蹤看不見的對象類別,AnimalTrack側(cè)重于跟蹤野生動物。后來,TAO-OW在開放世界的環(huán)境中定義了已知和未知的對象類別,Li等人也是如此。在開放詞匯設(shè)置中,根據(jù)TAO基準將對象類別劃分為基本對象類別和新奇對象類別。在各種開放世界的MOT任務(wù)中,雖然學(xué)習(xí)看不見的課程是至關(guān)重要的,但這些看不見的物體潛在的嚴重變形和快速運動所產(chǎn)生的能動性也同樣關(guān)鍵,需要進行全面的評估。
3. 方法
提出的NetTrack框架引入了用于動態(tài)感知對象關(guān)聯(lián)的細粒度網(wǎng)絡(luò)和用于動態(tài)感知本地化的細粒度對象-文本對應(yīng)。
3.1描述了使用采樣和執(zhí)行關(guān)聯(lián)將對象組織成細粒度網(wǎng)絡(luò)。
3.2主要討論細粒度的對象-文本對應(yīng)如何對動態(tài)對象的本地化產(chǎn)生積極影響。
3.1.細粒度網(wǎng)絡(luò)
所提出的動態(tài)感知關(guān)聯(lián)利用細粒度網(wǎng)絡(luò)來構(gòu)建對象動態(tài)的健壯視覺線索。它主要由細粒采樣器和匹配方法組成。整個過程如圖3所示。細粒度采樣器本工作引入點級視覺線索來形成具有興趣點(POI)的細粒度網(wǎng)絡(luò)。理想情況下,采樣POI應(yīng)該準確地捕獲每個感興趣對象表面上的每個有價值的點,避免背景干擾或多余的計算負擔。一個簡單的想法是對跟蹤對象框中的POI進行采樣,并逐幀更新點。然而,這樣的方法可能會增加一定的計算負擔,忽略假陰性樣本,以及視覺上下文不足。因此,提出了一種用于交叉幀POI采樣的細粒度采樣器。

將POI的預(yù)期分布表示為f(X),其中x表示圖像I中的點。對象運動基于卡爾曼濾波[27]來估計,如[4,5,7,71]。這種估計相當于S畫框中某一時期小說對象的粗略分布。然后,該分布可以被變換為點級別的形式,如p(x|T粗略o,{i}S i=1),其中T粗略o是粗略估計的對象的粗粒度軌跡,p(·)是發(fā)現(xiàn)潛在POI的二進制分布。這一分布是對POI進行抽樣的重要權(quán)重。給定點數(shù)K,然后可以使用重要性抽樣[62]將預(yù)期POI表示為:

因此,利用點跟蹤模型在幀#t-1確定細粒度POI,并在幀#t估計細粒度POI。利用細粒度網(wǎng)絡(luò)進行跟蹤的細粒度匹配需要基于時間相似性將記憶的POI與當前檢測結(jié)果進行匹配。在給定點跟蹤器模型Trp的情況下,可以在上述時間段內(nèi)獲得估計的點軌跡Tp。在獲得當前幀#t的檢測結(jié)果Dt之后,細粒度匹配方法計算落在候選檢測框內(nèi)的網(wǎng)絡(luò)中的估計點的數(shù)量作為細粒度相似度。設(shè)N為幀#t?1中跟蹤對象的個數(shù),N個網(wǎng){Pi}Ni=1和M個檢測盒{bj}Mj=1的匹配細粒度記分矩陣S的元素Si,j可表示為:

其中w是懲罰具有過大面積的候選檢測框的權(quán)重,因為較大的面積通常導(dǎo)致預(yù)測點容易落入框內(nèi),從而導(dǎo)致潛在的誤判。|pi∩bj|指凈pi在bj內(nèi)定位的點數(shù),如圖3所示為有效點數(shù),|pi|為凈pi內(nèi)的點數(shù)。A(·)指的是框的面積,而?b是使用[27]在幀#t中預(yù)測的跟蹤對象的框。然后,結(jié)合粗粒度相似度得分,得到整體匹配得分。如圖3所示,對象的動態(tài)性經(jīng)常導(dǎo)致聯(lián)合交集(IOU)中粗粒度相似度的降低,而細粒度關(guān)聯(lián)保持健壯。然后使用匈牙利算法[29]執(zhí)行匹配過程。算法1中描述了該方法的細節(jié)。
3.2.細粒度的對象-文本通信
為了學(xué)習(xí)用于定位的細粒度對象-文本對應(yīng),該工作引入了一種基于短語基礎(chǔ)的預(yù)訓(xùn)練策略來跟蹤動態(tài)對象,并通過深度融合文本和對象特征來緩解對象動力學(xué)的不利影響。與使用基于CLIP[54]的預(yù)訓(xùn)練的SOTA跟蹤方法[23,34]不同,我們遵循[32,41,68]來識別句子中的短語與圖像中的對象之間的對應(yīng)關(guān)系,從而形成細粒度的對象-文本對應(yīng)關(guān)系。在給定輸入圖像I和語言提示P的情況下,可以分別利用視覺編碼器EncV和語言編碼器EncL來獲得對應(yīng)的對象特征FO和語言特征FL。然后,通過深度融合得到F‘O和F’L兩個特征,進而得到目標-文本對應(yīng)分數(shù)Sround。此過程的公式為:

從視覺的角度來看,細粒度的對象-文本對應(yīng)增強了對視覺特征的語言意識,從而能夠更好地識別變形的對象。從語言的觀點來看,這種對應(yīng)在預(yù)訓(xùn)練期間學(xué)習(xí)單詞或子句級別的上下文表示[41],避免由不必要的單詞交互引起的偏見。所提議的框架還允許利用嵌入的描述符(例如,大型語言模型[6,52])更詳細地理解對象。因此,這種細粒度的通信更適合于在專業(yè)場景中捕獲更具體的上下文信息,如圖2。
4. BFT數(shù)據(jù)集
數(shù)據(jù)采集 。這通常導(dǎo)致鳥群在有限的空間內(nèi)密集分布,使其在視覺上容易受到遮擋。除了前述的動態(tài)挑戰(zhàn)外,鳥類往往成群出現(xiàn)相似的外觀,這也增加了視覺辨別的難度。數(shù)據(jù)收集鳥群是開放世界中最具活力的跟蹤對象之一,因此被認為是這項工作的理想主題。鳥類的能動性主要歸因于三個現(xiàn)象:
1)鳥群由于具有三維的活動空間和額外的自由度,比地面物體表現(xiàn)出更高的機動性。此外,鳥類的慣性較小,可以更靈活地加速、減速和改變方向。復(fù)雜的空氣動力學(xué)效應(yīng)也使得飛行鳥群的運動更加難以預(yù)測。
2)鳥類在飛行過程中通常會經(jīng)歷頻繁而強烈的變形,主要是由于拍翼[37]。
3)集體行為[38,39]在許多鳥群中廣泛存在。這通常導(dǎo)致鳥群在有限的空間內(nèi)密集分布,使其在視覺上容易受到遮擋。除了前述的動態(tài)挑戰(zhàn)外,鳥類往往成群出現(xiàn)相似的外觀,這也增加了視覺辨別的難度。
為了展示開放世界場景的多樣性和物種的多樣性,BFT數(shù)據(jù)集包括22種鳥類和14個常見的自然和文化場景,覆蓋六大洲,如圖4-a和圖1-c所示。圖7中有詳細對應(yīng)的鳥類目、科、屬和種。主要數(shù)據(jù)來源是BBC自然紀錄片系列地球飛行[25]。從大約6個小時的視頻中提取了106個精心挑選的片段,進一步將其分為35個視頻的訓(xùn)練集、25個視頻的驗證集和36個視頻的測試集。所有數(shù)據(jù)都經(jīng)過了專家的細致批注和跟蹤領(lǐng)域?qū)<业亩噍唽彶?,以及生物領(lǐng)域?qū)<业暮藢崱R曨l和注釋的幀速率通常被設(shè)置為每秒25幀(FPS)。

高動態(tài):BFT的高動態(tài)包括更嚴重的變形、更快的運動和更頻繁的閉塞。定量地,圖4-b,c從兩個方面比較了BFT與其他開放世界MOT數(shù)據(jù)集[1,8,69]的動態(tài)性。具體地說,縱橫比變化(ARC)[15,51]是常用的跟蹤屬性,其測量對象變形或遮擋的頻率和嚴重程度。對象運動是測量對象在兩個連續(xù)時間步長之間的位移的另一個屬性。詳細統(tǒng)計數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散,運動分布的值更大,與其他數(shù)據(jù)集相比,BFT表現(xiàn)出更強的動態(tài)性。5.實驗本實驗部分旨在驗證本工作的以下核心結(jié)論:1)開放世界物體的高度動態(tài)化給MOT帶來了巨大的挑戰(zhàn)。2)NetTrack在處理動態(tài)對象方面表現(xiàn)突出,在各種OpenWorld跟蹤數(shù)據(jù)集上表現(xiàn)出很強的泛化能力,而不需要精調(diào)。3)與粗粒度方法相比,提出的細粒度學(xué)習(xí)方法對動態(tài)目標的跟蹤具有更強的泛化能力。5.1.利用設(shè)置數(shù)據(jù)集BFT來評估跟蹤器在高度動態(tài)的開放世界場景中的性能。在零射擊遷移評估中,使用了大規(guī)模TAO-OW[42]和TAO[8]的驗證集來進行廣泛的泛化能力評估。具體地說,TAO的評估遵循[34]中的描述,其中對基本類別和新類別采用開放詞匯設(shè)置,并評估跟蹤器的分類能力。新奇類是在LVIS[20]數(shù)據(jù)集中定義為REARE的類。不同的是,TAO-OW的對象類根據(jù)它們是否屬于COCO[36]中的80個類別來劃分為已知和未知。在消融實驗中,除了TAO和TAO-OW外,還包括AnimalTrack[69]和GMOT-40[1]作為參考,并在TAO-OW之后的開放世界環(huán)境中進行評估。關(guān)于AnimalTrack,10個班級中有8個不屬于可可類別。同樣,在GMOT-40的18個等級中,有12個等級是高動態(tài)的比例。BFT的高動態(tài)包括更嚴重的變形、更快的運動和更頻繁的閉塞。定量地,圖4-b,c從兩個方面比較了BFT與其他開放世界MOT數(shù)據(jù)集[1,8,69]的動態(tài)性。具體地說,縱橫比變化(ARC)[15,51]是常用的跟蹤屬性,其測量對象變形或遮擋的頻率和嚴重程度。對象運動是測量對象在兩個連續(xù)時間步長之間的位移的另一個屬性。詳細統(tǒng)計數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散,運動分布的值更大,與其他數(shù)據(jù)集相比,BFT表現(xiàn)出更強的動態(tài)性。
5. 實驗
本實驗部分旨在驗證本工作的以下核心結(jié)論:
1)開放世界物體的高度動態(tài)化給MOT帶來了巨大的挑戰(zhàn)。
2)NetTrack在處理動態(tài)對象方面表現(xiàn)突出,在各種開放跟蹤數(shù)據(jù)集上表現(xiàn)出很強的泛化能力,而不需要精調(diào)。
3)與粗粒度方法相比,提出的細粒度學(xué)習(xí)方法對動態(tài)目標的跟蹤具有更強的泛化能力。
5.1 設(shè)置
數(shù)據(jù)集 BFT來評估跟蹤器在高度動態(tài)的開放世界場景中的性能。在零樣本遷移評估中,使用了大規(guī)模TAO-OW[42]和TAO[8]的驗證集來進行廣泛的泛化能力評估。具體而言,TAO的評估遵循[34]中的描述,其中對基礎(chǔ)類別和新類別采用開放詞匯設(shè)置,并評估跟蹤器的分類能力。新類別是在LVIS數(shù)據(jù)集中定義為罕見的類別[20]。目前,TAO—OW的對象類根據(jù)它們是否屬于COCO中的80個類別分為已知和未知[36]。在消融實驗中,除TAO和TAO—OW外,還包括AnimalTrack [69]和GMOT—40 [1]作為參考,并在TAO—OW后在開放世界環(huán)境中進行評價。關(guān)于AnimalTrack,10個課程中有8個不在COCO類別之內(nèi)。同樣,GMOT—40中的18個類別中有12個不屬于COCO類別。
評估 開放世界跟蹤精度(OWTA)[42]是為TAO-OW提出的開放世界MOT度量,是我們實驗中的主要度量。OWTA評估兩個檢測召回(D。Re.)和關(guān)聯(lián)準確性(A.Acc.),分別檢測精度(D.Acc.),檢測精度(D.Pr.),聯(lián)想回憶(A.Re.),和關(guān)聯(lián)精度(A.(Pr.)是參考指標。TETA [33]旨在評估多類別對象,并用于在開放詞匯設(shè)置下評估TAO數(shù)據(jù)集。在TETA中計算定位評分(LocA)和關(guān)聯(lián)評分(AssocA)。HOTA [44],MOTA [3]和IDF 1 [56]是用于與BFT上的經(jīng)典MOT方法進行比較的經(jīng)典指標,并可作為參考。所有評價過程均采用TrackEval [26]。
實現(xiàn)細節(jié) 在NetTrack中,粗粒度關(guān)聯(lián)從BYTE [71]中調(diào)整,默認點跟蹤器從在TAP-VidKubric [11]上預(yù)訓(xùn)練的CoTracker [28]中調(diào)整。默認情況下,跟蹤步幅為8,丟失的軌跡保留30幀,初始化點采樣的網(wǎng)格為(3,3)。默認檢測器是GroundingDINO [41]與Swin-B [43]骨干,它在COCO [36],O365 [58]等上進行了預(yù)訓(xùn)練。為了以開放世界MOT應(yīng)用程序負擔得起的方式驗證NetTrack的泛化能力,所有評估的基準測試都不需要額外的訓(xùn)練。BFT上公開的SoTA跟蹤器的微調(diào)和評估遵循其默認設(shè)置。
5.2.高動態(tài)評估
Tab 1 中提供了NetTrack和其他SoTA跟蹤器在高度動態(tài)BFT上的綜合評估。評估分為兩個主要部分:a)使用閉集跟蹤器對BFT數(shù)據(jù)集進行微調(diào)。b)開放世界MOT條件,其涉及在零激發(fā)設(shè)置下的跟蹤。為了確保在開放世界場景的高度動態(tài)挑戰(zhàn)中對跟蹤器性能進行公平評估,開放世界條件下的所有文本提示都只包括“鳥”,這與COCO數(shù)據(jù)集中用于訓(xùn)練閉集跟蹤器的類別一致。實驗結(jié)果主要表明:1)即使在零拍開放世界跟蹤設(shè)置中,NetTrack也能獲得比SoTA微調(diào)的閉集跟蹤器更上級的性能。與最佳微調(diào)結(jié)果相比,NetTrack在OWTA上提高了1.3分,證實了所提出的框架的零射擊泛化能力。2)與微調(diào)后的結(jié)果(線912)相比,閉集跟蹤器在高度動態(tài)的開放世界場景中表現(xiàn)出次優(yōu)的零次泛化能力(線13、14、17、18),在OWTA上平均下降16%,在HOTA上平均下降15%,在MOTA上平均下降21%,這表明閉集跟蹤器對開放世界中的動態(tài)對象具有次優(yōu)的泛化能力。3)NetTrack鼓勵將潛在的感興趣對象關(guān)聯(lián)起來,并將檢測召回率提高了3.4個點。這也導(dǎo)致更多的假陽性樣本,并增加了壓力的關(guān)聯(lián)與輕微下降的A。然而,與最好的粗粒度關(guān)聯(lián)方法(第24—27行)相比,綜合OWTA提升了1.6分。

5.3.零樣本遷移評估
開放詞匯表設(shè)置上的零樣本遷移。Tab 2在開放詞匯MOT評估的TAO上實現(xiàn)了零樣本遷移。OVTrack [34]是在從LVIS [20]生成的數(shù)據(jù)集上訓(xùn)練的,該數(shù)據(jù)集與TAO具有高度的類一致性。與微調(diào)跟蹤器相比,NetTrack顯著提高了跟蹤分類精度,并實現(xiàn)了強大的零樣本跟蹤精度。雖然NetTrack由于缺乏微調(diào)而容易受到大量假陽性樣本的影響,這使得它在基礎(chǔ)類中的LocA和AssocA的評估中處于略微劣勢,但所提出的框架實現(xiàn)了ClsA的11.8點增加,LocA的2.5點增加,新類中的AssocA相當,以及整體TETA的4.5點增加,進一步展示了其競爭性的推廣能力。開放世界設(shè)置上的零樣本遷移NetTrack在TAO-OW [42]基準測試中的零樣本泛化在Tab3中演示。除了NetTrack之外,所有跟蹤器都對已知的TAOOW訓(xùn)練集進行了微調(diào)。與微調(diào)SoTA跟蹤器相比,NetTrack在已知類別上實現(xiàn)了最佳性能。和地方Re.類似于開放世界跟蹤基線(OWTB)[42],A.Acc.超過基線3.6分,證實了動態(tài)感知聯(lián)想的泛化能力。同樣,A.Acc.仍然近似于視頻OWL-ViT [23],D.Re.顯示出8.4分的改進,驗證了細粒度定位的有效性。在未知類上,假陽性樣本的引入導(dǎo)致A的略微下降。Acc.,但總體OWTA性能仍具有競爭力,提高了5.3分。


5.4.消融
細粒度網(wǎng)的一般性 在Tab 4、Tab 5,顯示了TAO [8],TAO-OW [42],AnimalTrack [69]和GMOT 40 [1]上與細粒度Nets和粗粒度方法的擬議關(guān)聯(lián)之間的比較。由于所提出的框架鼓勵在開放世界場景中發(fā)現(xiàn)更多潛在的對象,NetTrack在LocA和D方面取得了顯著的改進。Re.在四個基準測試中對可見和不可見的類進行測試。特別是D.Re.與第二好的性能相比,TAO-OW上未知類的性能顯著提高了18.2分,證實了其強大的泛化能力。雖然假陽性樣本的引入導(dǎo)致AssoA和A略有下降。Acc,整體TETA和OWTA在可見和不可見類中都有顯著改善。

具有可拆卸模塊的堅固框架. 為了驗證所提出的框架的通用性,圖5示出了對可拆卸模塊的消融研究,包括開集定位方法和點跟蹤器。具體而言,定位方法表示為GLIP [32] I、接地DINO [41] II,點跟蹤器表示為PIP [22] a、TAPIR [12] B、CoTracker [28] c。接地DINO和CoTracker的組合表示為II. c,并作為默認設(shè)置。在比較定位能力時,兩種方法在D。Re.但[32]在A中表現(xiàn)出輕微的性能不足。由于引入了更多的假陽性,ACC和整體OWTA。類似地,三點跟蹤器表現(xiàn)出近似優(yōu)異的性能??傮w而言,模塊的變化不會顯著降低整體性能,從而驗證了所提出的框架的良好的泛化能力。

針對幀速率丟失的穩(wěn)定性. 在開放世界跟蹤的實際應(yīng)用中,特別是在與邊緣設(shè)備[40]相關(guān)的場景中,由于需要減少計算負荷或節(jié)省能源,經(jīng)常會遇到視頻幀速率降低的情況,這進一步加劇了開放世界對象的動態(tài)性帶來的挑戰(zhàn)。圖6示出了在從默認幀速率(25FPS)到十分之一(3FPS)的降低的幀速率下對BFT數(shù)據(jù)集的跟蹤性能。與其他關(guān)聯(lián)方法[4,7,71]相比,NetTrack在幀速率降低的情況下表現(xiàn)出了良好的穩(wěn)定性。這進一步說明了該框架的泛化性能。
6.結(jié)論
針對開放世界MOT的高動態(tài)性,提出了NetTrack學(xué)習(xí)細粒度目標線索的方法。具體而言,細粒度的視覺線索和對象的文本對應(yīng)關(guān)系的動態(tài)感知的關(guān)聯(lián)和定位。這項工作還提出了一個高度動態(tài)的開放世界的MOT基準,BFT,和廣泛的評估與SoTA跟蹤器證明了所提出的NetTrack跟蹤動態(tài)對象的有效性。此外,在幾個具有挑戰(zhàn)性的開放世界MOT基準測試上進行的大量遷移實驗驗證了NetTrack的強大泛化能力,無需微調(diào)。對局限性的分析表明,更精簡的端到端方式和過濾假陽性樣本有希望進一步改進。