標題：NetTrack: Tracking Highly Dynamic Objects with a Net
作者：Guangze Zheng, Shijie Lin, Haobo Zuo, Changhong Fu, Jia Pan
機構(gòu)：香港大學(xué)、同濟大學(xué)
原文鏈接：https://arxiv.org/abs/2403.11186
代碼鏈接：https://github.com/George-Zhuang/NetTrack
數(shù)據(jù)集鏈接：https://pan.baidu.com/s/1Ztu8-JJLFHmMkJyWrJQ8lQ?pwd=bft5
官方主頁：https://george-zhuang.github.io/nettrack/

摘要

開放世界目標復(fù)雜的動態(tài)特性對多目標跟蹤提出了不可忽視的挑戰(zhàn)，通常表現(xiàn)為嚴重的變形、快速運動和遮擋。大多數(shù)方法只依賴粗粒度的對象提示，例如方框和對象的整體外觀，由于動態(tài)對象的內(nèi)部關(guān)系扭曲，容易退化。為了解決這個問題，這項工作提出了NetTrack，一個高效、通用和負擔得起的跟蹤框架，引入了對動態(tài)健壯的細粒度學(xué)習(xí)。具體地說，NetTrack利用點級視覺提示，構(gòu)建了與細粒度網(wǎng)絡(luò)的動態(tài)感知關(guān)聯(lián)。相應(yīng)地，結(jié)合了細粒采樣器和匹配方法。此外，NetTrack還學(xué)習(xí)對象與文本的對應(yīng)關(guān)系，以實現(xiàn)細粒度本地化。為了評估MOT在極其動態(tài)的開放世界場景中的性能，構(gòu)建了一個鳥群跟蹤(BFT)數(shù)據(jù)集，該數(shù)據(jù)集在物種多樣性和開放世界場景下表現(xiàn)出高度的動態(tài)性。對BFT的綜合評估驗證了細粒度學(xué)習(xí)在對象動態(tài)性上的有效性，并在TAO、TAO-OW、AnimalTrack和GMOT-40等開放世界基準測試上進行了深入的遷移實驗，驗證了NetTrack即使在沒有微調(diào)的情況下也具有很強的泛化能力。

1 引言

多目標跟蹤(MOT)的目的是在視頻和現(xiàn)實世界中保持對感興趣對象的連續(xù)視覺感知。傳統(tǒng)的MOT方法往往假設(shè)對象是粗粒度的實體，因為在經(jīng)典的MOT任務(wù)中，特定對象類別[10]和場景的動態(tài)性并不顯著，并且對象內(nèi)部的關(guān)系相對穩(wěn)定。然而，在開放世界MOT任務(wù)中跟蹤任意對象，特別是高動態(tài)對象的需求嚴重挑戰(zhàn)了這一假設(shè)。

開放世界物體的高度動態(tài)性，表現(xiàn)為嚴重的變形、快速的運動和頻繁的遮擋，在兩個主要方面對現(xiàn)有的方法提出了挑戰(zhàn)：
1)關(guān)聯(lián)對于大多數(shù)方法來說，僅僅依賴于粗粒度的視覺表示，高的動態(tài)性使得時間連續(xù)性在關(guān)聯(lián)方面變得脆弱，因為對象中的內(nèi)部關(guān)系被扭曲。這些方法通常將整個對象表示為粗粒度邊界框或相應(yīng)的特征，并且動態(tài)性顯著降低了這些表示跨越不同時間步長的相似性，如圖1-b所示。
2)本地化高度動態(tài)化也對建立準確的文本-對象對應(yīng)關(guān)系進行本地化提出了挑戰(zhàn)。最新的(SOTA)方法通常在預(yù)訓(xùn)練中學(xué)習(xí)整個圖像和文本之間的粗粒度對應(yīng)。對于嚴重變形或遮擋的對象，這些方法通常難以定位。

圖1

在這項工作中，我們提出了NetTrack，引入細粒度學(xué)習(xí)來解決上述兩個方面的問題。關(guān)于關(guān)聯(lián)，NetTrack利用對象外觀上的物理點，這些點不太容易受到對象動態(tài)化的影響，并形成細粒度的視覺提示。對于定位，使用扎根的預(yù)訓(xùn)練來學(xué)習(xí)對象和文本之間的細粒度對應(yīng)。因此，我們的主要貢獻概述如下：

i. 用于動態(tài)感知關(guān)聯(lián)的細粒度網(wǎng)絡(luò)而不是將對象視為粗粒度實體，該工作使用細粒度網(wǎng)絡(luò)跟蹤對象，該網(wǎng)絡(luò)利用對象外觀表面上的興趣點(POI)。形變等動態(tài)性通過改變?nèi)窒鄬ξ恢煤屯庥^特征分布扭曲了POI之間的內(nèi)在關(guān)系，而點本身的細粒度表示，如局部外觀顏色和與鄰接點的關(guān)系，幾乎不受影響，并表現(xiàn)出健壯性，如圖1-b所示。根據(jù)這一觀點，我們設(shè)計了一個細粒度采樣器來發(fā)現(xiàn)潛在的POI，并利用這些點的細粒度視覺線索，以及新興的物理點跟蹤方法[12，22，28]，進行穩(wěn)健的跟蹤。隨后，提出了一種簡單有效的細粒度相似度計算方法來確定被跟蹤的POI與候選對象之間的包容關(guān)系。提出的細粒度相似度評分與已有的粗粒度相似度評分相結(jié)合，實現(xiàn)了更穩(wěn)健的動態(tài)對象關(guān)聯(lián)。
ii. 用于動態(tài)感知關(guān)聯(lián)的細粒度網(wǎng)絡(luò)而不是將對象視為粗粒度實體，該工作使用細粒度網(wǎng)絡(luò)跟蹤對象，該網(wǎng)絡(luò)利用對象外觀表面上的興趣點(POI)。形變等動態(tài)性通過改變?nèi)窒鄬ξ恢煤屯庥^特征分布扭曲了POI之間的內(nèi)在關(guān)系，而點本身的細粒度表示，如局部外觀顏色和與鄰接點的關(guān)系，幾乎不受影響，并表現(xiàn)出健壯性，如圖1-b所示。根據(jù)這一觀點，我們設(shè)計了一個細粒度采樣器來發(fā)現(xiàn)潛在的POI，并利用這些點的細粒度視覺線索，以及新興的物理點跟蹤方法[12，22，28]，進行穩(wěn)健的跟蹤。隨后，提出了一種簡單有效的細粒度相似度計算方法來確定被跟蹤的POI與候選對象之間的包容關(guān)系。提出的細粒度相似度評分與已有的粗粒度相似度評分相結(jié)合，實現(xiàn)了更穩(wěn)健的動態(tài)對象關(guān)聯(lián)。對象-文本對應(yīng)細粒度定位為了發(fā)現(xiàn)和定位跟蹤中高度動態(tài)的對象，本工作采用預(yù)訓(xùn)練方法通過短語基礎(chǔ)[32，41，68]進行跟蹤，以實現(xiàn)細粒度對象-文本對應(yīng)。與使用粗粒度圖文對應(yīng)的基于剪輯的跟蹤方法[23，34]相比，NetTrack可以更有效地區(qū)分高度動態(tài)的對象，如圖2所示。此外，通過在框架內(nèi)嵌入描述符(圖2中的GPT-3.5[6])，所提出的框架學(xué)習(xí)上下文信息，例如提供的專業(yè)應(yīng)用和知識上下文，以減輕背景干擾，并實現(xiàn)用于高效動態(tài)目標跟蹤的實際應(yīng)用。
iii. 不同場景下的高動態(tài)基準測試和傳輸實驗本工作引入了一個高動態(tài)的開放世界MOT數(shù)據(jù)集，名為鳥群跟蹤(BFT)，以評估跟蹤方法在跟蹤高動態(tài)目標方面的性能。BFT特別值得注意的是22種鳥類的復(fù)雜和不可預(yù)測的動態(tài)，主要原因有三：
1)三維活動空間造成的快速運動。
2)頻繁拍打翅膀造成的變形[37]。
3)由于鳥群中鳥類的集體行為而引起的閉塞[38，39]。
此外，BFT包括14個不同的開放場景和106個序列中的22個物種，展示了豐富的多樣性，如圖1-c所示。經(jīng)測試，本文提出的NetTrack框架在跟蹤BFT中的高動態(tài)目標方面達到了SOTA性能。此外，全面的零鏡頭傳輸實驗表明，NetTrack在幾個具有挑戰(zhàn)性的開放世界 MOT基準上超過了跟蹤基線，例如TAO、TAO-OW、AnimalTrack和GMOT-40。引入的細粒度學(xué)習(xí)有助于增強NetTrack的泛化能力，即使沒有細調(diào)。作為一個高效、通用且經(jīng)濟實惠的跟蹤框架，NetTrack在開放世界應(yīng)用場景中也顯示出潛力，進一步突顯了其對下游任務(wù)的適用性。

圖2

2. 相關(guān)工作

開放世界多目標跟蹤方法按檢測跟蹤是MOT中最流行的框架，它包括定位潛在目標并隨著時間的推移將它們關(guān)聯(lián)起來。傳統(tǒng)的MOT方法通常關(guān)注有限的場景和對象類別，如公共場所的行人或自動駕駛場景中的車輛。相比之下，開放世界的跟蹤任務(wù)要求跟蹤者能夠在復(fù)雜和動態(tài)的場景中跟蹤任何對象?；贑LIP的開放場景目標檢測的興起促進了這一任務(wù)，促使先進的開放世界跟蹤基線利用CLIP風(fēng)格的預(yù)訓(xùn)練，通過利用文本和圖像之間的對應(yīng)關(guān)系來實現(xiàn)泛化。然而，這些主流的跟蹤方法通常將目標視為粗粒度的包圍盒，但開放世界對象的高動態(tài)性往往會擾亂這種粗略表示的時間相似性。此外，與剪貼式預(yù)訓(xùn)練中使用的淺融合視覺語言特征相比，定位動態(tài)對象通常需要在對象和文本之間建立細粒度的對應(yīng)關(guān)系，以抵消對象的外觀扭曲或損害。

最近出現(xiàn)的物理點跟蹤方法啟發(fā)了這項工作，引入了對象的細粒度視覺線索。這些方法的目標是跟蹤視頻片段上的任意物理點，依賴于點級外觀表示，而不是粗略地傳播整個對象，因此有望保持對動態(tài)對象的良好泛化。此外，基于短語基礎(chǔ)的預(yù)訓(xùn)練方法也被應(yīng)用于開放集合對象檢測任務(wù)，由于對象級別、語言感知和語義豐富的視覺表示，預(yù)計其對于動態(tài)對象跟蹤的潛在益處。

開放世界多目標跟蹤基準經(jīng)典MOT基準主要關(guān)注有限的對象類別和場景，其中對象通常保持穩(wěn)定的外觀或姿勢并經(jīng)歷相對簡單的運動，例如跟蹤行人或車輛。隨著對開放世界跟蹤應(yīng)用的需求不斷增加，關(guān)注更廣泛場景和對象類的MOT基準應(yīng)運而生。TAO在海量數(shù)據(jù)中包含大量看不見的對象，GMOT-40側(cè)重于跟蹤看不見的對象類別，AnimalTrack側(cè)重于跟蹤野生動物。后來，TAO-OW在開放世界的環(huán)境中定義了已知和未知的對象類別，Li等人也是如此。在開放詞匯設(shè)置中，根據(jù)TAO基準將對象類別劃分為基本對象類別和新奇對象類別。在各種開放世界的MOT任務(wù)中，雖然學(xué)習(xí)看不見的課程是至關(guān)重要的，但這些看不見的物體潛在的嚴重變形和快速運動所產(chǎn)生的能動性也同樣關(guān)鍵，需要進行全面的評估。

3. 方法

提出的NetTrack框架引入了用于動態(tài)感知對象關(guān)聯(lián)的細粒度網(wǎng)絡(luò)和用于動態(tài)感知本地化的細粒度對象-文本對應(yīng)。
3.1描述了使用采樣和執(zhí)行關(guān)聯(lián)將對象組織成細粒度網(wǎng)絡(luò)。
3.2主要討論細粒度的對象-文本對應(yīng)如何對動態(tài)對象的本地化產(chǎn)生積極影響。

3.1.細粒度網(wǎng)絡(luò)

所提出的動態(tài)感知關(guān)聯(lián)利用細粒度網(wǎng)絡(luò)來構(gòu)建對象動態(tài)的健壯視覺線索。它主要由細粒采樣器和匹配方法組成。整個過程如圖3所示。細粒度采樣器本工作引入點級視覺線索來形成具有興趣點(POI)的細粒度網(wǎng)絡(luò)。理想情況下，采樣POI應(yīng)該準確地捕獲每個感興趣對象表面上的每個有價值的點，避免背景干擾或多余的計算負擔。一個簡單的想法是對跟蹤對象框中的POI進行采樣，并逐幀更新點。然而，這樣的方法可能會增加一定的計算負擔，忽略假陰性樣本，以及視覺上下文不足。因此，提出了一種用于交叉幀POI采樣的細粒度采樣器。

圖3

將POI的預(yù)期分布表示為f(X)，其中x表示圖像I中的點。對象運動基于卡爾曼濾波[27]來估計，如[4，5，7，71]。這種估計相當于S畫框中某一時期小說對象的粗略分布。然后，該分布可以被變換為點級別的形式，如p(x|T粗略o，{i}S i=1)，其中T粗略o是粗略估計的對象的粗粒度軌跡，p(·)是發(fā)現(xiàn)潛在POI的二進制分布。這一分布是對POI進行抽樣的重要權(quán)重。給定點數(shù)K，然后可以使用重要性抽樣[62]將預(yù)期POI表示為：

image.png

因此，利用點跟蹤模型在幀#t-1確定細粒度POI，并在幀#t估計細粒度POI。利用細粒度網(wǎng)絡(luò)進行跟蹤的細粒度匹配需要基于時間相似性將記憶的POI與當前檢測結(jié)果進行匹配。在給定點跟蹤器模型Trp的情況下，可以在上述時間段內(nèi)獲得估計的點軌跡Tp。在獲得當前幀#t的檢測結(jié)果Dt之后，細粒度匹配方法計算落在候選檢測框內(nèi)的網(wǎng)絡(luò)中的估計點的數(shù)量作為細粒度相似度。設(shè)N為幀#t?1中跟蹤對象的個數(shù)，N個網(wǎng){Pi}Ni=1和M個檢測盒{bj}Mj=1的匹配細粒度記分矩陣S的元素Si，j可表示為：

image.png

其中w是懲罰具有過大面積的候選檢測框的權(quán)重，因為較大的面積通常導(dǎo)致預(yù)測點容易落入框內(nèi)，從而導(dǎo)致潛在的誤判。|pi∩bj|指凈pi在bj內(nèi)定位的點數(shù)，如圖3所示為有效點數(shù)，|pi|為凈pi內(nèi)的點數(shù)。A(·)指的是框的面積，而?b是使用[27]在幀#t中預(yù)測的跟蹤對象的框。然后，結(jié)合粗粒度相似度得分，得到整體匹配得分。如圖3所示，對象的動態(tài)性經(jīng)常導(dǎo)致聯(lián)合交集(IOU)中粗粒度相似度的降低，而細粒度關(guān)聯(lián)保持健壯。然后使用匈牙利算法[29]執(zhí)行匹配過程。算法1中描述了該方法的細節(jié)。

3.2.細粒度的對象-文本通信

為了學(xué)習(xí)用于定位的細粒度對象-文本對應(yīng)，該工作引入了一種基于短語基礎(chǔ)的預(yù)訓(xùn)練策略來跟蹤動態(tài)對象，并通過深度融合文本和對象特征來緩解對象動力學(xué)的不利影響。與使用基于CLIP[54]的預(yù)訓(xùn)練的SOTA跟蹤方法[23，34]不同，我們遵循[32，41，68]來識別句子中的短語與圖像中的對象之間的對應(yīng)關(guān)系，從而形成細粒度的對象-文本對應(yīng)關(guān)系。在給定輸入圖像I和語言提示P的情況下，可以分別利用視覺編碼器EncV和語言編碼器EncL來獲得對應(yīng)的對象特征FO和語言特征FL。然后，通過深度融合得到F‘O和F’L兩個特征，進而得到目標-文本對應(yīng)分數(shù)Sround。此過程的公式為：

image.png

從視覺的角度來看，細粒度的對象-文本對應(yīng)增強了對視覺特征的語言意識，從而能夠更好地識別變形的對象。從語言的觀點來看，這種對應(yīng)在預(yù)訓(xùn)練期間學(xué)習(xí)單詞或子句級別的上下文表示[41]，避免由不必要的單詞交互引起的偏見。所提議的框架還允許利用嵌入的描述符(例如，大型語言模型[6，52])更詳細地理解對象。因此，這種細粒度的通信更適合于在專業(yè)場景中捕獲更具體的上下文信息，如圖2。

4. BFT數(shù)據(jù)集

數(shù)據(jù)采集 。這通常導(dǎo)致鳥群在有限的空間內(nèi)密集分布，使其在視覺上容易受到遮擋。除了前述的動態(tài)挑戰(zhàn)外，鳥類往往成群出現(xiàn)相似的外觀，這也增加了視覺辨別的難度。數(shù)據(jù)收集鳥群是開放世界中最具活力的跟蹤對象之一，因此被認為是這項工作的理想主題。鳥類的能動性主要歸因于三個現(xiàn)象：
1)鳥群由于具有三維的活動空間和額外的自由度，比地面物體表現(xiàn)出更高的機動性。此外，鳥類的慣性較小，可以更靈活地加速、減速和改變方向。復(fù)雜的空氣動力學(xué)效應(yīng)也使得飛行鳥群的運動更加難以預(yù)測。
2)鳥類在飛行過程中通常會經(jīng)歷頻繁而強烈的變形，主要是由于拍翼[37]。
3)集體行為[38，39]在許多鳥群中廣泛存在。這通常導(dǎo)致鳥群在有限的空間內(nèi)密集分布，使其在視覺上容易受到遮擋。除了前述的動態(tài)挑戰(zhàn)外，鳥類往往成群出現(xiàn)相似的外觀，這也增加了視覺辨別的難度。

為了展示開放世界場景的多樣性和物種的多樣性，BFT數(shù)據(jù)集包括22種鳥類和14個常見的自然和文化場景，覆蓋六大洲，如圖4-a和圖1-c所示。圖7中有詳細對應(yīng)的鳥類目、科、屬和種。主要數(shù)據(jù)來源是BBC自然紀錄片系列地球飛行[25]。從大約6個小時的視頻中提取了106個精心挑選的片段，進一步將其分為35個視頻的訓(xùn)練集、25個視頻的驗證集和36個視頻的測試集。所有數(shù)據(jù)都經(jīng)過了專家的細致批注和跟蹤領(lǐng)域?qū)＜业亩噍唽彶?，以及生物領(lǐng)域?qū)＜业暮藢崱Ｒ曨l和注釋的幀速率通常被設(shè)置為每秒25幀(FPS)。

圖4

高動態(tài)：BFT的高動態(tài)包括更嚴重的變形、更快的運動和更頻繁的閉塞。定量地，圖4-b，c從兩個方面比較了BFT與其他開放世界MOT數(shù)據(jù)集[1，8，69]的動態(tài)性。具體地說，縱橫比變化(ARC)[15，51]是常用的跟蹤屬性，其測量對象變形或遮擋的頻率和嚴重程度。對象運動是測量對象在兩個連續(xù)時間步長之間的位移的另一個屬性。詳細統(tǒng)計數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散，運動分布的值更大，與其他數(shù)據(jù)集相比，BFT表現(xiàn)出更強的動態(tài)性。5.實驗本實驗部分旨在驗證本工作的以下核心結(jié)論：1)開放世界物體的高度動態(tài)化給MOT帶來了巨大的挑戰(zhàn)。2)NetTrack在處理動態(tài)對象方面表現(xiàn)突出，在各種OpenWorld跟蹤數(shù)據(jù)集上表現(xiàn)出很強的泛化能力，而不需要精調(diào)。3)與粗粒度方法相比，提出的細粒度學(xué)習(xí)方法對動態(tài)目標的跟蹤具有更強的泛化能力。5.1.利用設(shè)置數(shù)據(jù)集BFT來評估跟蹤器在高度動態(tài)的開放世界場景中的性能。在零射擊遷移評估中，使用了大規(guī)模TAO-OW[42]和TAO[8]的驗證集來進行廣泛的泛化能力評估。具體地說，TAO的評估遵循[34]中的描述，其中對基本類別和新類別采用開放詞匯設(shè)置，并評估跟蹤器的分類能力。新奇類是在LVIS[20]數(shù)據(jù)集中定義為REARE的類。不同的是，TAO-OW的對象類根據(jù)它們是否屬于COCO[36]中的80個類別來劃分為已知和未知。在消融實驗中，除了TAO和TAO-OW外，還包括AnimalTrack[69]和GMOT-40[1]作為參考，并在TAO-OW之后的開放世界環(huán)境中進行評估。關(guān)于AnimalTrack，10個班級中有8個不屬于可可類別。同樣，在GMOT-40的18個等級中，有12個等級是高動態(tài)的比例。BFT的高動態(tài)包括更嚴重的變形、更快的運動和更頻繁的閉塞。定量地，圖4-b，c從兩個方面比較了BFT與其他開放世界MOT數(shù)據(jù)集[1，8，69]的動態(tài)性。具體地說，縱橫比變化(ARC)[15，51]是常用的跟蹤屬性，其測量對象變形或遮擋的頻率和嚴重程度。對象運動是測量對象在兩個連續(xù)時間步長之間的位移的另一個屬性。詳細統(tǒng)計數(shù)據(jù)顯示在SEC中。8.由于BFT的ARC分布更分散，運動分布的值更大，與其他數(shù)據(jù)集相比，BFT表現(xiàn)出更強的動態(tài)性。

5. 實驗

本實驗部分旨在驗證本工作的以下核心結(jié)論：
1)開放世界物體的高度動態(tài)化給MOT帶來了巨大的挑戰(zhàn)。
2)NetTrack在處理動態(tài)對象方面表現(xiàn)突出，在各種開放跟蹤數(shù)據(jù)集上表現(xiàn)出很強的泛化能力，而不需要精調(diào)。
3)與粗粒度方法相比，提出的細粒度學(xué)習(xí)方法對動態(tài)目標的跟蹤具有更強的泛化能力。

5.1 設(shè)置

數(shù)據(jù)集 BFT來評估跟蹤器在高度動態(tài)的開放世界場景中的性能。在零樣本遷移評估中，使用了大規(guī)模TAO-OW[42]和TAO[8]的驗證集來進行廣泛的泛化能力評估。具體而言，TAO的評估遵循[34]中的描述，其中對基礎(chǔ)類別和新類別采用開放詞匯設(shè)置，并評估跟蹤器的分類能力。新類別是在LVIS數(shù)據(jù)集中定義為罕見的類別[20]。目前，TAO—OW的對象類根據(jù)它們是否屬于COCO中的80個類別分為已知和未知[36]。在消融實驗中，除TAO和TAO—OW外，還包括AnimalTrack [69]和GMOT—40 [1]作為參考，并在TAO—OW后在開放世界環(huán)境中進行評價。關(guān)于AnimalTrack，10個課程中有8個不在COCO類別之內(nèi)。同樣，GMOT—40中的18個類別中有12個不屬于COCO類別。

評估 開放世界跟蹤精度（OWTA）[42]是為TAO-OW提出的開放世界MOT度量，是我們實驗中的主要度量。OWTA評估兩個檢測召回（D。Re.）和關(guān)聯(lián)準確性（A.Acc.），分別檢測精度（D.Acc.），檢測精度（D.Pr.），聯(lián)想回憶（A.Re.），和關(guān)聯(lián)精度（A.（Pr.）是參考指標。TETA [33]旨在評估多類別對象，并用于在開放詞匯設(shè)置下評估TAO數(shù)據(jù)集。在TETA中計算定位評分（LocA）和關(guān)聯(lián)評分（AssocA）。HOTA [44]，MOTA [3]和IDF 1 [56]是用于與BFT上的經(jīng)典MOT方法進行比較的經(jīng)典指標，并可作為參考。所有評價過程均采用TrackEval [26]。

實現(xiàn)細節(jié) 在NetTrack中，粗粒度關(guān)聯(lián)從BYTE [71]中調(diào)整，默認點跟蹤器從在TAP-VidKubric [11]上預(yù)訓(xùn)練的CoTracker [28]中調(diào)整。默認情況下，跟蹤步幅為8，丟失的軌跡保留30幀，初始化點采樣的網(wǎng)格為（3，3）。默認檢測器是GroundingDINO [41]與Swin-B [43]骨干，它在COCO [36]，O365 [58]等上進行了預(yù)訓(xùn)練。為了以開放世界MOT應(yīng)用程序負擔得起的方式驗證NetTrack的泛化能力，所有評估的基準測試都不需要額外的訓(xùn)練。BFT上公開的SoTA跟蹤器的微調(diào)和評估遵循其默認設(shè)置。

5.2.高動態(tài)評估

Tab 1 中提供了NetTrack和其他SoTA跟蹤器在高度動態(tài)BFT上的綜合評估。評估分為兩個主要部分：a）使用閉集跟蹤器對BFT數(shù)據(jù)集進行微調(diào)。b）開放世界MOT條件，其涉及在零激發(fā)設(shè)置下的跟蹤。為了確保在開放世界場景的高度動態(tài)挑戰(zhàn)中對跟蹤器性能進行公平評估，開放世界條件下的所有文本提示都只包括“鳥”，這與COCO數(shù)據(jù)集中用于訓(xùn)練閉集跟蹤器的類別一致。實驗結(jié)果主要表明：1）即使在零拍開放世界跟蹤設(shè)置中，NetTrack也能獲得比SoTA微調(diào)的閉集跟蹤器更上級的性能。與最佳微調(diào)結(jié)果相比，NetTrack在OWTA上提高了1.3分，證實了所提出的框架的零射擊泛化能力。2)與微調(diào)后的結(jié)果（線912）相比，閉集跟蹤器在高度動態(tài)的開放世界場景中表現(xiàn)出次優(yōu)的零次泛化能力（線13、14、17、18），在OWTA上平均下降16%，在HOTA上平均下降15%，在MOTA上平均下降21%，這表明閉集跟蹤器對開放世界中的動態(tài)對象具有次優(yōu)的泛化能力。3)NetTrack鼓勵將潛在的感興趣對象關(guān)聯(lián)起來，并將檢測召回率提高了3.4個點。這也導(dǎo)致更多的假陽性樣本，并增加了壓力的關(guān)聯(lián)與輕微下降的A。然而，與最好的粗粒度關(guān)聯(lián)方法（第24—27行）相比，綜合OWTA提升了1.6分。

Tab 1

5.3.零樣本遷移評估

開放詞匯表設(shè)置上的零樣本遷移。Tab 2在開放詞匯MOT評估的TAO上實現(xiàn)了零樣本遷移。OVTrack [34]是在從LVIS [20]生成的數(shù)據(jù)集上訓(xùn)練的，該數(shù)據(jù)集與TAO具有高度的類一致性。與微調(diào)跟蹤器相比，NetTrack顯著提高了跟蹤分類精度，并實現(xiàn)了強大的零樣本跟蹤精度。雖然NetTrack由于缺乏微調(diào)而容易受到大量假陽性樣本的影響，這使得它在基礎(chǔ)類中的LocA和AssocA的評估中處于略微劣勢，但所提出的框架實現(xiàn)了ClsA的11.8點增加，LocA的2.5點增加，新類中的AssocA相當，以及整體TETA的4.5點增加，進一步展示了其競爭性的推廣能力。開放世界設(shè)置上的零樣本遷移NetTrack在TAO-OW [42]基準測試中的零樣本泛化在Tab3中演示。除了NetTrack之外，所有跟蹤器都對已知的TAOOW訓(xùn)練集進行了微調(diào)。與微調(diào)SoTA跟蹤器相比，NetTrack在已知類別上實現(xiàn)了最佳性能。和地方Re.類似于開放世界跟蹤基線（OWTB）[42]，A.Acc.超過基線3.6分，證實了動態(tài)感知聯(lián)想的泛化能力。同樣，A.Acc.仍然近似于視頻OWL-ViT [23]，D.Re.顯示出8.4分的改進，驗證了細粒度定位的有效性。在未知類上，假陽性樣本的引入導(dǎo)致A的略微下降。Acc.，但總體OWTA性能仍具有競爭力，提高了5.3分。

Tab 2

Tab 3

5.4.消融

細粒度網(wǎng)的一般性 在Tab 4、Tab 5，顯示了TAO [8]，TAO-OW [42]，AnimalTrack [69]和GMOT 40 [1]上與細粒度Nets和粗粒度方法的擬議關(guān)聯(lián)之間的比較。由于所提出的框架鼓勵在開放世界場景中發(fā)現(xiàn)更多潛在的對象，NetTrack在LocA和D方面取得了顯著的改進。Re.在四個基準測試中對可見和不可見的類進行測試。特別是D.Re.與第二好的性能相比，TAO-OW上未知類的性能顯著提高了18.2分，證實了其強大的泛化能力。雖然假陽性樣本的引入導(dǎo)致AssoA和A略有下降。Acc，整體TETA和OWTA在可見和不可見類中都有顯著改善。

Tab 4 和 Tab 5

具有可拆卸模塊的堅固框架. 為了驗證所提出的框架的通用性，圖5示出了對可拆卸模塊的消融研究，包括開集定位方法和點跟蹤器。具體而言，定位方法表示為GLIP [32] I、接地DINO [41] II，點跟蹤器表示為PIP [22] a、TAPIR [12] B、CoTracker [28] c。接地DINO和CoTracker的組合表示為II. c，并作為默認設(shè)置。在比較定位能力時，兩種方法在D。Re.但[32]在A中表現(xiàn)出輕微的性能不足。由于引入了更多的假陽性，ACC和整體OWTA。類似地，三點跟蹤器表現(xiàn)出近似優(yōu)異的性能?？傮w而言，模塊的變化不會顯著降低整體性能，從而驗證了所提出的框架的良好的泛化能力。

圖5

針對幀速率丟失的穩(wěn)定性. 在開放世界跟蹤的實際應(yīng)用中，特別是在與邊緣設(shè)備[40]相關(guān)的場景中，由于需要減少計算負荷或節(jié)省能源，經(jīng)常會遇到視頻幀速率降低的情況，這進一步加劇了開放世界對象的動態(tài)性帶來的挑戰(zhàn)。圖6示出了在從默認幀速率(25FPS)到十分之一(3FPS)的降低的幀速率下對BFT數(shù)據(jù)集的跟蹤性能。與其他關(guān)聯(lián)方法[4，7，71]相比，NetTrack在幀速率降低的情況下表現(xiàn)出了良好的穩(wěn)定性。這進一步說明了該框架的泛化性能。

圖6

6.結(jié)論

針對開放世界MOT的高動態(tài)性，提出了NetTrack學(xué)習(xí)細粒度目標線索的方法。具體而言，細粒度的視覺線索和對象的文本對應(yīng)關(guān)系的動態(tài)感知的關(guān)聯(lián)和定位。這項工作還提出了一個高度動態(tài)的開放世界的MOT基準，BFT，和廣泛的評估與SoTA跟蹤器證明了所提出的NetTrack跟蹤動態(tài)對象的有效性。此外，在幾個具有挑戰(zhàn)性的開放世界MOT基準測試上進行的大量遷移實驗驗證了NetTrack的強大泛化能力，無需微調(diào)。對局限性的分析表明，更精簡的端到端方式和過濾假陽性樣本有希望進一步改進。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

NetTrack：使用網(wǎng)絡(luò)跟蹤高度動態(tài)的對象

NetTrack：使用網(wǎng)絡(luò)跟蹤高度動態(tài)的對象

摘要

1 引言

2. 相關(guān)工作

3. 方法

3.1.細粒度網(wǎng)絡(luò)

3.2.細粒度的對象-文本通信

4. BFT數(shù)據(jù)集

5. 實驗

5.1 設(shè)置

5.2.高動態(tài)評估

5.3.零樣本遷移評估

5.4.消融

6.結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

NetTrack：使用網(wǎng)絡(luò)跟蹤高度動態(tài)的對象

摘要

1 引言

2. 相關(guān)工作

3. 方法

3.1.細粒度網(wǎng)絡(luò)

3.2.細粒度的對象-文本通信

4. BFT數(shù)據(jù)集

5. 實驗

5.1 設(shè)置

5.2.高動態(tài)評估

5.3.零樣本遷移評估

5.4.消融

6.結(jié)論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av