Aa视频在线观看网址,操逼国产一区二区

人臉聚類是利用未標(biāo)記人臉數(shù)據(jù)的必不可少的工具，它具有廣泛的應(yīng)用程序，包括人臉注釋和檢索。最近的工作表明，有監(jiān)督的聚類可以帶來(lái)顯著的性能提升。但是，它們通常涉及啟發(fā)式步驟，并且需要大量重疊的子圖，從而嚴(yán)重限制了其準(zhǔn)確性和效率。在本文中，我們提出了一個(gè)完全可學(xué)習(xí)的聚類框架，而無(wú)需大量重疊的子圖。相反，我們將聚類問(wèn)題轉(zhuǎn)化為兩個(gè)子問(wèn)題。具體來(lái)說(shuō)，設(shè)計(jì)了兩個(gè)名為GCN-V和GCN-E的圖卷積網(wǎng)絡(luò)來(lái)分別估計(jì)頂點(diǎn)的置信度和邊的連通性。有了頂點(diǎn)置信度和邊緣連通性，我們自然可以在親和度圖上組織更多相關(guān)的頂點(diǎn)，并將其分組。在兩個(gè)大型基準(zhǔn)測(cè)試上的實(shí)驗(yàn)表明，我們的方法顯著提高了聚類精度，從而提高了訓(xùn)練在頂部的識(shí)別模型的性能，但比現(xiàn)有的監(jiān)督方法效率高出一個(gè)數(shù)量級(jí)。

1.簡(jiǎn)介

由于帶注釋的人臉數(shù)據(jù)集的爆炸性增長(zhǎng)[19，11，17]，近年來(lái)，人臉識(shí)別取得了長(zhǎng)足的進(jìn)步[31，27，33，7，40]。伴隨著這種趨勢(shì)，對(duì)注釋數(shù)據(jù)的需求不斷增長(zhǎng)，導(dǎo)致注釋成本過(guò)高。為了利用大量未標(biāo)記的面部圖像，最近的研究[14、39、35、38]提供了一種有前途的基于聚類的管道，并證明了其在改善面部識(shí)別模型方面的有效性。他們首先執(zhí)行聚類以生成未標(biāo)記圖像的“偽標(biāo)簽”，然后利用它們以監(jiān)督方式訓(xùn)練模型。這些方法成功的關(guān)鍵在于有效的人臉聚類算法。

現(xiàn)有的人臉聚類方法大致分為兩類，即無(wú)監(jiān)督方法和有監(jiān)督方法。諸如K-means [22]和DBSCAN [9]之類的無(wú)監(jiān)督方法依賴于特定的假設(shè)，并且缺乏應(yīng)對(duì)現(xiàn)實(shí)數(shù)據(jù)集中復(fù)雜的簇結(jié)構(gòu)的能力。為了提高對(duì)不同數(shù)據(jù)的適應(yīng)性，有人提出了有監(jiān)督的聚類方法[35，38]來(lái)學(xué)習(xí)聚類模式。但是，準(zhǔn)確性和效率都遠(yuǎn)遠(yuǎn)不能令人滿意。特別是，為了與大規(guī)模的面部數(shù)據(jù)聚類，現(xiàn)有的監(jiān)督方法將數(shù)據(jù)與許多小子圖一起組織，從而導(dǎo)致兩個(gè)主要問(wèn)題。首先，處理子圖涉及基于簡(jiǎn)單假設(shè)的啟發(fā)式步驟。子圖生成[38]和預(yù)測(cè)聚合[35]都依賴于啟發(fā)式過(guò)程，因此限制了它們的性能上限。此外，這些方法所需的子圖通常高度重疊，從而導(dǎo)致過(guò)多的冗余計(jì)算成本。

因此，我們尋求一種算法，可以學(xué)習(xí)更準(zhǔn)確，更有效地進(jìn)行聚類。為了獲得更高的準(zhǔn)確性，我們希望使框架的所有組件均易于學(xué)習(xí)，超越啟發(fā)式程序的限制。另一方面，為了減少冗余計(jì)算，我們打算減少所需子圖的數(shù)量。先前的工作[39，35，38]表明，親和度圖上的聚類通常具有某些結(jié)構(gòu)模式。我們觀察到這種結(jié)構(gòu)模式主要來(lái)自兩個(gè)來(lái)源，即頂點(diǎn)和邊緣。直觀地講，將每個(gè)頂點(diǎn)連接到鄰居（該鄰居具有較高的屬于特定類別的置信度）可以從親和度圖中推斷出許多樹(shù)。所獲得的樹(shù)自然形成連接的組件作為簇?；谶@種動(dòng)機(jī)，我們?cè)O(shè)計(jì)了一種完全可學(xué)習(xí)的聚類方法，不需要很多子圖，從而導(dǎo)致了

準(zhǔn)確性和效率。

特別地，我們將聚類問(wèn)題轉(zhuǎn)化為兩個(gè)子問(wèn)題。一種是估計(jì)頂點(diǎn)的置信度，該信度測(cè)量一個(gè)頂點(diǎn)屬于特定類別的概率。另一種是估計(jì)邊緣連通性，這表明兩個(gè)頂點(diǎn)屬于同一類的概率。通過(guò)頂點(diǎn)置信度和邊緣連通性，我們以自然的方式執(zhí)行聚類，即每個(gè)頂點(diǎn)都以更高的置信度和最強(qiáng)的連通性連接到一個(gè)頂點(diǎn)。如圖1所示，每個(gè)頂點(diǎn)找到一條連接到頂點(diǎn)的邊，其置信度更高，并且最終連接到同一頂點(diǎn)的頂點(diǎn)屬于同一簇。

提出了兩個(gè)可學(xué)習(xí)的組件，分別是置信度估計(jì)器和連通性估計(jì)器，以分別估計(jì)頂點(diǎn)置信度和邊緣連通性。這兩個(gè)組件都基于GCN來(lái)學(xué)習(xí)數(shù)據(jù)，分別由GCN-V（用于頂點(diǎn)置信度）和GCN-E（用于邊緣連接性）表示。具體來(lái)說(shuō)，GCN-V將整個(gè)圖作為輸入，并同時(shí)估計(jì)所有頂點(diǎn)的置信度。 GCN-E將根據(jù)本地候選集構(gòu)建的圖作為輸入，并評(píng)估兩個(gè)頂點(diǎn)屬于同一類的可能性。

實(shí)驗(yàn)表明，我們的方法不僅可以顯著地將現(xiàn)有的監(jiān)督方法加速一個(gè)數(shù)量級(jí)，而且在5M未標(biāo)記數(shù)據(jù)的兩個(gè)F評(píng)分指標(biāo)下也優(yōu)于最新的技術(shù)水平[38]。主要貢獻(xiàn)在于三個(gè)方面：（1）我們提出了一個(gè)新穎的框架，該框架將聚類公式化為對(duì)置信度和連通性的估計(jì)，兩者均基于可學(xué)習(xí)的組件。（2）我們的方法比現(xiàn)有的基于學(xué)習(xí)的方法快一個(gè)數(shù)量級(jí)。（3）所提出的方法在大規(guī)模人臉聚類和時(shí)尚聚類上都達(dá)到了最先進(jìn)的性能。發(fā)現(xiàn)的集群將人臉識(shí)別模型提升到與其監(jiān)督的同類模型相當(dāng)?shù)乃健?/p>

2.相關(guān)工作

無(wú)監(jiān)督人臉聚類。隨著深度學(xué)習(xí)的興起，最近的工作主要采用基于CNN的模型的深度功能，并著重于相似度指標(biāo)的設(shè)計(jì)。奧托等。 [1]提出了一種近似的秩序度量。 Lin等。 [20]引入了鄰域的最小覆蓋范圍作為相似性度量。除了專門為人臉聚類設(shè)計(jì)的方法外，經(jīng)典聚類算法也可以應(yīng)用于人臉聚類?；诿芏鹊木垲愂亲钕嚓P(guān)的方法。 DB-SCAN [9]計(jì)算了經(jīng)驗(yàn)密度，并將集群指定為數(shù)據(jù)空間中的密集區(qū)域。 OPTICS [3]采用了類似的概念并解決了數(shù)據(jù)點(diǎn)的排序問(wèn)題。

所提出的方法與基于密度的聚類具有共同的直覺(jué)，即計(jì)算每個(gè)樣本的“密度” [9]，并關(guān)注樣本之間的相對(duì)順序[3]。但是，我們的方法與上述所有非監(jiān)督方法大不相同：我們框架中的所有組件都是可學(xué)習(xí)的。這使我們能夠?qū)W習(xí)捕捉面部簇中的內(nèi)在結(jié)構(gòu)。

監(jiān)督人臉聚類。最近的工作表明，在面部聚類中引入監(jiān)督信息可顯著提高性能。詹等。 [39]訓(xùn)練了一個(gè)MLP分類器來(lái)聚合信息，從而發(fā)現(xiàn)更健壯的聯(lián)系。 Wang等。 [35]通過(guò)利用GCN捕獲圖上下文進(jìn)一步改善了鏈接預(yù)測(cè)。兩種方法都通過(guò)找到具有動(dòng)態(tài)閾值的連接組件來(lái)獲得聚類。楊等。 [38]設(shè)計(jì)了一種劃分算法來(lái)生成多尺度子圖，并提出了一個(gè)兩階段監(jiān)督框架來(lái)從中精確定位所需的集群。

盡管所提出的方法采用了監(jiān)督聚類的思想，但它與兩個(gè)關(guān)鍵方面有所不同：（1）與以前的監(jiān)督方法[39、35、38]不同，它不依賴于啟發(fā)式算法進(jìn)行預(yù)處理或后處理。取而代之的是，建議框架的所有組成部分都是可以學(xué)習(xí)的，并且有可能獲得更高的準(zhǔn)確性。（2）設(shè)計(jì)效率更高?，F(xiàn)有方法依賴大量子圖來(lái)精確定位聚類。 [35]預(yù)測(cè)了每個(gè)頂點(diǎn)周圍的所有連接，其中兩個(gè)附近的頂點(diǎn)可能具有高度重疊的鄰域，因此存在多余的計(jì)算成本。 [38]產(chǎn)生了用于檢測(cè)和分割的多尺度子圖，其數(shù)量通常比聚類的數(shù)量大幾倍。相反，所提出的方法采用有效的無(wú)子圖策略來(lái)估計(jì)頂點(diǎn)置信度，并集中在鄰域的一小部分以進(jìn)行連通性預(yù)測(cè)。

圖卷積網(wǎng)絡(luò)。圖卷積網(wǎng)絡(luò)（GCN）[18]已成功應(yīng)用于各種任務(wù)[18、12、32、37、36]。最近的一些努力擴(kuò)展了GCN來(lái)處理大規(guī)模圖形。 GraphSAGE [12]在每一層中采樣了一定數(shù)量的鄰居進(jìn)行聚合。 FastGCN [4]通過(guò)采樣頂點(diǎn)而不是鄰居來(lái)進(jìn)一步降低了計(jì)算成本。在本文中，我們利用圖卷積網(wǎng)絡(luò)的強(qiáng)大表達(dá)能力，來(lái)學(xué)習(xí)大規(guī)模親和圖上的頂點(diǎn)置信度和局部子圖上的邊連通性。

3.方法論

在大規(guī)模人臉聚類中，有監(jiān)督的方法證明了它們?cè)谔幚韽?fù)雜聚類模式方面的有效性，但是其準(zhǔn)確性受到某些手工制作組件的限制，并且其效率受到眾多高度重疊的子圖的要求的影響。因此，如何準(zhǔn)確而有效地聚類仍然是一個(gè)問(wèn)題。為了應(yīng)對(duì)這一挑戰(zhàn)，我們提出了一種有效的替代方法，其中所有組件都是可學(xué)習(xí)的。具體來(lái)說(shuō)，我們將聚類作為估計(jì)親和圖上的頂點(diǎn)置信度和邊緣連接性的過(guò)程進(jìn)行構(gòu)建，然后通過(guò)將每個(gè)頂點(diǎn)與具有更高置信度和連接性的鄰居連接起來(lái)，將圖劃分為群集。

3.1?？蚣芨攀?/p>

給定一個(gè)數(shù)據(jù)集，我們從經(jīng)過(guò)訓(xùn)練的CNN中提取每個(gè)圖像的特征，形成特征集F = {fi} Ni = 1，其中fi∈RD。 N是圖像數(shù)，D是特征尺寸。樣本i與樣本j之間的親和度表示為ai，j，它是fi與fj之間的余弦相似度。根據(jù)親和度，我們用KNN親和度圖G =（V，E）表示數(shù)據(jù)集，其中每個(gè)圖像都是屬于V的頂點(diǎn)，并連接到它的K個(gè)最近鄰居，形成了屬于E的K條邊。可以表示為頂點(diǎn)特征矩陣F∈RN×D和對(duì)稱鄰接矩陣A∈RN×N，如果vi和vj不連接，則ai，j = 0。

為了通過(guò)從頂點(diǎn)和邊緣學(xué)習(xí)結(jié)構(gòu)模式來(lái)執(zhí)行聚類，我們將聚類分解為

兩個(gè)子問(wèn)題。一種是預(yù)測(cè)頂點(diǎn)的置信度。置信度是確定頂點(diǎn)是否屬于特定類。直觀上，高置信度的頂點(diǎn)通常位于頂點(diǎn)密集分布并屬于同一類的位置，而低置信度的頂點(diǎn)可能位于幾個(gè)聚類的邊界上。另一個(gè)是預(yù)測(cè)邊緣連接性的子問(wèn)題。具有高連通性的邊緣表示兩個(gè)連接的樣本傾向于屬于同一類別。利用親和圖中的頂點(diǎn)置信度和邊緣連通性，可以通過(guò)找到從具有較低置信度的頂點(diǎn)到具有較高置信度的頂點(diǎn)的有向路徑來(lái)以簡(jiǎn)單的方式執(zhí)行聚類。此過(guò)程自然會(huì)形成許多彼此隔離的樹(shù)，因此很容易將圖劃分為簇。我們將此過(guò)程稱為基于樹(shù)的分區(qū)。

所提出方法的主要挑戰(zhàn)仍然在于如何估計(jì)頂點(diǎn)置信度和邊緣連通性。如圖2所示，我們的框架由兩個(gè)可學(xué)習(xí)的模塊組成，即置信度估計(jì)器和連接性估計(jì)器。前者基于GCN-V估計(jì)頂點(diǎn)置信度，而后者基于GCN-E預(yù)測(cè)邊緣連通性。具體來(lái)說(shuō)，GCN-V將整個(gè)親和度圖作為輸入，并同時(shí)估計(jì)所有頂點(diǎn)的置信度。 GCN-E將根據(jù)候選集構(gòu)建的圖作為輸入，并評(píng)估屬于同一類的兩個(gè)頂點(diǎn)的置信度。根據(jù)這兩個(gè)模塊的輸出，我們執(zhí)行基于樹(shù)的分區(qū)以獲得群集。

3.2。置信度估算器

類似于對(duì)象檢測(cè)中的無(wú)錨方法[41，8]，它們使用熱圖來(lái)指示對(duì)象出現(xiàn)在圖像的相應(yīng)區(qū)域中的可能性，置信估計(jì)器旨在估計(jì)每個(gè)頂點(diǎn)的值，從而指示是否在親和圖的相應(yīng)區(qū)域上有一個(gè)特定的類。

由于現(xiàn)實(shí)世界中的數(shù)據(jù)集通常具有較大的類內(nèi)差異，因此即使每個(gè)圖像屬于同一類，它們也可能具有不同的置信度值。對(duì)于高置信度的圖像，其相鄰圖像往往屬于同一類別，而低置信度的圖像通常與其他類別的圖像相鄰。基于此觀察，我們可以基于附近的標(biāo)記圖像為每個(gè)頂點(diǎn)定義置信度ci：

其中Ni是vi的鄰域，yi是vi的真實(shí)標(biāo)簽，而ai，j是vi和vj之間的親和力。置信度用于衡量鄰居是否近親并且來(lái)自同一階級(jí)。從直覺(jué)上講，具有密集連接和純連接的頂點(diǎn)具有較高的置信度，而具有稀疏連接或位于多個(gè)群集之間的邊界中的頂點(diǎn)的置信度較低。我們研究了對(duì)Sec的不同信心設(shè)計(jì)。 4.3.1。

置信度估計(jì)器的設(shè)計(jì)。我們假設(shè)具有相似置信度的頂點(diǎn)具有相似的結(jié)構(gòu)模式。為了捕獲這種模式，我們學(xué)習(xí)了一個(gè)名為GCN-V的圖卷積網(wǎng)絡(luò)[18]，以估計(jì)頂點(diǎn)的置信度。具體而言，在輸入鄰接矩陣A和頂點(diǎn)特征矩陣F的情況下，GCN會(huì)預(yù)測(cè)每個(gè)頂點(diǎn)的置信度。 GCN由L層組成，每層的計(jì)算公式如下：

其中A A = D ?-1（A + I），D ?ii =??j（A + I）j等角度矩陣。用特征矩陣F設(shè)置輸入層F0的特征嵌入，并且F1包含第l層的嵌入。 W1是可訓(xùn)練的矩陣，用于將嵌入轉(zhuǎn)換為新的空間。 σ是非線性激活（本文中的ReLU）。為了利用輸入嵌入和鄰域聚合之后的嵌入來(lái)學(xué)習(xí)變換矩陣，我們將g（·，·）定義為它們的串聯(lián)：

g（A ?，F(xiàn)1）＝ [（F1）?，（A ?F1）?]?。（3）

這種定義已被證明比簡(jiǎn)單地對(duì)每個(gè)頂點(diǎn)周圍的鄰居的嵌入特征進(jìn)行加權(quán)平均更有效[35]。基于第L層（即FL）的輸出嵌入，我們采用完全連接的層來(lái)預(yù)測(cè)頂點(diǎn)的置信度。

c'= FLW + b，（4）

其中W是可訓(xùn)練的回歸變量，b是可訓(xùn)練的偏差。 vi的預(yù)測(cè)置信度可以從c'中的對(duì)應(yīng)元素（用c'i表示）中獲取。

訓(xùn)練和推理。給定一個(gè)帶有班級(jí)標(biāo)簽的訓(xùn)練集，我們可以根據(jù)式子獲得真實(shí)的可信度。每個(gè)頂點(diǎn)1個(gè)。然后我們訓(xùn)練GCN-V，目的是最小化地面真實(shí)度和預(yù)測(cè)分?jǐn)?shù)之間的均方誤差（MSE），其定義為：

在推論過(guò)程中，我們使用訓(xùn)練有素的GCN-V來(lái)預(yù)測(cè)每個(gè)頂點(diǎn)的置信度。所獲得的置信度有兩種使用方式。首先，在下一個(gè)模塊中使用它們來(lái)確定是否需要預(yù)測(cè)邊緣的連通性，從而顯著降低了計(jì)算成本。此外，它們?cè)谧罱K聚類中用于提供頂點(diǎn)之間的部分順序。

復(fù)雜度分析。主要的計(jì)算成本在于圖卷積（公式2）。由于建立的圖是K K N的KNN圖，因此親和度矩陣A是高度稀疏的矩陣。因此，圖卷積可以有效地實(shí)現(xiàn)為稀疏矩陣乘法，從而產(chǎn)生復(fù)雜度O（| E |）[18]。作為邊數(shù)| E |稀疏矩陣的θ是以NK為邊界的，在頂點(diǎn)數(shù)為K number N時(shí)，推理復(fù)雜度是線性的。通過(guò)對(duì)鄰居或頂點(diǎn)進(jìn)行采樣可以將該操作縮放到非常大的設(shè)置[12，4]。根據(jù)經(jīng)驗(yàn)，在具有5.2M頂點(diǎn)的圖形上，一個(gè)1層GCN需要37G CPU Ram和92s 16CPU。

3.3。連通性估算器

對(duì)于頂點(diǎn)vi，置信度大于ci的鄰居表示他們更有信心屬于特定類。要將vi分配給特定類別，一個(gè)直觀的想法是將vi與來(lái)自同一類別的鄰居建立聯(lián)系，并具有更大的信心。但是，信心更大的鄰居不一定屬于同一類。因此，我們引入了名為GCN-E的連通性估算器，以基于局部圖結(jié)構(gòu)測(cè)量成對(duì)關(guān)系。

候選集。給定預(yù)測(cè)的頂點(diǎn)置信度，我們首先為每個(gè)頂點(diǎn)構(gòu)造一個(gè)候選集S。

Si = {vj | c'j> c'i，vj∈Ni}。（6）

候選集的想法是選擇連接到鄰居的邊緣更有信心屬于一個(gè)簇，并且Si僅包含比vi的信心更高的信心的頂點(diǎn)。

連接估計(jì)器的設(shè)計(jì)。 GCN-E與GCN-V具有相似的GCN結(jié)構(gòu)。主要區(qū)別在于：（1）GCN-E的輸入不是子圖G（Si），它包含Si中的所有頂點(diǎn)，而不是對(duì)整個(gè)圖G進(jìn)行運(yùn)算；（2）GCN-E為G（Si）上的每個(gè)頂點(diǎn)輸出一個(gè)值，以表明它與vi共享同一類的可能性。

更具體地，子圖G（Ci）可以由親和度矩陣A（Si）和頂點(diǎn)特征矩陣F（Si）表示。我們從特征矩陣F（Si）的每一行中減去fi，以對(duì)Si和vi之間的關(guān)系進(jìn)行編碼，并且獲得的特征矩陣由F Si（Si）表示。因此，GCN-E中的轉(zhuǎn)換可以表示為：

其中σ，g（·）和A ?（Si）的定義類似于方程式。 2. Wl'是第I層中GCN-E的參數(shù)?；诘贚層的輸出嵌入，我們通過(guò)完全連接的層獲得了Si中每個(gè)頂點(diǎn)的連通性。由于連通性反映了兩個(gè)頂點(diǎn)之間的關(guān)系，因此我們使用r'i，j表示vi和vj之間的預(yù)測(cè)連通性。

訓(xùn)練和推理。

給定帶有類標(biāo)簽的訓(xùn)練集，對(duì)于頂點(diǎn)vi，如果鄰居vj與vi共享相同的標(biāo)簽，則連通性設(shè)置為1，否則為0。

我們旨在預(yù)測(cè)可反映兩個(gè)頂點(diǎn)是否屬于同一類的連通性。類似于式在GCN-V中的第5條中，我們還使用逐點(diǎn)MSE損失來(lái)訓(xùn)練GCN-E。

為了加快訓(xùn)練和推理過(guò)程，我們僅將GCN-E應(yīng)用于估計(jì)置信度較高的一小部分頂點(diǎn)，因?yàn)榕c置信度較小的頂點(diǎn)相比，它們可能會(huì)影響更多的后繼對(duì)象。我們使用GCN-E作為ρ來(lái)表示頂點(diǎn)的一部分。對(duì)于其他頂點(diǎn)，它們僅連接到候選集中的M個(gè)最近鄰居，表明它們以最大M個(gè)相似度和較高置信度連接到鄰居。 M = 1導(dǎo)致基于樹(shù)的分區(qū)策略，而M> 1產(chǎn)生有向無(wú)環(huán)圖作為聚類。經(jīng)驗(yàn)結(jié)果表明，M = 1，ρ= 10％已經(jīng)可以帶來(lái)可觀的性能提升（參見(jiàn)第4.3.2節(jié)）。

復(fù)雜度分析。連通性估計(jì)的想法與[35]具有相似的精神，他們?cè)u(píng)估了子圖上每個(gè)頂點(diǎn)連接到中心頂點(diǎn)的可能性。盡管[35]的復(fù)雜度與N呈線性關(guān)系，但在每個(gè)頂點(diǎn)附近使用GCN會(huì)產(chǎn)生過(guò)多的計(jì)算需求。提出的GCN-E具有兩個(gè)要提高效率的關(guān)鍵設(shè)計(jì)：（1）我們僅預(yù)測(cè)候選集中的鏈接，這種工作可能涉及每個(gè)頂點(diǎn)較少的鄰居，而無(wú)需手動(dòng)選擇跳數(shù)以及每一跳的鄰居數(shù)。（2）利用估計(jì)的頂點(diǎn)置信度，我們能夠集中精力于一小部分具有高置信度的頂點(diǎn)。有了這兩個(gè)重要的設(shè)計(jì)，我們的加速比[35]高了一個(gè)數(shù)量級(jí)。

4.實(shí)驗(yàn)

4.1。實(shí)驗(yàn)設(shè)定

人臉聚類。 MS-Celeb-1M [11]是由10萬(wàn)個(gè)身份組成的大規(guī)模人臉識(shí)別數(shù)據(jù)集，每個(gè)身份約有100張面部圖像。我們采用了ArcFace [7]中廣泛使用的注釋，生成了一個(gè)可靠的子集，其中包含來(lái)自86K類的580萬(wàn)幅圖像。我們隨機(jī)將清理后的數(shù)據(jù)集分為10個(gè)部分，它們具有幾乎相等的身份。每個(gè)部分包含約580K圖像的8.6K身份。我們隨機(jī)選擇1個(gè)部分作為標(biāo)記數(shù)據(jù)，另9個(gè)部分作為未標(biāo)記數(shù)據(jù)。

時(shí)尚集群。我們還評(píng)估了我們的方法對(duì)于面部圖像以外的數(shù)據(jù)集的有效性。我們?cè)贒eepFashion [21]的很大一部分上進(jìn)行了測(cè)試，即店內(nèi)服裝檢索，這是很長(zhǎng)的尾巴。特別是，我們?cè)谠挤指钪谢旌狭擞?xùn)練功能和測(cè)試功能，并從3,997個(gè)類別中隨機(jī)采樣了25,752個(gè)圖像進(jìn)行訓(xùn)練，而其他26,960個(gè)圖像中則將3,984個(gè)類別進(jìn)行了測(cè)試。請(qǐng)注意，時(shí)尚聚類也被視為開(kāi)放集問(wèn)題，訓(xùn)練類別和測(cè)試類別之間沒(méi)有重疊。

人臉識(shí)別。我們?cè)贛egaFace [17]上評(píng)估人臉識(shí)別模型，這是最大的人臉識(shí)別基準(zhǔn)。它包括來(lái)自FaceScrub [25]的探針集，其中包含3張，530張圖像和包含1M張圖像的圖庫(kù)集。指標(biāo)。我們?cè)u(píng)估聚類和面部識(shí)別的性能。人臉聚類通常通過(guò)兩個(gè)指標(biāo)[29、35、38]進(jìn)行評(píng)估，即成對(duì)F分?jǐn)?shù)和BCubed F分?jǐn)?shù)[2]。前者強(qiáng)調(diào)大集群，因?yàn)閷?duì)的數(shù)量隨著集群的大小呈二次方增長(zhǎng)，而后者則根據(jù)集群的大小進(jìn)行加權(quán)。這兩個(gè)指標(biāo)都是精度和召回率的諧波平均值，分別稱為FP和FB。人臉識(shí)別通過(guò)MegaFace中的人臉識(shí)別基準(zhǔn)進(jìn)行評(píng)估。我們?cè)贛egaFace中采用top-1識(shí)別命中率，即從1M畫(huà)廊圖像中對(duì)top-1圖像進(jìn)行排名并計(jì)算top-1命中率。

實(shí)施細(xì)節(jié)。為了構(gòu)建KNN親和圖，我們將MS1M的K設(shè)置為80，將Deep Fashion的K設(shè)置為5。由于GCN-V在具有數(shù)百萬(wàn)個(gè)頂點(diǎn)的圖上進(jìn)行操作，因此我們僅使用1層GCN來(lái)降低計(jì)算成本。對(duì)于GCN-E，它在不超過(guò)K個(gè)頂點(diǎn)的鄰域上運(yùn)行，因此我們使用4層GCN來(lái)提高其表達(dá)能力。對(duì)于這兩個(gè)數(shù)據(jù)集，動(dòng)量SGD的初始學(xué)習(xí)速率為0.1，權(quán)重衰減為1e-5。為了避免沒(méi)有正確的鄰居進(jìn)行連接的情況，我們?cè)O(shè)置閾值τ來(lái)切除相似度較小的邊緣。所有設(shè)置的τ均設(shè)為0.8。

4.2。方法比較

4.2.1人臉聚類

我們將提出的方法與一系列聚類基線進(jìn)行比較。下面簡(jiǎn)要介紹這些方法。

（1）K-means [22]，常用的聚類算法。對(duì)于N≥1.74M，我們使用小批量K均值，得出可比的結(jié)果，但運(yùn)行時(shí)間大大縮短。（2）HAC [30]，該方法以自下而上的方式，根據(jù)某些標(biāo)準(zhǔn)對(duì)合并的封閉類進(jìn)行分層合并。

（3）DBSCAN [9]根據(jù)設(shè)計(jì)的密度標(biāo)準(zhǔn)提取聚類，并將稀疏的背景保留為噪聲。（4）MeanShift [6]精確定位了包含一組收斂到同一局部最優(yōu)值的點(diǎn)的聚類。

（5）頻譜[24]根據(jù)相似度矩陣的頻譜將數(shù)據(jù)劃分為連接的組件。

（6）ARO [1]使用近似的最近鄰居搜索和改進(jìn)的距離度量來(lái)執(zhí)行聚類。

（7）CDP [39]，一種基于圖的聚類算法，它利用更健壯的成對(duì)關(guān)系。

（8）L-GCN [35]，一種最新的監(jiān)督方法，采用GCN來(lái)利用圖上下文進(jìn)行成對(duì)預(yù)測(cè)。

（9）LTC [38]，另一種最近受監(jiān)督的方法，將聚類作為檢測(cè)和分段管道。（10）我們的（V），提出的方法將GCN-V應(yīng)用于整個(gè)圖，并通過(guò)將每個(gè)頂點(diǎn)連接到候選集中最接近的鄰居來(lái)獲得聚類。（11）我們的（V + E），提出的方法，它在GCN-V的基礎(chǔ)上使用GCN-E來(lái)估計(jì)連通性，并通過(guò)將每個(gè)頂點(diǎn)連接到候選集中最連通的鄰居來(lái)獲得聚類。

結(jié)果對(duì)于所有方法，我們都會(huì)調(diào)整相應(yīng)的超參數(shù)并報(bào)告最佳結(jié)果。表1和表2的結(jié)果表明：（1）給定簇的真實(shí)數(shù)量，K均值獲得較高的F得分。但是，集群的數(shù)量極大地影響了性能，因此當(dāng)集群的數(shù)量未知時(shí)，很難采用。（2）HAC不需要集群，但是迭代合并過(guò)程需要大量的計(jì)算預(yù)算。即使使用快速實(shí)現(xiàn)[23]，當(dāng)N為5.21M時(shí)，也要花費(fèi)近900個(gè)小時(shí)才能獲得結(jié)果。（3）盡管DBSCAN效率很高，但它假定不同群集之間的密度相似，這可能是在擴(kuò)展到較大設(shè)置時(shí)性能嚴(yán)重下降的原因。（4）MeanShift在時(shí)尚聚類上產(chǎn)生了很好的結(jié)果，但是收斂時(shí)間很長(zhǎng)。（5）光譜聚類也表現(xiàn)不錯(cuò)，但是解決特征值分解會(huì)導(dǎo)致大量的計(jì)算和內(nèi)存需求，從而限制了其應(yīng)用。（6）ARO的性能取決于鄰居的數(shù)量。有了合理的時(shí)間預(yù)算，其性能就不如MS1M中的其他方法。（7）CDP非常有效，并且在不同規(guī)模的不同數(shù)據(jù)集上獲得較高的F評(píng)分。為了公平起見(jiàn)，我們將CDP與單個(gè)模型版本進(jìn)行比較。（8）L-GCN始終超過(guò)CDP，但比CDP慢了一個(gè)數(shù)量級(jí)。（9）作為最近以有監(jiān)督方式進(jìn)行聚類的方法，LTC展示了其在大規(guī)模聚類中的優(yōu)勢(shì)。但是，依靠迭代提議策略，性能增益伴隨著大量的計(jì)算成本。（10）建議的GCN-V始終優(yōu)于以前的方法。盡管GCN-V的訓(xùn)練集僅包含580K圖像，但它可以很好地歸納為521萬(wàn)未標(biāo)記的數(shù)據(jù)，證明了其在捕獲頂點(diǎn)重要特征方面的有效性。此外，由于GCN-V同時(shí)預(yù)測(cè)了所有頂點(diǎn)的置信度，因此它比以前的監(jiān)督方法要快一個(gè)數(shù)量級(jí)。（11）我們以最高估計(jì)的置信度將GCN-E應(yīng)用于20％的頂點(diǎn)。它帶來(lái)了進(jìn)一步的性能提升，尤其是在應(yīng)用于Deep-Fashion時(shí)。這個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集包含嘈雜的鄰居，因此需要更仔細(xì)地選擇連通性。

運(yùn)行時(shí)分析我們使用ES-2640 v3 CPU和TitanXP來(lái)測(cè)量不同方法的運(yùn)行時(shí)。對(duì)于MS-Celeb-1M，我們?cè)贜 = 584K時(shí)測(cè)量運(yùn)行時(shí)間。除K均值和HAC外，所有比較的方法都依賴于KNN圖。為了專注于算法本身的運(yùn)行時(shí)間，我們使用1個(gè)GPU和16個(gè)CPU來(lái)加速KNN的搜索[16]，這將查找80個(gè)最近鄰居的時(shí)間從34分鐘減少到101秒。對(duì)于所有監(jiān)督方法，我們分析了它們的推理時(shí)間。如表1所示，建議的GCN-V比L-GCN和LTC快一個(gè)數(shù)量級(jí)。 GCN-E花費(fèi)更多時(shí)間來(lái)預(yù)測(cè)候選集中的連接，但是它的效率仍然比L-GCN和LTC高出幾倍。圖3更好地說(shuō)明了精度和效率之間的權(quán)衡。對(duì)于LTC和微型批次K均值，我們分別控制投標(biāo)的數(shù)量和批次的大小，以產(chǎn)生不同的運(yùn)行時(shí)間和準(zhǔn)確性。在實(shí)際實(shí)踐中，我們可以利用LTC中的超頂點(diǎn)概念進(jìn)一步加速GCN-V，并并行化GCN-E以同時(shí)估計(jì)不同頂點(diǎn)的連通性。

4.2.2人臉識(shí)別

遵循[39，38]的流程，我們應(yīng)用訓(xùn)練好的聚類模型為未標(biāo)記的數(shù)據(jù)分配偽標(biāo)簽，并利用它們來(lái)增強(qiáng)人臉識(shí)別模型。

作為第二4.1引入后，我們將數(shù)據(jù)集分為10個(gè)分割，并隨機(jī)選擇1個(gè)分割以具有真實(shí)標(biāo)簽，表示為SL。特別地，人臉識(shí)別實(shí)驗(yàn)包括四個(gè)步驟：（1）使用SL訓(xùn)練人臉識(shí)別模型Mr。（2）使用Mr提取SL上的人臉特征，并在SL中訓(xùn)練具有提取特征和對(duì)應(yīng)標(biāo)簽的聚類模型Mc；（3）使用Mc為未標(biāo)記的圖像分配偽標(biāo)簽；（4）使用SL和帶有偽標(biāo)簽的未標(biāo)簽數(shù)據(jù)以多任務(wù)方式訓(xùn)練最終的人臉識(shí)別模型。注意，SL用于訓(xùn)練初始人臉識(shí)別模型和人臉聚類模型。

與以前的工作[39，38]不同，在該工作中假定未標(biāo)記的數(shù)據(jù)是順序獲取的，并且分別對(duì)9個(gè)分割進(jìn)行了9次聚類，我們直接對(duì)5.21M未標(biāo)記的數(shù)據(jù)執(zhí)行聚類，這更加實(shí)用且具有挑戰(zhàn)性。通過(guò)假設(shè)所有未標(biāo)記的數(shù)據(jù)都具有真實(shí)標(biāo)簽來(lái)訓(xùn)練上限。如圖4所示，這三種方法都受益于未標(biāo)記數(shù)據(jù)的增加。由于聚類的性能提高，我們的方法始終優(yōu)于以前的方法，并將MegaFace上的人臉識(shí)別模型的性能從58.21提高到77.88。

4.3。消融研究

為了研究一些重要的設(shè)計(jì)選擇，我們選擇MS-Celeb-1M（584K）和DeepFashion進(jìn)行消融研究。

4.3.1置信度估計(jì)器

頂點(diǎn)置信度設(shè)計(jì)。我們探索不同的信心設(shè)計(jì)。由于置信度與本節(jié)中描述的“密度”概念有關(guān)。 2，我們首先采用兩種廣泛使用的無(wú)監(jiān)督密度作為置信度[9，3，26]。給定半徑，第一個(gè)定義為頂點(diǎn)數(shù)，第二個(gè)定義為邊權(quán)重之和，分別表示為urnum和urweight，如表3所示。請(qǐng)注意，對(duì)于這些無(wú)監(jiān)督的定義，置信度是直接計(jì)算的，無(wú)需學(xué)習(xí)過(guò)程。另一方面，我們可以根據(jù)真實(shí)標(biāo)簽定義各種監(jiān)督置信度。 savg定義為與具有相同標(biāo)簽的所有頂點(diǎn)的平均相似度。 scenter定義為與中心的相似度，該相似度計(jì)算為具有相同標(biāo)簽的所有頂點(diǎn)的平均特征。 snbr定義為等式。 1. sFnbr表示使用頂部嵌入FL重建圖。為了比較不同的置信度設(shè)計(jì)，我們通過(guò)設(shè)置ρ= 0和M = 1來(lái)采用相同的連通性估計(jì)量。從這個(gè)意義上講，連通性估計(jì)量無(wú)需學(xué)習(xí)即可直接選擇候選集中最接近的鄰居。

如表3所示，兩個(gè)無(wú)監(jiān)督的密度定義實(shí)現(xiàn)了相對(duì)較低的性能。高數(shù)據(jù)密度表示群集可能性很高的假設(shè)不一定適用于所有情況。此外，性能對(duì)選擇的半徑敏感以進(jìn)行密度計(jì)算。表3顯示，無(wú)需手動(dòng)設(shè)置半徑，監(jiān)督置信度優(yōu)于無(wú)監(jiān)督置信度。在這三個(gè)定義中，snbr的性能優(yōu)于savg和scenter。由于snbr是在鄰域上定義的，因此與針對(duì)同一集群中所有樣本定義的savg和scenter相比，GCN的學(xué)習(xí)可能會(huì)更容易。在實(shí)際實(shí)踐中，類似于顯著性檢測(cè)中的顯著性圖融合[10，13]，我們可以將不同置信度的輸出整合在一起以獲得更好的性能。

轉(zhuǎn)換后的嵌入。 snbr和sFnbr之間的比較表明，使用轉(zhuǎn)換后的特征重建親和圖會(huì)導(dǎo)致兩個(gè)數(shù)據(jù)集的性能提高。這個(gè)想法與動(dòng)態(tài)圖[34]有共同的概念，在動(dòng)態(tài)圖[34]中，它們?cè)诿總€(gè)圖卷積層之后重建KNN圖。但是，在具有數(shù)百萬(wàn)個(gè)頂點(diǎn)的大規(guī)模圖上，每層構(gòu)造KNN圖將導(dǎo)致計(jì)算預(yù)算過(guò)高。實(shí)驗(yàn)表明，只有使用頂部嵌入來(lái)重建圖，才能產(chǎn)生合理的結(jié)果。

4.3.2連接估計(jì)器

ρ的影響。我們將ρ從0更改為1，步長(zhǎng)為0.1。如圖5所示，僅以高置信度聚焦于10％的頂點(diǎn)可以帶來(lái)可觀的性能提升，同時(shí)卻增加了很少的計(jì)算成本。隨著ρ的增加，更多的頂點(diǎn)將從GCN-E的預(yù)測(cè)中受益，因此FP會(huì)增加。將GCN-E應(yīng)用于所有頂點(diǎn)時(shí)，會(huì)略有下降，因?yàn)椴淮_定頂點(diǎn)之間的連接通常非常復(fù)雜，并且可能很難找到通用的學(xué)習(xí)模式。

M的影響。在下表中，M = -1表示在不使用候選集的情況下應(yīng)用GCN-E。它包括不自信的鄰居，因此增加了學(xué)習(xí)難度并導(dǎo)致性能下降。

當(dāng)M = 1時(shí)，每個(gè)頂點(diǎn)都連接到候選集中最連通的鄰居。當(dāng)M> 1時(shí)，不確定的頂點(diǎn)可能會(huì)連接到兩個(gè)不同的簇。盡管它會(huì)增加獲得的簇的召回率，但可能會(huì)嚴(yán)重影響精度。

5.結(jié)論

本文提出了一種新穎的監(jiān)督人臉聚類框架，消除了啟發(fā)式步驟和大量子圖的要求。所提出的方法極大地提高了大規(guī)模人臉聚類基準(zhǔn)的準(zhǔn)確性和效率。此外，表明該方法的實(shí)驗(yàn)可以很好地推廣到比訓(xùn)練集大10倍的測(cè)試集。在時(shí)尚數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了其在人臉之外的數(shù)據(jù)集上的潛在應(yīng)用。將來(lái)，需要一種端到端的可學(xué)習(xí)集群框架來(lái)完全釋放監(jiān)督集群的功能。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

VEGCN

VEGCN

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

VEGCN

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av