VEGCN

人臉聚類是利用未標(biāo)記人臉數(shù)據(jù)的必不可少的工具,它具有廣泛的應(yīng)用程序,包括人臉注釋和檢索。最近的工作表明,有監(jiān)督的聚類可以帶來(lái)顯著的性能提升。但是,它們通常涉及啟發(fā)式步驟,并且需要大量重疊的子圖,從而嚴(yán)重限制了其準(zhǔn)確性和效率。在本文中,我們提出了一個(gè)完全可學(xué)習(xí)的聚類框架,而無(wú)需大量重疊的子圖。相反,我們將聚類問(wèn)題轉(zhuǎn)化為兩個(gè)子問(wèn)題。具體來(lái)說(shuō),設(shè)計(jì)了兩個(gè)名為GCN-V和GCN-E的圖卷積網(wǎng)絡(luò)來(lái)分別估計(jì)頂點(diǎn)的置信度和邊的連通性。有了頂點(diǎn)置信度和邊緣連通性,我們自然可以在親和度圖上組織更多相關(guān)的頂點(diǎn),并將其分組。在兩個(gè)大型基準(zhǔn)測(cè)試上的實(shí)驗(yàn)表明,我們的方法顯著提高了聚類精度,從而提高了訓(xùn)練在頂部的識(shí)別模型的性能,但比現(xiàn)有的監(jiān)督方法效率高出一個(gè)數(shù)量級(jí)。

1.簡(jiǎn)介

由于帶注釋的人臉數(shù)據(jù)集的爆炸性增長(zhǎng)[19,11,17],近年來(lái),人臉識(shí)別取得了長(zhǎng)足的進(jìn)步[31,27,33,7,40]。伴隨著這種趨勢(shì),對(duì)注釋數(shù)據(jù)的需求不斷增長(zhǎng),導(dǎo)致注釋成本過(guò)高。為了利用大量未標(biāo)記的面部圖像,最近的研究[14、39、35、38]提供了一種有前途的基于聚類的管道,并證明了其在改善面部識(shí)別模型方面的有效性。他們首先執(zhí)行聚類以生成未標(biāo)記圖像的“偽標(biāo)簽”,然后利用它們以監(jiān)督方式訓(xùn)練模型。這些方法成功的關(guān)鍵在于有效的人臉聚類算法。

現(xiàn)有的人臉聚類方法大致分為兩類,即無(wú)監(jiān)督方法和有監(jiān)督方法。諸如K-means [22]和DBSCAN [9]之類的無(wú)監(jiān)督方法依賴于特定的假設(shè),并且缺乏應(yīng)對(duì)現(xiàn)實(shí)數(shù)據(jù)集中復(fù)雜的簇結(jié)構(gòu)的能力。為了提高對(duì)不同數(shù)據(jù)的適應(yīng)性,有人提出了有監(jiān)督的聚類方法[35,38]來(lái)學(xué)習(xí)聚類模式。但是,準(zhǔn)確性和效率都遠(yuǎn)遠(yuǎn)不能令人滿意。特別是,為了與大規(guī)模的面部數(shù)據(jù)聚類,現(xiàn)有的監(jiān)督方法將數(shù)據(jù)與許多小子圖一起組織,從而導(dǎo)致兩個(gè)主要問(wèn)題。首先,處理子圖涉及基于簡(jiǎn)單假設(shè)的啟發(fā)式步驟。子圖生成[38]和預(yù)測(cè)聚合[35]都依賴于啟發(fā)式過(guò)程,因此限制了它們的性能上限。此外,這些方法所需的子圖通常高度重疊,從而導(dǎo)致過(guò)多的冗余計(jì)算成本。

因此,我們尋求一種算法,可以學(xué)習(xí)更準(zhǔn)確,更有效地進(jìn)行聚類。為了獲得更高的準(zhǔn)確性,我們希望使框架的所有組件均易于學(xué)習(xí),超越啟發(fā)式程序的限制。另一方面,為了減少冗余計(jì)算,我們打算減少所需子圖的數(shù)量。先前的工作[39,35,38]表明,親和度圖上的聚類通常具有某些結(jié)構(gòu)模式。我們觀察到這種結(jié)構(gòu)模式主要來(lái)自兩個(gè)來(lái)源,即頂點(diǎn)和邊緣。直觀地講,將每個(gè)頂點(diǎn)連接到鄰居(該鄰居具有較高的屬于特定類別的置信度)可以從親和度圖中推斷出許多樹(shù)。所獲得的樹(shù)自然形成連接的組件作為簇?;谶@種動(dòng)機(jī),我們?cè)O(shè)計(jì)了一種完全可學(xué)習(xí)的聚類方法,不需要很多子圖,從而導(dǎo)致了

準(zhǔn)確性和效率。

特別地,我們將聚類問(wèn)題轉(zhuǎn)化為兩個(gè)子問(wèn)題。一種是估計(jì)頂點(diǎn)的置信度,該信度測(cè)量一個(gè)頂點(diǎn)屬于特定類別的概率。另一種是估計(jì)邊緣連通性,這表明兩個(gè)頂點(diǎn)屬于同一類的概率。通過(guò)頂點(diǎn)置信度和邊緣連通性,我們以自然的方式執(zhí)行聚類,即每個(gè)頂點(diǎn)都以更高的置信度和最強(qiáng)的連通性連接到一個(gè)頂點(diǎn)。如圖1所示,每個(gè)頂點(diǎn)找到一條連接到頂點(diǎn)的邊,其置信度更高,并且最終連接到同一頂點(diǎn)的頂點(diǎn)屬于同一簇。

提出了兩個(gè)可學(xué)習(xí)的組件,分別是置信度估計(jì)器和連通性估計(jì)器,以分別估計(jì)頂點(diǎn)置信度和邊緣連通性。這兩個(gè)組件都基于GCN來(lái)學(xué)習(xí)數(shù)據(jù),分別由GCN-V(用于頂點(diǎn)置信度)和GCN-E(用于邊緣連接性)表示。具體來(lái)說(shuō),GCN-V將整個(gè)圖作為輸入,并同時(shí)估計(jì)所有頂點(diǎn)的置信度。 GCN-E將根據(jù)本地候選集構(gòu)建的圖作為輸入,并評(píng)估兩個(gè)頂點(diǎn)屬于同一類的可能性。

實(shí)驗(yàn)表明,我們的方法不僅可以顯著地將現(xiàn)有的監(jiān)督方法加速一個(gè)數(shù)量級(jí),而且在5M未標(biāo)記數(shù)據(jù)的兩個(gè)F評(píng)分指標(biāo)下也優(yōu)于最新的技術(shù)水平[38]。主要貢獻(xiàn)在于三個(gè)方面:(1)我們提出了一個(gè)新穎的框架,該框架將聚類公式化為對(duì)置信度和連通性的估計(jì),兩者均基于可學(xué)習(xí)的組件。 (2)我們的方法比現(xiàn)有的基于學(xué)習(xí)的方法快一個(gè)數(shù)量級(jí)。 (3)所提出的方法在大規(guī)模人臉聚類和時(shí)尚聚類上都達(dá)到了最先進(jìn)的性能。發(fā)現(xiàn)的集群將人臉識(shí)別模型提升到與其監(jiān)督的同類模型相當(dāng)?shù)乃健?/p>

2.相關(guān)工作

無(wú)監(jiān)督人臉聚類。隨著深度學(xué)習(xí)的興起,最近的工作主要采用基于CNN的模型的深度功能,并著重于相似度指標(biāo)的設(shè)計(jì)。奧托等。 [1]提出了一種近似的秩序度量。 Lin等。 [20]引入了鄰域的最小覆蓋范圍作為相似性度量。除了專門為人臉聚類設(shè)計(jì)的方法外,經(jīng)典聚類算法也可以應(yīng)用于人臉聚類?;诿芏鹊木垲愂亲钕嚓P(guān)的方法。 DB-SCAN [9]計(jì)算了經(jīng)驗(yàn)密度,并將集群指定為數(shù)據(jù)空間中的密集區(qū)域。 OPTICS [3]采用了類似的概念并解決了數(shù)據(jù)點(diǎn)的排序問(wèn)題。

所提出的方法與基于密度的聚類具有共同的直覺(jué),即計(jì)算每個(gè)樣本的“密度” [9],并關(guān)注樣本之間的相對(duì)順序[3]。但是,我們的方法與上述所有非監(jiān)督方法大不相同:我們框架中的所有組件都是可學(xué)習(xí)的。這使我們能夠?qū)W習(xí)捕捉面部簇中的內(nèi)在結(jié)構(gòu)。

監(jiān)督人臉聚類。最近的工作表明,在面部聚類中引入監(jiān)督信息可顯著提高性能。詹等。 [39]訓(xùn)練了一個(gè)MLP分類器來(lái)聚合信息,從而發(fā)現(xiàn)更健壯的聯(lián)系。 Wang等。 [35]通過(guò)利用GCN捕獲圖上下文進(jìn)一步改善了鏈接預(yù)測(cè)。兩種方法都通過(guò)找到具有動(dòng)態(tài)閾值的連接組件來(lái)獲得聚類。楊等。 [38]設(shè)計(jì)了一種劃分算法來(lái)生成多尺度子圖,并提出了一個(gè)兩階段監(jiān)督框架來(lái)從中精確定位所需的集群。

盡管所提出的方法采用了監(jiān)督聚類的思想,但它與兩個(gè)關(guān)鍵方面有所不同:(1)與以前的監(jiān)督方法[39、35、38]不同,它不依賴于啟發(fā)式算法進(jìn)行預(yù)處理或后處理。取而代之的是,建議框架的所有組成部分都是可以學(xué)習(xí)的,并且有可能獲得更高的準(zhǔn)確性。 (2)設(shè)計(jì)效率更高?,F(xiàn)有方法依賴大量子圖來(lái)精確定位聚類。 [35]預(yù)測(cè)了每個(gè)頂點(diǎn)周圍的所有連接,其中兩個(gè)附近的頂點(diǎn)可能具有高度重疊的鄰域,因此存在多余的計(jì)算成本。 [38]產(chǎn)生了用于檢測(cè)和分割的多尺度子圖,其數(shù)量通常比聚類的數(shù)量大幾倍。相反,所提出的方法采用有效的無(wú)子圖策略來(lái)估計(jì)頂點(diǎn)置信度,并集中在鄰域的一小部分以進(jìn)行連通性預(yù)測(cè)。

圖卷積網(wǎng)絡(luò)。圖卷積網(wǎng)絡(luò)(GCN)[18]已成功應(yīng)用于各種任務(wù)[18、12、32、37、36]。最近的一些努力擴(kuò)展了GCN來(lái)處理大規(guī)模圖形。 GraphSAGE [12]在每一層中采樣了一定數(shù)量的鄰居進(jìn)行聚合。 FastGCN [4]通過(guò)采樣頂點(diǎn)而不是鄰居來(lái)進(jìn)一步降低了計(jì)算成本。在本文中,我們利用圖卷積網(wǎng)絡(luò)的強(qiáng)大表達(dá)能力,來(lái)學(xué)習(xí)大規(guī)模親和圖上的頂點(diǎn)置信度和局部子圖上的邊連通性。

3.方法論

在大規(guī)模人臉聚類中,有監(jiān)督的方法證明了它們?cè)谔幚韽?fù)雜聚類模式方面的有效性,但是其準(zhǔn)確性受到某些手工制作組件的限制,并且其效率受到眾多高度重疊的子圖的要求的影響。因此,如何準(zhǔn)確而有效地聚類仍然是一個(gè)問(wèn)題。為了應(yīng)對(duì)這一挑戰(zhàn),我們提出了一種有效的替代方法,其中所有組件都是可學(xué)習(xí)的。具體來(lái)說(shuō),我們將聚類作為估計(jì)親和圖上的頂點(diǎn)置信度和邊緣連接性的過(guò)程進(jìn)行構(gòu)建,然后通過(guò)將每個(gè)頂點(diǎn)與具有更高置信度和連接性的鄰居連接起來(lái),將圖劃分為群集。

3.1??蚣芨攀?/p>

給定一個(gè)數(shù)據(jù)集,我們從經(jīng)過(guò)訓(xùn)練的CNN中提取每個(gè)圖像的特征,形成特征集F = {fi} Ni = 1,其中fi∈RD。 N是圖像數(shù),D是特征尺寸。樣本i與樣本j之間的親和度表示為ai,j,它是fi與fj之間的余弦相似度。根據(jù)親和度,我們用KNN親和度圖G =(V,E)表示數(shù)據(jù)集,其中每個(gè)圖像都是屬于V的頂點(diǎn),并連接到它的K個(gè)最近鄰居,形成了屬于E的K條邊。可以表示為頂點(diǎn)特征矩陣F∈RN×D和對(duì)稱鄰接矩陣A∈RN×N,如果vi和vj不連接,則ai,j = 0。

為了通過(guò)從頂點(diǎn)和邊緣學(xué)習(xí)結(jié)構(gòu)模式來(lái)執(zhí)行聚類,我們將聚類分解為

兩個(gè)子問(wèn)題。一種是預(yù)測(cè)頂點(diǎn)的置信度。置信度是確定頂點(diǎn)是否屬于特定類。直觀上,高置信度的頂點(diǎn)通常位于頂點(diǎn)密集分布并屬于同一類的位置,而低置信度的頂點(diǎn)可能位于幾個(gè)聚類的邊界上。另一個(gè)是預(yù)測(cè)邊緣連接性的子問(wèn)題。具有高連通性的邊緣表示兩個(gè)連接的樣本傾向于屬于同一類別。利用親和圖中的頂點(diǎn)置信度和邊緣連通性,可以通過(guò)找到從具有較低置信度的頂點(diǎn)到具有較高置信度的頂點(diǎn)的有向路徑來(lái)以簡(jiǎn)單的方式執(zhí)行聚類。此過(guò)程自然會(huì)形成許多彼此隔離的樹(shù),因此很容易將圖劃分為簇。我們將此過(guò)程稱為基于樹(shù)的分區(qū)。

所提出方法的主要挑戰(zhàn)仍然在于如何估計(jì)頂點(diǎn)置信度和邊緣連通性。如圖2所示,我們的框架由兩個(gè)可學(xué)習(xí)的模塊組成,即置信度估計(jì)器和連接性估計(jì)器。前者基于GCN-V估計(jì)頂點(diǎn)置信度,而后者基于GCN-E預(yù)測(cè)邊緣連通性。具體來(lái)說(shuō),GCN-V將整個(gè)親和度圖作為輸入,并同時(shí)估計(jì)所有頂點(diǎn)的置信度。 GCN-E將根據(jù)候選集構(gòu)建的圖作為輸入,并評(píng)估屬于同一類的兩個(gè)頂點(diǎn)的置信度。根據(jù)這兩個(gè)模塊的輸出,我們執(zhí)行基于樹(shù)的分區(qū)以獲得群集。

3.2。置信度估算器

類似于對(duì)象檢測(cè)中的無(wú)錨方法[41,8],它們使用熱圖來(lái)指示對(duì)象出現(xiàn)在圖像的相應(yīng)區(qū)域中的可能性,置信估計(jì)器旨在估計(jì)每個(gè)頂點(diǎn)的值,從而指示是否在親和圖的相應(yīng)區(qū)域上有一個(gè)特定的類。

由于現(xiàn)實(shí)世界中的數(shù)據(jù)集通常具有較大的類內(nèi)差異,因此即使每個(gè)圖像屬于同一類,它們也可能具有不同的置信度值。對(duì)于高置信度的圖像,其相鄰圖像往往屬于同一類別,而低置信度的圖像通常與其他類別的圖像相鄰。基于此觀察,我們可以基于附近的標(biāo)記圖像為每個(gè)頂點(diǎn)定義置信度ci:

其中Ni是vi的鄰域,yi是vi的真實(shí)標(biāo)簽,而ai,j是vi和vj之間的親和力。置信度用于衡量鄰居是否近親并且來(lái)自同一階級(jí)。從直覺(jué)上講,具有密集連接和純連接的頂點(diǎn)具有較高的置信度,而具有稀疏連接或位于多個(gè)群集之間的邊界中的頂點(diǎn)的置信度較低。我們研究了對(duì)Sec的不同信心設(shè)計(jì)。 4.3.1。

置信度估計(jì)器的設(shè)計(jì)。我們假設(shè)具有相似置信度的頂點(diǎn)具有相似的結(jié)構(gòu)模式。為了捕獲這種模式,我們學(xué)習(xí)了一個(gè)名為GCN-V的圖卷積網(wǎng)絡(luò)[18],以估計(jì)頂點(diǎn)的置信度。具體而言,在輸入鄰接矩陣A和頂點(diǎn)特征矩陣F的情況下,GCN會(huì)預(yù)測(cè)每個(gè)頂點(diǎn)的置信度。 GCN由L層組成,每層的計(jì)算公式如下:

其中A A = D ?-1(A + I),D ?ii =??j(A + I)j等角度矩陣。用特征矩陣F設(shè)置輸入層F0的特征嵌入,并且F1包含第l層的嵌入。 W1是可訓(xùn)練的矩陣,用于將嵌入轉(zhuǎn)換為新的空間。 σ是非線性激活(本文中的ReLU)。為了利用輸入嵌入和鄰域聚合之后的嵌入來(lái)學(xué)習(xí)變換矩陣,我們將g(·,·)定義為它們的串聯(lián):

g(A ?,F(xiàn)1)= [(F1)?,(A ?F1)?]?。 (3)

這種定義已被證明比簡(jiǎn)單地對(duì)每個(gè)頂點(diǎn)周圍的鄰居的嵌入特征進(jìn)行加權(quán)平均更有效[35]。基于第L層(即FL)的輸出嵌入,我們采用完全連接的層來(lái)預(yù)測(cè)頂點(diǎn)的置信度。

c'= FLW + b,(4)

其中W是可訓(xùn)練的回歸變量,b是可訓(xùn)練的偏差。 vi的預(yù)測(cè)置信度可以從c'中的對(duì)應(yīng)元素(用c'i表示)中獲取。

訓(xùn)練和推理。給定一個(gè)帶有班級(jí)標(biāo)簽的訓(xùn)練集,我們可以根據(jù)式子獲得真實(shí)的可信度。每個(gè)頂點(diǎn)1個(gè)。然后我們訓(xùn)練GCN-V,目的是最小化地面真實(shí)度和預(yù)測(cè)分?jǐn)?shù)之間的均方誤差(MSE),其定義為:

在推論過(guò)程中,我們使用訓(xùn)練有素的GCN-V來(lái)預(yù)測(cè)每個(gè)頂點(diǎn)的置信度。所獲得的置信度有兩種使用方式。首先,在下一個(gè)模塊中使用它們來(lái)確定是否需要預(yù)測(cè)邊緣的連通性,從而顯著降低了計(jì)算成本。此外,它們?cè)谧罱K聚類中用于提供頂點(diǎn)之間的部分順序。

復(fù)雜度分析。主要的計(jì)算成本在于圖卷積(公式2)。由于建立的圖是K K N的KNN圖,因此親和度矩陣A是高度稀疏的矩陣。因此,圖卷積可以有效地實(shí)現(xiàn)為稀疏矩陣乘法,從而產(chǎn)生復(fù)雜度O(| E |)[18]。作為邊數(shù)| E |稀疏矩陣的θ是以NK為邊界的,在頂點(diǎn)數(shù)為K number N時(shí),推理復(fù)雜度是線性的。通過(guò)對(duì)鄰居或頂點(diǎn)進(jìn)行采樣可以將該操作縮放到非常大的設(shè)置[12,4]。根據(jù)經(jīng)驗(yàn),在具有5.2M頂點(diǎn)的圖形上,一個(gè)1層GCN需要37G CPU Ram和92s 16CPU。

3.3。連通性估算器

對(duì)于頂點(diǎn)vi,置信度大于ci的鄰居表示他們更有信心屬于特定類。要將vi分配給特定類別,一個(gè)直觀的想法是將vi與來(lái)自同一類別的鄰居建立聯(lián)系,并具有更大的信心。但是,信心更大的鄰居不一定屬于同一類。因此,我們引入了名為GCN-E的連通性估算器,以基于局部圖結(jié)構(gòu)測(cè)量成對(duì)關(guān)系。

候選集。給定預(yù)測(cè)的頂點(diǎn)置信度,我們首先為每個(gè)頂點(diǎn)構(gòu)造一個(gè)候選集S。

Si = {vj | c'j> c'i,vj∈Ni}。 (6)

候選集的想法是選擇連接到鄰居的邊緣更有信心屬于一個(gè)簇,并且Si僅包含比vi的信心更高的信心的頂點(diǎn)。

連接估計(jì)器的設(shè)計(jì)。 GCN-E與GCN-V具有相似的GCN結(jié)構(gòu)。主要區(qū)別在于:(1)GCN-E的輸入不是子圖G(Si),它包含Si中的所有頂點(diǎn),而不是對(duì)整個(gè)圖G進(jìn)行運(yùn)算; (2)GCN-E為G(Si)上的每個(gè)頂點(diǎn)輸出一個(gè)值,以表明它與vi共享同一類的可能性。

更具體地,子圖G(Ci)可以由親和度矩陣A(Si)和頂點(diǎn)特征矩陣F(Si)表示。我們從特征矩陣F(Si)的每一行中減去fi,以對(duì)Si和vi之間的關(guān)系進(jìn)行編碼,并且獲得的特征矩陣由F Si(Si)表示。因此,GCN-E中的轉(zhuǎn)換可以表示為:

其中σ,g(·)和A ?(Si)的定義類似于方程式。 2. Wl'是第I層中GCN-E的參數(shù)?;诘贚層的輸出嵌入,我們通過(guò)完全連接的層獲得了Si中每個(gè)頂點(diǎn)的連通性。由于連通性反映了兩個(gè)頂點(diǎn)之間的關(guān)系,因此我們使用r'i,j表示vi和vj之間的預(yù)測(cè)連通性。

訓(xùn)練和推理。

給定帶有類標(biāo)簽的訓(xùn)練集,對(duì)于頂點(diǎn)vi,如果鄰居vj與vi共享相同的標(biāo)簽,則連通性設(shè)置為1,否則為0。

我們旨在預(yù)測(cè)可反映兩個(gè)頂點(diǎn)是否屬于同一類的連通性。類似于式在GCN-V中的第5條中,我們還使用逐點(diǎn)MSE損失來(lái)訓(xùn)練GCN-E。

為了加快訓(xùn)練和推理過(guò)程,我們僅將GCN-E應(yīng)用于估計(jì)置信度較高的一小部分頂點(diǎn),因?yàn)榕c置信度較小的頂點(diǎn)相比,它們可能會(huì)影響更多的后繼對(duì)象。我們使用GCN-E作為ρ來(lái)表示頂點(diǎn)的一部分。對(duì)于其他頂點(diǎn),它們僅連接到候選集中的M個(gè)最近鄰居,表明它們以最大M個(gè)相似度和較高置信度連接到鄰居。 M = 1導(dǎo)致基于樹(shù)的分區(qū)策略,而M> 1產(chǎn)生有向無(wú)環(huán)圖作為聚類。經(jīng)驗(yàn)結(jié)果表明,M = 1,ρ= 10%已經(jīng)可以帶來(lái)可觀的性能提升(參見(jiàn)第4.3.2節(jié))。

復(fù)雜度分析。連通性估計(jì)的想法與[35]具有相似的精神,他們?cè)u(píng)估了子圖上每個(gè)頂點(diǎn)連接到中心頂點(diǎn)的可能性。盡管[35]的復(fù)雜度與N呈線性關(guān)系,但在每個(gè)頂點(diǎn)附近使用GCN會(huì)產(chǎn)生過(guò)多的計(jì)算需求。提出的GCN-E具有兩個(gè)要提高效率的關(guān)鍵設(shè)計(jì):(1)我們僅預(yù)測(cè)候選集中的鏈接,這種工作可能涉及每個(gè)頂點(diǎn)較少的鄰居,而無(wú)需手動(dòng)選擇跳數(shù)以及每一跳的鄰居數(shù)。 (2)利用估計(jì)的頂點(diǎn)置信度,我們能夠集中精力于一小部分具有高置信度的頂點(diǎn)。有了這兩個(gè)重要的設(shè)計(jì),我們的加速比[35]高了一個(gè)數(shù)量級(jí)。

4.實(shí)驗(yàn)

4.1。實(shí)驗(yàn)設(shè)定

人臉聚類。 MS-Celeb-1M [11]是由10萬(wàn)個(gè)身份組成的大規(guī)模人臉識(shí)別數(shù)據(jù)集,每個(gè)身份約有100張面部圖像。我們采用了ArcFace [7]中廣泛使用的注釋,生成了一個(gè)可靠的子集,其中包含來(lái)自86K類的580萬(wàn)幅圖像。我們隨機(jī)將清理后的數(shù)據(jù)集分為10個(gè)部分,它們具有幾乎相等的身份。每個(gè)部分包含約580K圖像的8.6K身份。我們隨機(jī)選擇1個(gè)部分作為標(biāo)記數(shù)據(jù),另9個(gè)部分作為未標(biāo)記數(shù)據(jù)。

時(shí)尚集群。我們還評(píng)估了我們的方法對(duì)于面部圖像以外的數(shù)據(jù)集的有效性。我們?cè)贒eepFashion [21]的很大一部分上進(jìn)行了測(cè)試,即店內(nèi)服裝檢索,這是很長(zhǎng)的尾巴。特別是,我們?cè)谠挤指钪谢旌狭擞?xùn)練功能和測(cè)試功能,并從3,997個(gè)類別中隨機(jī)采樣了25,752個(gè)圖像進(jìn)行訓(xùn)練,而其他26,960個(gè)圖像中則將3,984個(gè)類別進(jìn)行了測(cè)試。請(qǐng)注意,時(shí)尚聚類也被視為開(kāi)放集問(wèn)題,訓(xùn)練類別和測(cè)試類別之間沒(méi)有重疊。

人臉識(shí)別。我們?cè)贛egaFace [17]上評(píng)估人臉識(shí)別模型,這是最大的人臉識(shí)別基準(zhǔn)。它包括來(lái)自FaceScrub [25]的探針集,其中包含3張,530張圖像和包含1M張圖像的圖庫(kù)集。指標(biāo)。我們?cè)u(píng)估聚類和面部識(shí)別的性能。人臉聚類通常通過(guò)兩個(gè)指標(biāo)[29、35、38]進(jìn)行評(píng)估,即成對(duì)F分?jǐn)?shù)和BCubed F分?jǐn)?shù)[2]。前者強(qiáng)調(diào)大集群,因?yàn)閷?duì)的數(shù)量隨著集群的大小呈二次方增長(zhǎng),而后者則根據(jù)集群的大小進(jìn)行加權(quán)。這兩個(gè)指標(biāo)都是精度和召回率的諧波平均值,分別稱為FP和FB。人臉識(shí)別通過(guò)MegaFace中的人臉識(shí)別基準(zhǔn)進(jìn)行評(píng)估。我們?cè)贛egaFace中采用top-1識(shí)別命中率,即從1M畫(huà)廊圖像中對(duì)top-1圖像進(jìn)行排名并計(jì)算top-1命中率。

實(shí)施細(xì)節(jié)。為了構(gòu)建KNN親和圖,我們將MS1M的K設(shè)置為80,將Deep Fashion的K設(shè)置為5。由于GCN-V在具有數(shù)百萬(wàn)個(gè)頂點(diǎn)的圖上進(jìn)行操作,因此我們僅使用1層GCN來(lái)降低計(jì)算成本。對(duì)于GCN-E,它在不超過(guò)K個(gè)頂點(diǎn)的鄰域上運(yùn)行,因此我們使用4層GCN來(lái)提高其表達(dá)能力。對(duì)于這兩個(gè)數(shù)據(jù)集,動(dòng)量SGD的初始學(xué)習(xí)速率為0.1,權(quán)重衰減為1e-5。為了避免沒(méi)有正確的鄰居進(jìn)行連接的情況,我們?cè)O(shè)置閾值τ來(lái)切除相似度較小的邊緣。所有設(shè)置的τ均設(shè)為0.8。

4.2。方法比較

4.2.1人臉聚類

我們將提出的方法與一系列聚類基線進(jìn)行比較。下面簡(jiǎn)要介紹這些方法。

(1)K-means [22],常用的聚類算法。對(duì)于N≥1.74M,我們使用小批量K均值,得出可比的結(jié)果,但運(yùn)行時(shí)間大大縮短。 (2)HAC [30],該方法以自下而上的方式,根據(jù)某些標(biāo)準(zhǔn)對(duì)合并的封閉類進(jìn)行分層合并。

(3)DBSCAN [9]根據(jù)設(shè)計(jì)的密度標(biāo)準(zhǔn)提取聚類,并將稀疏的背景保留為噪聲。 (4)MeanShift [6]精確定位了包含一組收斂到同一局部最優(yōu)值的點(diǎn)的聚類。

(5)頻譜[24]根據(jù)相似度矩陣的頻譜將數(shù)據(jù)劃分為連接的組件。

(6)ARO [1]使用近似的最近鄰居搜索和改進(jìn)的距離度量來(lái)執(zhí)行聚類。

(7)CDP [39],一種基于圖的聚類算法,它利用更健壯的成對(duì)關(guān)系。

(8)L-GCN [35],一種最新的監(jiān)督方法,采用GCN來(lái)利用圖上下文進(jìn)行成對(duì)預(yù)測(cè)。

(9)LTC [38],另一種最近受監(jiān)督的方法,將聚類作為檢測(cè)和分段管道。 (10)我們的(V),提出的方法將GCN-V應(yīng)用于整個(gè)圖,并通過(guò)將每個(gè)頂點(diǎn)連接到候選集中最接近的鄰居來(lái)獲得聚類。 (11)我們的(V + E),提出的方法,它在GCN-V的基礎(chǔ)上使用GCN-E來(lái)估計(jì)連通性,并通過(guò)將每個(gè)頂點(diǎn)連接到候選集中最連通的鄰居來(lái)獲得聚類。

結(jié)果對(duì)于所有方法,我們都會(huì)調(diào)整相應(yīng)的超參數(shù)并報(bào)告最佳結(jié)果。表1和表2的結(jié)果表明:(1)給定簇的真實(shí)數(shù)量,K均值獲得較高的F得分。但是,集群的數(shù)量極大地影響了性能,因此當(dāng)集群的數(shù)量未知時(shí),很難采用。 (2)HAC不需要集群,但是迭代合并過(guò)程需要大量的計(jì)算預(yù)算。即使使用快速實(shí)現(xiàn)[23],當(dāng)N為5.21M時(shí),也要花費(fèi)近900個(gè)小時(shí)才能獲得結(jié)果。 (3)盡管DBSCAN效率很高,但它假定不同群集之間的密度相似,這可能是在擴(kuò)展到較大設(shè)置時(shí)性能嚴(yán)重下降的原因。 (4)MeanShift在時(shí)尚聚類上產(chǎn)生了很好的結(jié)果,但是收斂時(shí)間很長(zhǎng)。 (5)光譜聚類也表現(xiàn)不錯(cuò),但是解決特征值分解會(huì)導(dǎo)致大量的計(jì)算和內(nèi)存需求,從而限制了其應(yīng)用。 (6)ARO的性能取決于鄰居的數(shù)量。有了合理的時(shí)間預(yù)算,其性能就不如MS1M中的其他方法。 (7)CDP非常有效,并且在不同規(guī)模的不同數(shù)據(jù)集上獲得較高的F評(píng)分。為了公平起見(jiàn),我們將CDP與單個(gè)模型版本進(jìn)行比較。 (8)L-GCN始終超過(guò)CDP,但比CDP慢了一個(gè)數(shù)量級(jí)。 (9)作為最近以有監(jiān)督方式進(jìn)行聚類的方法,LTC展示了其在大規(guī)模聚類中的優(yōu)勢(shì)。但是,依靠迭代提議策略,性能增益伴隨著大量的計(jì)算成本。 (10)建議的GCN-V始終優(yōu)于以前的方法。盡管GCN-V的訓(xùn)練集僅包含580K圖像,但它可以很好地歸納為521萬(wàn)未標(biāo)記的數(shù)據(jù),證明了其在捕獲頂點(diǎn)重要特征方面的有效性。此外,由于GCN-V同時(shí)預(yù)測(cè)了所有頂點(diǎn)的置信度,因此它比以前的監(jiān)督方法要快一個(gè)數(shù)量級(jí)。 (11)我們以最高估計(jì)的置信度將GCN-E應(yīng)用于20%的頂點(diǎn)。它帶來(lái)了進(jìn)一步的性能提升,尤其是在應(yīng)用于Deep-Fashion時(shí)。這個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集包含嘈雜的鄰居,因此需要更仔細(xì)地選擇連通性。

運(yùn)行時(shí)分析我們使用ES-2640 v3 CPU和TitanXP來(lái)測(cè)量不同方法的運(yùn)行時(shí)。對(duì)于MS-Celeb-1M,我們?cè)贜 = 584K時(shí)測(cè)量運(yùn)行時(shí)間。除K均值和HAC外,所有比較的方法都依賴于KNN圖。為了專注于算法本身的運(yùn)行時(shí)間,我們使用1個(gè)GPU和16個(gè)CPU來(lái)加速KNN的搜索[16],這將查找80個(gè)最近鄰居的時(shí)間從34分鐘減少到101秒。對(duì)于所有監(jiān)督方法,我們分析了它們的推理時(shí)間。如表1所示,建議的GCN-V比L-GCN和LTC快一個(gè)數(shù)量級(jí)。 GCN-E花費(fèi)更多時(shí)間來(lái)預(yù)測(cè)候選集中的連接,但是它的效率仍然比L-GCN和LTC高出幾倍。圖3更好地說(shuō)明了精度和效率之間的權(quán)衡。對(duì)于LTC和微型批次K均值,我們分別控制投標(biāo)的數(shù)量和批次的大小,以產(chǎn)生不同的運(yùn)行時(shí)間和準(zhǔn)確性。在實(shí)際實(shí)踐中,我們可以利用LTC中的超頂點(diǎn)概念進(jìn)一步加速GCN-V,并并行化GCN-E以同時(shí)估計(jì)不同頂點(diǎn)的連通性。

4.2.2人臉識(shí)別

遵循[39,38]的流程,我們應(yīng)用訓(xùn)練好的聚類模型為未標(biāo)記的數(shù)據(jù)分配偽標(biāo)簽,并利用它們來(lái)增強(qiáng)人臉識(shí)別模型。

作為第二4.1引入后,我們將數(shù)據(jù)集分為10個(gè)分割,并隨機(jī)選擇1個(gè)分割以具有真實(shí)標(biāo)簽,表示為SL。特別地,人臉識(shí)別實(shí)驗(yàn)包括四個(gè)步驟:(1)使用SL訓(xùn)練人臉識(shí)別模型Mr。 (2)使用Mr提取SL上的人臉特征,并在SL中訓(xùn)練具有提取特征和對(duì)應(yīng)標(biāo)簽的聚類模型Mc; (3)使用Mc為未標(biāo)記的圖像分配偽標(biāo)簽; (4)使用SL和帶有偽標(biāo)簽的未標(biāo)簽數(shù)據(jù)以多任務(wù)方式訓(xùn)練最終的人臉識(shí)別模型。注意,SL用于訓(xùn)練初始人臉識(shí)別模型和人臉聚類模型。

與以前的工作[39,38]不同,在該工作中假定未標(biāo)記的數(shù)據(jù)是順序獲取的,并且分別對(duì)9個(gè)分割進(jìn)行了9次聚類,我們直接對(duì)5.21M未標(biāo)記的數(shù)據(jù)執(zhí)行聚類,這更加實(shí)用且具有挑戰(zhàn)性。通過(guò)假設(shè)所有未標(biāo)記的數(shù)據(jù)都具有真實(shí)標(biāo)簽來(lái)訓(xùn)練上限。如圖4所示,這三種方法都受益于未標(biāo)記數(shù)據(jù)的增加。由于聚類的性能提高,我們的方法始終優(yōu)于以前的方法,并將MegaFace上的人臉識(shí)別模型的性能從58.21提高到77.88。

4.3。消融研究

為了研究一些重要的設(shè)計(jì)選擇,我們選擇MS-Celeb-1M(584K)和DeepFashion進(jìn)行消融研究。

4.3.1置信度估計(jì)器

頂點(diǎn)置信度設(shè)計(jì)。我們探索不同的信心設(shè)計(jì)。由于置信度與本節(jié)中描述的“密度”概念有關(guān)。 2,我們首先采用兩種廣泛使用的無(wú)監(jiān)督密度作為置信度[9,3,26]。給定半徑,第一個(gè)定義為頂點(diǎn)數(shù),第二個(gè)定義為邊權(quán)重之和,分別表示為urnum和urweight,如表3所示。請(qǐng)注意,對(duì)于這些無(wú)監(jiān)督的定義,置信度是直接計(jì)算的,無(wú)需學(xué)習(xí)過(guò)程。另一方面,我們可以根據(jù)真實(shí)標(biāo)簽定義各種監(jiān)督置信度。 savg定義為與具有相同標(biāo)簽的所有頂點(diǎn)的平均相似度。 scenter定義為與中心的相似度,該相似度計(jì)算為具有相同標(biāo)簽的所有頂點(diǎn)的平均特征。 snbr定義為等式。 1. sFnbr表示使用頂部嵌入FL重建圖。為了比較不同的置信度設(shè)計(jì),我們通過(guò)設(shè)置ρ= 0和M = 1來(lái)采用相同的連通性估計(jì)量。從這個(gè)意義上講,連通性估計(jì)量無(wú)需學(xué)習(xí)即可直接選擇候選集中最接近的鄰居。

如表3所示,兩個(gè)無(wú)監(jiān)督的密度定義實(shí)現(xiàn)了相對(duì)較低的性能。高數(shù)據(jù)密度表示群集可能性很高的假設(shè)不一定適用于所有情況。此外,性能對(duì)選擇的半徑敏感以進(jìn)行密度計(jì)算。表3顯示,無(wú)需手動(dòng)設(shè)置半徑,監(jiān)督置信度優(yōu)于無(wú)監(jiān)督置信度。在這三個(gè)定義中,snbr的性能優(yōu)于savg和scenter。由于snbr是在鄰域上定義的,因此與針對(duì)同一集群中所有樣本定義的savg和scenter相比,GCN的學(xué)習(xí)可能會(huì)更容易。在實(shí)際實(shí)踐中,類似于顯著性檢測(cè)中的顯著性圖融合[10,13],我們可以將不同置信度的輸出整合在一起以獲得更好的性能。

轉(zhuǎn)換后的嵌入。 snbr和sFnbr之間的比較表明,使用轉(zhuǎn)換后的特征重建親和圖會(huì)導(dǎo)致兩個(gè)數(shù)據(jù)集的性能提高。這個(gè)想法與動(dòng)態(tài)圖[34]有共同的概念,在動(dòng)態(tài)圖[34]中,它們?cè)诿總€(gè)圖卷積層之后重建KNN圖。但是,在具有數(shù)百萬(wàn)個(gè)頂點(diǎn)的大規(guī)模圖上,每層構(gòu)造KNN圖將導(dǎo)致計(jì)算預(yù)算過(guò)高。實(shí)驗(yàn)表明,只有使用頂部嵌入來(lái)重建圖,才能產(chǎn)生合理的結(jié)果。

4.3.2連接估計(jì)器

ρ的影響。我們將ρ從0更改為1,步長(zhǎng)為0.1。如圖5所示,僅以高置信度聚焦于10%的頂點(diǎn)可以帶來(lái)可觀的性能提升,同時(shí)卻增加了很少的計(jì)算成本。隨著ρ的增加,更多的頂點(diǎn)將從GCN-E的預(yù)測(cè)中受益,因此FP會(huì)增加。將GCN-E應(yīng)用于所有頂點(diǎn)時(shí),會(huì)略有下降,因?yàn)椴淮_定頂點(diǎn)之間的連接通常非常復(fù)雜,并且可能很難找到通用的學(xué)習(xí)模式。

M的影響。在下表中,M = -1表示在不使用候選集的情況下應(yīng)用GCN-E。它包括不自信的鄰居,因此增加了學(xué)習(xí)難度并導(dǎo)致性能下降。

當(dāng)M = 1時(shí),每個(gè)頂點(diǎn)都連接到候選集中最連通的鄰居。當(dāng)M> 1時(shí),不確定的頂點(diǎn)可能會(huì)連接到兩個(gè)不同的簇。盡管它會(huì)增加獲得的簇的召回率,但可能會(huì)嚴(yán)重影響精度。

5.結(jié)論

本文提出了一種新穎的監(jiān)督人臉聚類框架,消除了啟發(fā)式步驟和大量子圖的要求。所提出的方法極大地提高了大規(guī)模人臉聚類基準(zhǔn)的準(zhǔn)確性和效率。此外,表明該方法的實(shí)驗(yàn)可以很好地推廣到比訓(xùn)練集大10倍的測(cè)試集。在時(shí)尚數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)證明了其在人臉之外的數(shù)據(jù)集上的潛在應(yīng)用。將來(lái),需要一種端到端的可學(xué)習(xí)集群框架來(lái)完全釋放監(jiān)督集群的功能。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容