A Survey of Image Clustering: Taxonomy and Recent Methods
摘要——圖像聚類是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基本問題。在本次調(diào)查中,我們提供了圖像聚類的全面概述。具體來說,我們首先討論圖像聚類在各個(gè)領(lǐng)域的應(yīng)用。然后,我們總結(jié)了常見的算法,并提出了圖像聚類的分類?,F(xiàn)有方法從四個(gè)方面進(jìn)行分類:基于自動(dòng)編碼器的方法、子空間聚類、基于圖卷積網(wǎng)絡(luò)(GCN)的方法和其他一些聚類方法。介紹了各種圖像聚類方法的主要研究內(nèi)容和存在的問題。我們還介紹了一些最近的方法并總結(jié)了實(shí)驗(yàn)結(jié)果。根據(jù)我們的分類和分析,創(chuàng)建和驗(yàn)證新方法更加簡單。最后,我們提出了這個(gè)快速發(fā)展領(lǐng)域的未來機(jī)遇。
索引詞——圖像聚類、自動(dòng)編碼器、子空間聚類、圖卷積網(wǎng)絡(luò)、對比學(xué)習(xí)、
一、引言
隨著信息技術(shù)的最新進(jìn)展,幾乎在每個(gè)可以想象的區(qū)域都捕獲了大量圖像,其中大部分沒有標(biāo)記[1]。手動(dòng)標(biāo)記這些圖像非常昂貴且耗時(shí)。為了充分利用這些未標(biāo)記的圖像并研究它們之間的相關(guān)性,無監(jiān)督聚類成為近年來的熱門話題[2]。
由于圖像形狀和高維的變化,圖像聚類是計(jì)算機(jī)視覺中具有挑戰(zhàn)性的任務(wù)之一。圖像聚類的目標(biāo)是自動(dòng)將相似的圖像分組到一個(gè)簇中,而將不相似的圖像分配到不同的簇中。傳統(tǒng)的圖像聚類方法,如 K-means++ [25]、譜聚類 [13]、高斯混合模型 [14] 和子空間聚類,通常將特征提取與聚類分開。這些方法通常是手動(dòng)提取圖像特征,然后使用聚類算法對特征進(jìn)行聚類,從而實(shí)現(xiàn)圖像聚類。傳統(tǒng)的圖像聚類方法可能會(huì)因兩個(gè)主要問題而失敗。一方面,人工特征的容量有限,不能動(dòng)態(tài)調(diào)整人工特征來捕捉圖像分布的先驗(yàn)信息,尤其是在處理大規(guī)模真實(shí)世界圖像時(shí)。另一方面,特征提取和聚類的分離將使解決方案次優(yōu)。
神經(jīng)網(wǎng)絡(luò)的成功推動(dòng)了模式識別和計(jì)算機(jī)視覺領(lǐng)域的研究。人們越來越關(guān)注將深度學(xué)習(xí)擴(kuò)展到無監(jiān)督圖像聚類任務(wù)。最近,人們發(fā)現(xiàn)使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)有效的表示在圖像聚類任務(wù)中起著重要作用,并且出現(xiàn)了許多研究,[4],[6]。
在本次調(diào)查中,我們對圖像聚類進(jìn)行了全面調(diào)查,包括傳統(tǒng)聚類方法和深度聚類方法。本文的主要貢獻(xiàn)可歸納如下:
I) 我們概述了用于圖像聚類的現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)。對于每種類型的圖像聚類研究,我們都提供了代表性模型的詳細(xì)描述,并進(jìn)行了必要的比較。
II)我們收集了豐富的圖像聚類資源,包括最先進(jìn)的模型、基準(zhǔn)數(shù)據(jù)集、常見的估計(jì)指標(biāo)和可視化方法。該調(diào)查可用作理解圖像聚類的實(shí)用指南。
在本文中,第 2 節(jié)重點(diǎn)介紹圖像聚類中的分類和通用框架,而第 3 節(jié)討論圖像聚類中存在的一些問題。在第 4 節(jié)中,我們介紹了一些與實(shí)驗(yàn)相關(guān)的內(nèi)容,包括常用數(shù)據(jù)庫、估計(jì)指標(biāo)和可視化方法。在最后一節(jié)中,我們對這項(xiàng)調(diào)查進(jìn)行了簡要總結(jié),并對深度聚類進(jìn)行了一些討論。
二、分類和框架
在本節(jié)中,我們概述了圖像聚類的分類并列出了常用方法。請注意,現(xiàn)有圖像聚類算法的分類模式不是絕對的,它們之間存在重疊。
A. 基于自動(dòng)編碼器的方法
自動(dòng)編碼器(AE)是一種用于半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),其功能是將輸入信息作為學(xué)習(xí)對象來表示輸入信息。通常,為了學(xué)習(xí)圖像的有效表示,一些研究首先使用 AE 來提取圖像特征。然后,他們使用一些聚類算法來設(shè)計(jì)損失函數(shù),并對編碼器進(jìn)行微調(diào)。
郭等人。使用自動(dòng)編碼器來推斷圖像的維度,并使用最大化圖像和特征之間的互信息作為學(xué)習(xí)圖像表示的標(biāo)準(zhǔn)。該方法有效地將數(shù)據(jù)映射到有區(qū)別的嵌入子空間,并通過使用相對熵最小化原理精確預(yù)測聚類分配。徐等人。提出了一個(gè)用于判別嵌入和譜聚類的聯(lián)合學(xué)習(xí)框架。郭等人。提出了一種改進(jìn)的深度嵌入式聚類(IDEC)算法來處理數(shù)據(jù)結(jié)構(gòu)的保存。與 DEC 相比,IDEC 可以通過整合聚類損失和 AEs 重建損失來優(yōu)化聚類標(biāo)簽分配特征。陳等人。 [11]結(jié)合了三個(gè)基于AE的模型,包括卷積自動(dòng)編碼器(CAE)、對抗性自動(dòng)編碼器(AAE)和可堆疊自動(dòng)編碼器(SAE),形成用于圖像聚類的混合自動(dòng)編碼器(BAE)模型。馬拉巴等人。提出了一種深度聚類模型,解決了聚類重建的權(quán)衡問題。該方法可以逐步平滑地消除重構(gòu)目標(biāo)函數(shù),有利于目標(biāo)函數(shù)的構(gòu)建,有利于得到聚類結(jié)果。阿加拉普等人。 [17] 提出了一種優(yōu)化自編碼器學(xué)習(xí)表示的糾纏以處理圖像聚類問題的方法。麥康維爾等人。 [3] 將圖像聚類作為潛在的流形搜索問題,研究了一些關(guān)于自動(dòng)編碼嵌入的全局流形學(xué)習(xí)方法。
自動(dòng)編碼器之所以在圖像聚類中出名,是因?yàn)樗梢员A魣D像的局部像素信息。這是人們在無人監(jiān)督的情況下可以獲得的少數(shù)先驗(yàn)信息之一。自編碼器的一種特殊形式是使用兩個(gè)變量的均方誤差 (MSE):
其中 xi 是輸入圖像,f(xi) 是 AE 解碼器的輸出。
然而,這些關(guān)注像素空間特征的圖像聚類算法存在兩個(gè)問題:1)像素級損失的使用可能導(dǎo)致這些方法過于關(guān)注基于像素的細(xì)節(jié)而不是抽象的語義信息。 2)像素分析難以有效建立對象的空間關(guān)聯(lián)和復(fù)雜結(jié)構(gòu)。
B. 子空間聚類
子空間聚類(SC)算法旨在找到可以識別聚類的所有子空間。這些算法專門用于查找所有子空間中的所有集群。 SC是數(shù)據(jù)挖掘領(lǐng)域聚類分析的關(guān)鍵技術(shù)之一。目前用于圖像聚類的子空間聚類方法主要有統(tǒng)計(jì)方法和低秩分解方法。還有許多基于深度學(xué)習(xí)的子空間聚類算法用于圖像聚類。
例如,Ji 等人。在自動(dòng)編碼器的編碼器和解碼器之間提出了一個(gè)新穎的自我表達(dá)層來模擬傳統(tǒng)子空間聚類的“自學(xué)習(xí)”過程,并將其用于圖像聚類。席等人。將圖像聚類重新定義為驗(yàn)證問題,并提出了著名的深度稀疏子空間聚類(DSSC)模型進(jìn)行圖像聚類。該方法可以有效解決原始數(shù)據(jù)不滿足線性子空間分布假設(shè)的問題。 Elhamifar 等人提出了一種稀疏子空間聚類算法。他們將圖像聚類視為稀疏子空間學(xué)習(xí)程序,并提出凸松弛來解決稀疏優(yōu)化問題。阿巴維薩尼等人。提出了一種基于 CNN 的子空間聚類方法,并用它來解決圖像聚類問題。為了打破淺層模型的有限代表能力,Xi 等人。通過將子空間與結(jié)構(gòu)化自動(dòng)編碼器(StructAE)相結(jié)合,提出了一種新穎的圖像聚類方法。
一般來說,子空間聚類的適用性是有限的,因?yàn)閳D像的原始形式不一定位于線性子空間中。為了克服這個(gè)問題,Lim 等人。 [19]通過聯(lián)合學(xué)習(xí)數(shù)據(jù)的自我表達(dá)表示和親和矩陣提出了一種子空間聚類方法。
此外,在處理高維數(shù)據(jù)時(shí),子空間聚類會(huì)遇到存儲(chǔ)開銷大、計(jì)算量大的問題。為了減少 SC 在處理圖像聚類中的耗時(shí)問題,Li 等人。 [8]提出了一種低秩表示的子空間聚類方法,通過低秩數(shù)據(jù)的線性表示矩陣保留了原始數(shù)據(jù)的全局結(jié)構(gòu),實(shí)現(xiàn)了最優(yōu)聚類。為了改進(jìn)低秩表示方法,Chen等人[4]提出了一種基于低秩表示和自編碼器的圖像表示方法。另一個(gè)問題是嚴(yán)格的成對約束問題,即子空間聚類對異常值和初始參數(shù)很敏感。為了解決這個(gè)問題,Huang 等人。 [9] 提出了一種用于 k 子空間聚類的深度加權(quán) k 子空間聚類(DWSC)。
C. 基于 GCN 的方法
基于 GCN 的聚類方法通常將圖像聚類表述為鏈接預(yù)測問題,即如果將兩幅圖像分配到同一個(gè)聚類中,則它們之間存在鏈接。貝內(nèi)德克等人。提出使用自聚類(GEMSEC)算法的圖嵌入,該算法在計(jì)算節(jié)點(diǎn)特征的同時(shí)學(xué)習(xí)節(jié)點(diǎn)的聚類。于等人。 [10]提出了一種基于圖表示學(xué)習(xí)的深度聚類算法。該算法首先通過堆疊自動(dòng)編碼器學(xué)習(xí)原始圖的非線性嵌入。然后,它在嵌入上運(yùn)行 it-means 算法以獲得聚類結(jié)果。蔡等人。提出圖卷積子空間聚類(GCSC)算法,并將其用于高光譜圖像(HSI)聚類任務(wù)。該算法利用 GNN 將子空間聚類的自表達(dá)性特性重鑄為非歐幾里得域,并學(xué)習(xí)更魯棒的圖嵌入字典以提高聚類性能。霍等人。 [12]提出了一種基于交叉注意力的深度聚類框架,并將其應(yīng)用于圖像聚類,取得了良好的聚類效果。該框架包含四個(gè)主要模塊:交叉注意力融合模塊、內(nèi)容自動(dòng)編碼器模塊(CAE)、圖卷積自動(dòng)編碼器模塊(GAE)和自監(jiān)督模塊。這些模塊可以提取圖像之間的判別信息和關(guān)系,從而獲得更好的聚類結(jié)果。王等人。使用CNN提取特征并構(gòu)造子圖,然后使用圖卷積網(wǎng)絡(luò)(GCN)推斷子圖中的對之間連接的可能性。
D. 其他一些聚類方案
在[1]中,作者提出了一種基于高斯混合模型(GMM)的深度聚類算法,它結(jié)合了堆疊自編碼器和GMM兩種模型。對比學(xué)習(xí)是一類很有前途的方法,它通過學(xué)習(xí)編碼使兩個(gè)事物相似或不同的原因來構(gòu)建表示。李等人。 [18] 提出了一種單階段在線對比聚類(CC),它明確地執(zhí)行實(shí)例和集群級對比學(xué)習(xí)。文森佐等人。 [7] 提出了變分 infoMax Autoencoder,并用它來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)適合聚類的圖像表示。辛格等人。提出FineGAN,一種訓(xùn)練生成模型的方法,將背景、形狀和外觀分離,并分層生成用于圖像聚類的細(xì)粒度對象類別[16]。范甘斯貝克等人。提出了一個(gè)兩步算法,其中特征學(xué)習(xí)和聚類是分離的。該算法首先使用自我監(jiān)督的方法進(jìn)行圖像表示學(xué)習(xí),以獲得語義上有意義的特征。然后,它以可學(xué)習(xí)的方法使用這些特征作為先驗(yàn)來實(shí)現(xiàn)圖像聚類。陳等人。提出了一種新的深度流形聚類(DMC)算法。作者認(rèn)為聚類表示位于多個(gè)流形上。 CNN 用于發(fā)現(xiàn)多個(gè)流形并學(xué)習(xí)參數(shù)以對未標(biāo)記的圖像進(jìn)行分類。
三、存在的問題
在本節(jié)中,我們分析了深度聚類中存在的一些問題,并提供了未來可能的研究方向。
A. 退化解問題
圖像聚類的退化解問題是將樣本聚合成一個(gè)或幾個(gè)類別。為了克服這個(gè)問題,一些研究提出了平衡分布損失。此損失的目標(biāo)用于強(qiáng)制實(shí)現(xiàn)平衡的集群分配。例如,Dizaji 等人。制定平衡分配損失如下:
Lbalance = DKL(G||U) (2)
其中 U 是均勻分布,G 是分配一個(gè)點(diǎn)到每個(gè)簇的概率分布:gk=P(y=k)=1??qik
通過將此損失與其他損失相結(jié)合,將每個(gè)數(shù)據(jù)點(diǎn)分配給某個(gè)集群的概率在所有可能的集群中是一致的。應(yīng)該注意的是,這個(gè)屬性(統(tǒng)一分配)并不總是理想的。因此,如果已知任何先驗(yàn)知識,則可以用已知的先驗(yàn)知識代替均勻分布。
B. 未知簇?cái)?shù)問題
現(xiàn)有的大多數(shù)聚類方法都需要設(shè)置圖像聚類的數(shù)量。然而,在許多實(shí)際問題的情況下,簇的數(shù)量是未知的。如何解決未知簇?cái)?shù)的問題是一個(gè)具有挑戰(zhàn)性的問題。最近的一些研究可能會(huì)給我們一些啟發(fā)。在 [22] 中,Shah 等人。提出了一個(gè)三元組網(wǎng)絡(luò)來有區(qū)別地訓(xùn)練一個(gè)網(wǎng)絡(luò)來學(xué)習(xí)圖像的嵌入,并將圖像聚集在一組未知的類上。任等人。 [21]使用密度聚類方法和CNN實(shí)現(xiàn)未知簇?cái)?shù)的圖像聚類。他們首先使用卷積自編碼器來降低圖像的維度,并使用 t-SNE 進(jìn)一步將圖像特征降低到 2D 空間。然后,作者應(yīng)用基于密度的方法自動(dòng)獲得合適數(shù)量的聚類。
層次聚類構(gòu)建了一個(gè)聚類樹,也稱為樹狀圖。這種聚類方法不需要事先知道聚類的數(shù)量。最近,楊等人。提出深度表示和圖像集群(JULE)框架的聯(lián)合無監(jiān)督學(xué)習(xí)。在這項(xiàng)工作中,圖像聚類是在前向傳播中使用層次聚類方法進(jìn)行的,而表示學(xué)習(xí)是在后向傳播中進(jìn)行的。然而,如何定義層次聚類的有效鏈接度量始終是一個(gè)懸而未決的問題[24]。
四。數(shù)據(jù)集、指標(biāo)和最佳方法
在本節(jié)中,我們首先介紹一些用于圖像聚類的數(shù)據(jù)庫和評估指標(biāo)。然后,我們介紹了一些觀察聚類結(jié)果的可視化方法。
A. 數(shù)據(jù)集
圖像聚類中常用的數(shù)據(jù)集包括 USPS、STL-10、CIFAR-10、CIFAR-100、Coil-20、Coil-40、Coil-100、MNIST、Fashion-MNIST、Extened Yale-B、YouTube Faces、UMist、 CMU-PIE、CUB Birds、Stanford Cars、Stanford Dogs、FRGC、Letter AJ、HAR、EMNIST-Balanced、Imagenet-10、Imagenet-Dog 和 Tiny-ImageNet。我們簡要介紹這些數(shù)據(jù)集如下。
MNIST 的訓(xùn)練集由來自不同人的 250 個(gè)手寫數(shù)字組成。手寫數(shù)字?jǐn)?shù)據(jù)集中的每張圖像都是 28 × 28 灰度圖像,樣本中的類別總數(shù)為 10。EMNIST-Balanced 的數(shù)據(jù)量是 MNIST 的 4 倍。字母 A-J 基于 20 種不同的字體,這些字體中的每個(gè)字母都是隨機(jī)扭曲的。 USPS 是由 9,298 個(gè) 16 × 16 像素灰度樣本組成的數(shù)據(jù)集。
UMist、FRGC、CMU-PIE、YouTube-Faces 和 Extened Yale-B 是人臉圖像數(shù)據(jù)集。 UMist 由 20 個(gè)人的 564 張圖像組成。 FRGC 由 20 個(gè)人的 50,000 張圖像組成。 CMU-PIE 是一個(gè)數(shù)據(jù)集,包括 68 個(gè)人的 272 張人臉圖像,有 4 種不同的表情。 YouTube-Faces 包含 1, 595 個(gè)不同人的 3, 425 個(gè)視頻。擴(kuò)展的 Yale-B 包含 2、414 張?jiān)诓煌彰鳁l件和各種面部表情下拍攝的正面圖像。
CUB Birds、Stanford Cars 和 Stanford Dogs 是三個(gè)常見的目標(biāo)數(shù)據(jù)集。 CUB Birds 是視覺分類任務(wù)中使用最廣泛的數(shù)據(jù)集。它包含屬于鳥類的 200 個(gè)子類別的 11,788 個(gè)圖像樣本。斯坦福汽車由 196 類汽車組成,共有 16、185 張圖像。 Stanford Dogs 由 120 類汽車組成,共有 20、580 張圖像。
Coil-20、Coil-40 和 Coil-100 均由兩個(gè)版本組成。這些數(shù)據(jù)集中的每個(gè)示例都是 128 × 128 灰度圖像。
CIFAR-10 和 CIFAR-100 均由 50,000 個(gè)訓(xùn)練樣本和 10,000 個(gè)測試樣本組成。每個(gè)樣本的大小為 32 × 32。CIFAR-10 總共涉及 10 個(gè)類,CIFAR-100 總共涉及 100 個(gè)類,分為 20 個(gè)超類。 STL-10 和 Imagenet-10 是用于開發(fā)無監(jiān)督特征學(xué)習(xí)、深度學(xué)習(xí)和自監(jiān)督學(xué)習(xí)算法的圖像數(shù)據(jù)集。它們受到 CIFAR-10 數(shù)據(jù)集的啟發(fā),但經(jīng)過一些修改,尤其是高分辨率數(shù)據(jù)集 (96×96),將使其成為開發(fā)更具可擴(kuò)展性的無監(jiān)督學(xué)習(xí)方法的具有挑戰(zhàn)性的基準(zhǔn)。
HAR 和 Fshion-MNIST 是兩個(gè)特殊的數(shù)據(jù)集。 HAR 是一個(gè)人類活動(dòng)識別數(shù)據(jù)集,由 30 個(gè)受試者執(zhí)行 6 種不同的活動(dòng)組成。 Fashion-MNIST 是 MNIST 的改進(jìn)版本。它包含了10種生活中常見的物品,包括衣服、鞋子和包包。
這些數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表一所示。
C. 最近的方法和聚類結(jié)果
我們在表 II-VIII 中總結(jié)了 2016 年至 2021 年最近的一些聚類算法。表 II 和表 III 報(bào)告了 STL-10、CIFAR-10、CIFAR-100、ImageNet-Dog、ImageNet-10 和 Tiny-ImageNet 數(shù)據(jù)集的一些最新方法。這些數(shù)據(jù)庫中的圖像都是復(fù)雜的真實(shí)對象,這給無監(jiān)督圖像聚類帶來了困難。表 IV 和表 V 報(bào)告了人臉數(shù)據(jù)庫(包括 YTF、FRGC 和 YTF)、CMU-PIE、CUB Birds、Stanford Cars 和 Stanford Dogs 的一些最新方法。這些方法具有優(yōu)越的可擴(kuò)展性,可用于對簡單和復(fù)雜圖像進(jìn)行聚類。表 VI 和表 VII 報(bào)告了一些手寫數(shù)字?jǐn)?shù)據(jù)集和一些對象圖像數(shù)據(jù)集的最新方法。這些數(shù)據(jù)庫都比較簡單,聚類結(jié)果沒有太大的提升空間。特別是,表 VIII 報(bào)告了 Letter A-J、HAR、EMNIST-Balanced 數(shù)據(jù)集上的圖像聚類方法,每個(gè)數(shù)據(jù)庫只有一種算法。這意味著這三個(gè)數(shù)據(jù)庫可能具有廣泛的研究空間。
五、結(jié)論
圖像聚類是基于相似性度量對圖像進(jìn)行分組的過程。在本文中,我們對圖像聚類進(jìn)行了全面的概述。本文研究的主要問題包括三個(gè)部分:我們首先介紹了現(xiàn)有圖像聚類方法的分類和框架。然后,對存在的問題進(jìn)行分析,提出解決這些問題的建議。最后,我們介紹了一些圖像數(shù)據(jù)集和聚類結(jié)果的評價(jià)指標(biāo)。為了讓讀者了解現(xiàn)階段圖像聚類的發(fā)展水平,我們整理了這些數(shù)據(jù)庫上性能最好的方法。該調(diào)查可以作為了解圖像聚類當(dāng)前發(fā)展的指南。