狠狠操一区二区,日本二区不卡

A Survey of Image Clustering: Taxonomy and Recent Methods

摘要——圖像聚類是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基本問題。在本次調(diào)查中，我們提供了圖像聚類的全面概述。具體來說，我們首先討論圖像聚類在各個(gè)領(lǐng)域的應(yīng)用。然后，我們總結(jié)了常見的算法，并提出了圖像聚類的分類?，F(xiàn)有方法從四個(gè)方面進(jìn)行分類：基于自動(dòng)編碼器的方法、子空間聚類、基于圖卷積網(wǎng)絡(luò)（GCN）的方法和其他一些聚類方法。介紹了各種圖像聚類方法的主要研究內(nèi)容和存在的問題。我們還介紹了一些最近的方法并總結(jié)了實(shí)驗(yàn)結(jié)果。根據(jù)我們的分類和分析，創(chuàng)建和驗(yàn)證新方法更加簡單。最后，我們提出了這個(gè)快速發(fā)展領(lǐng)域的未來機(jī)遇。

索引詞——圖像聚類、自動(dòng)編碼器、子空間聚類、圖卷積網(wǎng)絡(luò)、對比學(xué)習(xí)、

一、引言

隨著信息技術(shù)的最新進(jìn)展，幾乎在每個(gè)可以想象的區(qū)域都捕獲了大量圖像，其中大部分沒有標(biāo)記[1]。手動(dòng)標(biāo)記這些圖像非常昂貴且耗時(shí)。為了充分利用這些未標(biāo)記的圖像并研究它們之間的相關(guān)性，無監(jiān)督聚類成為近年來的熱門話題[2]。

由于圖像形狀和高維的變化，圖像聚類是計(jì)算機(jī)視覺中具有挑戰(zhàn)性的任務(wù)之一。圖像聚類的目標(biāo)是自動(dòng)將相似的圖像分組到一個(gè)簇中，而將不相似的圖像分配到不同的簇中。傳統(tǒng)的圖像聚類方法，如 K-means++ [25]、譜聚類 [13]、高斯混合模型 [14] 和子空間聚類，通常將特征提取與聚類分開。這些方法通常是手動(dòng)提取圖像特征，然后使用聚類算法對特征進(jìn)行聚類，從而實(shí)現(xiàn)圖像聚類。傳統(tǒng)的圖像聚類方法可能會(huì)因兩個(gè)主要問題而失敗。一方面，人工特征的容量有限，不能動(dòng)態(tài)調(diào)整人工特征來捕捉圖像分布的先驗(yàn)信息，尤其是在處理大規(guī)模真實(shí)世界圖像時(shí)。另一方面，特征提取和聚類的分離將使解決方案次優(yōu)。

神經(jīng)網(wǎng)絡(luò)的成功推動(dòng)了模式識別和計(jì)算機(jī)視覺領(lǐng)域的研究。人們越來越關(guān)注將深度學(xué)習(xí)擴(kuò)展到無監(jiān)督圖像聚類任務(wù)。最近，人們發(fā)現(xiàn)使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)有效的表示在圖像聚類任務(wù)中起著重要作用，并且出現(xiàn)了許多研究，[4]，[6]。

在本次調(diào)查中，我們對圖像聚類進(jìn)行了全面調(diào)查，包括傳統(tǒng)聚類方法和深度聚類方法。本文的主要貢獻(xiàn)可歸納如下：

I) 我們概述了用于圖像聚類的現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)。對于每種類型的圖像聚類研究，我們都提供了代表性模型的詳細(xì)描述，并進(jìn)行了必要的比較。

II）我們收集了豐富的圖像聚類資源，包括最先進(jìn)的模型、基準(zhǔn)數(shù)據(jù)集、常見的估計(jì)指標(biāo)和可視化方法。該調(diào)查可用作理解圖像聚類的實(shí)用指南。

在本文中，第 2 節(jié)重點(diǎn)介紹圖像聚類中的分類和通用框架，而第 3 節(jié)討論圖像聚類中存在的一些問題。在第 4 節(jié)中，我們介紹了一些與實(shí)驗(yàn)相關(guān)的內(nèi)容，包括常用數(shù)據(jù)庫、估計(jì)指標(biāo)和可視化方法。在最后一節(jié)中，我們對這項(xiàng)調(diào)查進(jìn)行了簡要總結(jié)，并對深度聚類進(jìn)行了一些討論。

二、分類和框架

在本節(jié)中，我們概述了圖像聚類的分類并列出了常用方法。請注意，現(xiàn)有圖像聚類算法的分類模式不是絕對的，它們之間存在重疊。

A. 基于自動(dòng)編碼器的方法

自動(dòng)編碼器（AE）是一種用于半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)，其功能是將輸入信息作為學(xué)習(xí)對象來表示輸入信息。通常，為了學(xué)習(xí)圖像的有效表示，一些研究首先使用 AE 來提取圖像特征。然后，他們使用一些聚類算法來設(shè)計(jì)損失函數(shù)，并對編碼器進(jìn)行微調(diào)。

郭等人。使用自動(dòng)編碼器來推斷圖像的維度，并使用最大化圖像和特征之間的互信息作為學(xué)習(xí)圖像表示的標(biāo)準(zhǔn)。該方法有效地將數(shù)據(jù)映射到有區(qū)別的嵌入子空間，并通過使用相對熵最小化原理精確預(yù)測聚類分配。徐等人。提出了一個(gè)用于判別嵌入和譜聚類的聯(lián)合學(xué)習(xí)框架。郭等人。提出了一種改進(jìn)的深度嵌入式聚類（IDEC）算法來處理數(shù)據(jù)結(jié)構(gòu)的保存。與 DEC 相比，IDEC 可以通過整合聚類損失和 AEs 重建損失來優(yōu)化聚類標(biāo)簽分配特征。陳等人。 [11]結(jié)合了三個(gè)基于AE的模型，包括卷積自動(dòng)編碼器（CAE）、對抗性自動(dòng)編碼器（AAE）和可堆疊自動(dòng)編碼器（SAE），形成用于圖像聚類的混合自動(dòng)編碼器（BAE）模型。馬拉巴等人。提出了一種深度聚類模型，解決了聚類重建的權(quán)衡問題。該方法可以逐步平滑地消除重構(gòu)目標(biāo)函數(shù)，有利于目標(biāo)函數(shù)的構(gòu)建，有利于得到聚類結(jié)果。阿加拉普等人。 [17] 提出了一種優(yōu)化自編碼器學(xué)習(xí)表示的糾纏以處理圖像聚類問題的方法。麥康維爾等人。 [3] 將圖像聚類作為潛在的流形搜索問題，研究了一些關(guān)于自動(dòng)編碼嵌入的全局流形學(xué)習(xí)方法。

自動(dòng)編碼器之所以在圖像聚類中出名，是因?yàn)樗梢员Ａ魣D像的局部像素信息。這是人們在無人監(jiān)督的情況下可以獲得的少數(shù)先驗(yàn)信息之一。自編碼器的一種特殊形式是使用兩個(gè)變量的均方誤差 (MSE)：

其中 xi 是輸入圖像，f(xi) 是 AE 解碼器的輸出。

然而，這些關(guān)注像素空間特征的圖像聚類算法存在兩個(gè)問題：1）像素級損失的使用可能導(dǎo)致這些方法過于關(guān)注基于像素的細(xì)節(jié)而不是抽象的語義信息。 2）像素分析難以有效建立對象的空間關(guān)聯(lián)和復(fù)雜結(jié)構(gòu)。

B. 子空間聚類

子空間聚類（SC）算法旨在找到可以識別聚類的所有子空間。這些算法專門用于查找所有子空間中的所有集群。 SC是數(shù)據(jù)挖掘領(lǐng)域聚類分析的關(guān)鍵技術(shù)之一。目前用于圖像聚類的子空間聚類方法主要有統(tǒng)計(jì)方法和低秩分解方法。還有許多基于深度學(xué)習(xí)的子空間聚類算法用于圖像聚類。

例如，Ji 等人。在自動(dòng)編碼器的編碼器和解碼器之間提出了一個(gè)新穎的自我表達(dá)層來模擬傳統(tǒng)子空間聚類的“自學(xué)習(xí)”過程，并將其用于圖像聚類。席等人。將圖像聚類重新定義為驗(yàn)證問題，并提出了著名的深度稀疏子空間聚類（DSSC）模型進(jìn)行圖像聚類。該方法可以有效解決原始數(shù)據(jù)不滿足線性子空間分布假設(shè)的問題。 Elhamifar 等人提出了一種稀疏子空間聚類算法。他們將圖像聚類視為稀疏子空間學(xué)習(xí)程序，并提出凸松弛來解決稀疏優(yōu)化問題。阿巴維薩尼等人。提出了一種基于 CNN 的子空間聚類方法，并用它來解決圖像聚類問題。為了打破淺層模型的有限代表能力，Xi 等人。通過將子空間與結(jié)構(gòu)化自動(dòng)編碼器（StructAE）相結(jié)合，提出了一種新穎的圖像聚類方法。

一般來說，子空間聚類的適用性是有限的，因?yàn)閳D像的原始形式不一定位于線性子空間中。為了克服這個(gè)問題，Lim 等人。 [19]通過聯(lián)合學(xué)習(xí)數(shù)據(jù)的自我表達(dá)表示和親和矩陣提出了一種子空間聚類方法。

此外，在處理高維數(shù)據(jù)時(shí)，子空間聚類會(huì)遇到存儲(chǔ)開銷大、計(jì)算量大的問題。為了減少 SC 在處理圖像聚類中的耗時(shí)問題，Li 等人。 [8]提出了一種低秩表示的子空間聚類方法，通過低秩數(shù)據(jù)的線性表示矩陣保留了原始數(shù)據(jù)的全局結(jié)構(gòu)，實(shí)現(xiàn)了最優(yōu)聚類。為了改進(jìn)低秩表示方法，Chen等人[4]提出了一種基于低秩表示和自編碼器的圖像表示方法。另一個(gè)問題是嚴(yán)格的成對約束問題，即子空間聚類對異常值和初始參數(shù)很敏感。為了解決這個(gè)問題，Huang 等人。 [9] 提出了一種用于 k 子空間聚類的深度加權(quán) k 子空間聚類（DWSC）。

C. 基于 GCN 的方法

基于 GCN 的聚類方法通常將圖像聚類表述為鏈接預(yù)測問題，即如果將兩幅圖像分配到同一個(gè)聚類中，則它們之間存在鏈接。貝內(nèi)德克等人。提出使用自聚類（GEMSEC）算法的圖嵌入，該算法在計(jì)算節(jié)點(diǎn)特征的同時(shí)學(xué)習(xí)節(jié)點(diǎn)的聚類。于等人。 [10]提出了一種基于圖表示學(xué)習(xí)的深度聚類算法。該算法首先通過堆疊自動(dòng)編碼器學(xué)習(xí)原始圖的非線性嵌入。然后，它在嵌入上運(yùn)行 it-means 算法以獲得聚類結(jié)果。蔡等人。提出圖卷積子空間聚類（GCSC）算法，并將其用于高光譜圖像（HSI）聚類任務(wù)。該算法利用 GNN 將子空間聚類的自表達(dá)性特性重鑄為非歐幾里得域，并學(xué)習(xí)更魯棒的圖嵌入字典以提高聚類性能。霍等人。 [12]提出了一種基于交叉注意力的深度聚類框架，并將其應(yīng)用于圖像聚類，取得了良好的聚類效果。該框架包含四個(gè)主要模塊：交叉注意力融合模塊、內(nèi)容自動(dòng)編碼器模塊（CAE）、圖卷積自動(dòng)編碼器模塊（GAE）和自監(jiān)督模塊。這些模塊可以提取圖像之間的判別信息和關(guān)系，從而獲得更好的聚類結(jié)果。王等人。使用CNN提取特征并構(gòu)造子圖，然后使用圖卷積網(wǎng)絡(luò)（GCN）推斷子圖中的對之間連接的可能性。

D. 其他一些聚類方案

在[1]中，作者提出了一種基于高斯混合模型（GMM）的深度聚類算法，它結(jié)合了堆疊自編碼器和GMM兩種模型。對比學(xué)習(xí)是一類很有前途的方法，它通過學(xué)習(xí)編碼使兩個(gè)事物相似或不同的原因來構(gòu)建表示。李等人。 [18] 提出了一種單階段在線對比聚類（CC），它明確地執(zhí)行實(shí)例和集群級對比學(xué)習(xí)。文森佐等人。 [7] 提出了變分 infoMax Autoencoder，并用它來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)以學(xué)習(xí)適合聚類的圖像表示。辛格等人。提出FineGAN，一種訓(xùn)練生成模型的方法，將背景、形狀和外觀分離，并分層生成用于圖像聚類的細(xì)粒度對象類別[16]。范甘斯貝克等人。提出了一個(gè)兩步算法，其中特征學(xué)習(xí)和聚類是分離的。該算法首先使用自我監(jiān)督的方法進(jìn)行圖像表示學(xué)習(xí)，以獲得語義上有意義的特征。然后，它以可學(xué)習(xí)的方法使用這些特征作為先驗(yàn)來實(shí)現(xiàn)圖像聚類。陳等人。提出了一種新的深度流形聚類（DMC）算法。作者認(rèn)為聚類表示位于多個(gè)流形上。 CNN 用于發(fā)現(xiàn)多個(gè)流形并學(xué)習(xí)參數(shù)以對未標(biāo)記的圖像進(jìn)行分類。

三、存在的問題

在本節(jié)中，我們分析了深度聚類中存在的一些問題，并提供了未來可能的研究方向。

A. 退化解問題

圖像聚類的退化解問題是將樣本聚合成一個(gè)或幾個(gè)類別。為了克服這個(gè)問題，一些研究提出了平衡分布損失。此損失的目標(biāo)用于強(qiáng)制實(shí)現(xiàn)平衡的集群分配。例如，Dizaji 等人。制定平衡分配損失如下：

Lbalance = DKL(G||U) (2)

其中 U 是均勻分布，G 是分配一個(gè)點(diǎn)到每個(gè)簇的概率分布：gk=P(y=k)=1??qik

通過將此損失與其他損失相結(jié)合，將每個(gè)數(shù)據(jù)點(diǎn)分配給某個(gè)集群的概率在所有可能的集群中是一致的。應(yīng)該注意的是，這個(gè)屬性（統(tǒng)一分配）并不總是理想的。因此，如果已知任何先驗(yàn)知識，則可以用已知的先驗(yàn)知識代替均勻分布。

B. 未知簇?cái)?shù)問題

現(xiàn)有的大多數(shù)聚類方法都需要設(shè)置圖像聚類的數(shù)量。然而，在許多實(shí)際問題的情況下，簇的數(shù)量是未知的。如何解決未知簇?cái)?shù)的問題是一個(gè)具有挑戰(zhàn)性的問題。最近的一些研究可能會(huì)給我們一些啟發(fā)。在 [22] 中，Shah 等人。提出了一個(gè)三元組網(wǎng)絡(luò)來有區(qū)別地訓(xùn)練一個(gè)網(wǎng)絡(luò)來學(xué)習(xí)圖像的嵌入，并將圖像聚集在一組未知的類上。任等人。 [21]使用密度聚類方法和CNN實(shí)現(xiàn)未知簇?cái)?shù)的圖像聚類。他們首先使用卷積自編碼器來降低圖像的維度，并使用 t-SNE 進(jìn)一步將圖像特征降低到 2D 空間。然后，作者應(yīng)用基于密度的方法自動(dòng)獲得合適數(shù)量的聚類。

層次聚類構(gòu)建了一個(gè)聚類樹，也稱為樹狀圖。這種聚類方法不需要事先知道聚類的數(shù)量。最近，楊等人。提出深度表示和圖像集群（JULE）框架的聯(lián)合無監(jiān)督學(xué)習(xí)。在這項(xiàng)工作中，圖像聚類是在前向傳播中使用層次聚類方法進(jìn)行的，而表示學(xué)習(xí)是在后向傳播中進(jìn)行的。然而，如何定義層次聚類的有效鏈接度量始終是一個(gè)懸而未決的問題[24]。

四。數(shù)據(jù)集、指標(biāo)和最佳方法

在本節(jié)中，我們首先介紹一些用于圖像聚類的數(shù)據(jù)庫和評估指標(biāo)。然后，我們介紹了一些觀察聚類結(jié)果的可視化方法。

A. 數(shù)據(jù)集

圖像聚類中常用的數(shù)據(jù)集包括 USPS、STL-10、CIFAR-10、CIFAR-100、Coil-20、Coil-40、Coil-100、MNIST、Fashion-MNIST、Extened Yale-B、YouTube Faces、UMist、 CMU-PIE、CUB Birds、Stanford Cars、Stanford Dogs、FRGC、Letter AJ、HAR、EMNIST-Balanced、Imagenet-10、Imagenet-Dog 和 Tiny-ImageNet。我們簡要介紹這些數(shù)據(jù)集如下。

MNIST 的訓(xùn)練集由來自不同人的 250 個(gè)手寫數(shù)字組成。手寫數(shù)字?jǐn)?shù)據(jù)集中的每張圖像都是 28 × 28 灰度圖像，樣本中的類別總數(shù)為 10。EMNIST-Balanced 的數(shù)據(jù)量是 MNIST 的 4 倍。字母 A-J 基于 20 種不同的字體，這些字體中的每個(gè)字母都是隨機(jī)扭曲的。 USPS 是由 9,298 個(gè) 16 × 16 像素灰度樣本組成的數(shù)據(jù)集。

UMist、FRGC、CMU-PIE、YouTube-Faces 和 Extened Yale-B 是人臉圖像數(shù)據(jù)集。 UMist 由 20 個(gè)人的 564 張圖像組成。 FRGC 由 20 個(gè)人的 50,000 張圖像組成。 CMU-PIE 是一個(gè)數(shù)據(jù)集，包括 68 個(gè)人的 272 張人臉圖像，有 4 種不同的表情。 YouTube-Faces 包含 1, 595 個(gè)不同人的 3, 425 個(gè)視頻。擴(kuò)展的 Yale-B 包含 2、414 張?jiān)诓煌彰鳁l件和各種面部表情下拍攝的正面圖像。

CUB Birds、Stanford Cars 和 Stanford Dogs 是三個(gè)常見的目標(biāo)數(shù)據(jù)集。 CUB Birds 是視覺分類任務(wù)中使用最廣泛的數(shù)據(jù)集。它包含屬于鳥類的 200 個(gè)子類別的 11,788 個(gè)圖像樣本。斯坦福汽車由 196 類汽車組成，共有 16、185 張圖像。 Stanford Dogs 由 120 類汽車組成，共有 20、580 張圖像。

Coil-20、Coil-40 和 Coil-100 均由兩個(gè)版本組成。這些數(shù)據(jù)集中的每個(gè)示例都是 128 × 128 灰度圖像。

CIFAR-10 和 CIFAR-100 均由 50,000 個(gè)訓(xùn)練樣本和 10,000 個(gè)測試樣本組成。每個(gè)樣本的大小為 32 × 32。CIFAR-10 總共涉及 10 個(gè)類，CIFAR-100 總共涉及 100 個(gè)類，分為 20 個(gè)超類。 STL-10 和 Imagenet-10 是用于開發(fā)無監(jiān)督特征學(xué)習(xí)、深度學(xué)習(xí)和自監(jiān)督學(xué)習(xí)算法的圖像數(shù)據(jù)集。它們受到 CIFAR-10 數(shù)據(jù)集的啟發(fā)，但經(jīng)過一些修改，尤其是高分辨率數(shù)據(jù)集 (96×96)，將使其成為開發(fā)更具可擴(kuò)展性的無監(jiān)督學(xué)習(xí)方法的具有挑戰(zhàn)性的基準(zhǔn)。

HAR 和 Fshion-MNIST 是兩個(gè)特殊的數(shù)據(jù)集。 HAR 是一個(gè)人類活動(dòng)識別數(shù)據(jù)集，由 30 個(gè)受試者執(zhí)行 6 種不同的活動(dòng)組成。 Fashion-MNIST 是 MNIST 的改進(jìn)版本。它包含了10種生活中常見的物品，包括衣服、鞋子和包包。

這些數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表一所示。

C. 最近的方法和聚類結(jié)果

我們在表 II-VIII 中總結(jié)了 2016 年至 2021 年最近的一些聚類算法。表 II 和表 III 報(bào)告了 STL-10、CIFAR-10、CIFAR-100、ImageNet-Dog、ImageNet-10 和 Tiny-ImageNet 數(shù)據(jù)集的一些最新方法。這些數(shù)據(jù)庫中的圖像都是復(fù)雜的真實(shí)對象，這給無監(jiān)督圖像聚類帶來了困難。表 IV 和表 V 報(bào)告了人臉數(shù)據(jù)庫（包括 YTF、FRGC 和 YTF）、CMU-PIE、CUB Birds、Stanford Cars 和 Stanford Dogs 的一些最新方法。這些方法具有優(yōu)越的可擴(kuò)展性，可用于對簡單和復(fù)雜圖像進(jìn)行聚類。表 VI 和表 VII 報(bào)告了一些手寫數(shù)字?jǐn)?shù)據(jù)集和一些對象圖像數(shù)據(jù)集的最新方法。這些數(shù)據(jù)庫都比較簡單，聚類結(jié)果沒有太大的提升空間。特別是，表 VIII 報(bào)告了 Letter A-J、HAR、EMNIST-Balanced 數(shù)據(jù)集上的圖像聚類方法，每個(gè)數(shù)據(jù)庫只有一種算法。這意味著這三個(gè)數(shù)據(jù)庫可能具有廣泛的研究空間。

五、結(jié)論

圖像聚類是基于相似性度量對圖像進(jìn)行分組的過程。在本文中，我們對圖像聚類進(jìn)行了全面的概述。本文研究的主要問題包括三個(gè)部分：我們首先介紹了現(xiàn)有圖像聚類方法的分類和框架。然后，對存在的問題進(jìn)行分析，提出解決這些問題的建議。最后，我們介紹了一些圖像數(shù)據(jù)集和聚類結(jié)果的評價(jià)指標(biāo)。為了讓讀者了解現(xiàn)階段圖像聚類的發(fā)展水平，我們整理了這些數(shù)據(jù)庫上性能最好的方法。該調(diào)查可以作為了解圖像聚類當(dāng)前發(fā)展的指南。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2022-03-24

2022-03-24

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

2022-03-24

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av