Abstract：

統(tǒng)一流形逼近與投影(UMAP:Uniform Manifold Approximation and Projection)是一種新的降維技術(shù)，其理論基礎(chǔ)是黎曼幾何和代數(shù)拓?fù)?。相?duì)于T-SNE降維，UMAP的優(yōu)點(diǎn)在于:(1)能夠盡可能多的保留全局結(jié)構(gòu)，（2）耗時(shí)更短(見(jiàn)表一)，（3）對(duì)嵌入維數(shù)沒(méi)有限制可以擴(kuò)展到更大的維度的數(shù)據(jù)集（T-SNE對(duì)數(shù)據(jù)的維度有所限制（Hinton的T-SNE實(shí)驗(yàn)中先用PCA降到50,再進(jìn)一步的使用T-SNE）、密集的數(shù)據(jù)才能達(dá)到較好的可視化效果）。（T-SNE是建立在二維的基礎(chǔ)上，而UMAP則是建立在三維的黎曼流行上，相關(guān)定義、計(jì)算方法都會(huì)發(fā)生一定的變化）。

1. Introduction

????降維可以定義為將高維數(shù)據(jù)降低為低維同時(shí)盡可能保證數(shù)據(jù)的全局性，降維技術(shù)是機(jī)器學(xué)習(xí)中大數(shù)據(jù)預(yù)處理的一種重要技術(shù)。降維的算法主要分為兩類：（1）在數(shù)據(jù)中保持距離結(jié)構(gòu)的算法——線性降維（PCA、MDS和Sammon映射），（2）在全局距離上保持局部距離的算法（流形學(xué)習(xí)）——非線性降維（t-SNE、Isomap、LargeVis、Laplacian特征映射和difusion映射）。

? ??UMAP的數(shù)學(xué)基礎(chǔ)主要是Belkin和Niyogi在拉普拉斯特征映射所做的工作，對(duì)于流形數(shù)據(jù)的分布問(wèn)題，采用的是黎曼幾何和David Spivak在范疇論（category theoretic）方法中的工作。UMAP目前已經(jīng)應(yīng)用于生物信息學(xué)、材料科學(xué)和機(jī)器學(xué)習(xí)等領(lǐng)域得到廣泛應(yīng)用。這篇文章的基本框架如圖一：

圖一

2 .Teoretical Foundations for UMAP

? ??UMAP的理論基礎(chǔ)主要基于流形理論和拓?fù)鋽?shù)據(jù)分析。許多理論最容易用拓?fù)鋵W(xué)和范疇理論來(lái)解釋。UMAP利用局部流形逼近（ local manifold approximations）和局部模糊單純形集表示（local fuzzy simplicial set representations）來(lái)構(gòu)造高維數(shù)據(jù)的拓?fù)浔硎尽＝o定數(shù)據(jù)的一些低維表示，可以使用類似的過(guò)程來(lái)構(gòu)造等價(jià)的低維拓?fù)浔硎尽呔S和低維換種表達(dá)方式。然后UMAP優(yōu)化低維空間中數(shù)據(jù)表示的布局，以最小化兩個(gè)拓?fù)浔硎局g的交叉熵(（交叉熵（Cross Entropy）是Shannon信息論中一個(gè)重要概念，主要用于度量?jī)蓚€(gè)概率分布間的差異性信息。交叉熵的意義是用該模型對(duì)文本識(shí)別的難度，或者從壓縮的角度來(lái)看，每個(gè)詞平均要用幾個(gè)位來(lái)編碼）交叉熵CSDN鏈接：交叉熵（Cross-Entropy）_Python_rtygbwwwerr的專欄-CSDN博客,。

相對(duì)熵與交叉熵的比較

? ??模糊拓?fù)浔硎镜臉?gòu)造可分為兩個(gè)問(wèn)題：一個(gè)是假設(shè)數(shù)據(jù)所在的流形的逼近問(wèn)題；另一個(gè)是流形逼近的模糊單純形集表示問(wèn)題。通過(guò)以下三節(jié)2.1、2.2、2.3對(duì)算法進(jìn)行詳細(xì)介紹。

2.1 Uniform distribution of data on a manifold and geodesic approximation（流形上數(shù)據(jù)的均勻分布和測(cè)地線近似）

frst step:逼近我們假設(shè)的數(shù)據(jù)所在的流形 $R^n$ (從數(shù)據(jù)中推斷出來(lái)，事先不知道)。輸入數(shù)據(jù)X = {X1, . . . , XN}，Belkin和Niyogi在Laplacian特征映射上的工作：假設(shè)流形有一個(gè)不是從環(huán)境空間繼承來(lái)的黎曼度量，我們可以定義一個(gè)度量那么數(shù)據(jù)在流形上均勻分布。M是我們假設(shè)數(shù)據(jù)所在的流形，設(shè)g是M的黎曼度量，對(duì)于每個(gè)點(diǎn)p∈M，我們有 $g_{p}$ ，它是切線空間(tangent space) $T_{p}$ M上的內(nèi)積。

（切空間（Tangent space）是在某一點(diǎn)所有的切向量組成的線性空間。向量（切向量）存在多種定義。直觀的講，如果所研究的流形（Manifold）是一個(gè)三維空間中的曲面，則在每一點(diǎn)的切向量，就是和該曲面相切的向量，切空間就是和該曲面相切的平面。）

Lemma 1：設(shè)（M，g）是一個(gè)環(huán)境中的黎曼流形 $R^n$ ，數(shù)據(jù)點(diǎn)p∈M（數(shù)據(jù)流）,g是關(guān)于開(kāi)鄰域U的局部常數(shù)，使得g在環(huán)境坐標(biāo)系中是一個(gè)常數(shù)對(duì)角矩陣，那么在以p為中心的球B?U中，相對(duì)于g的體積πn/2Γ（n/2+1），p到任意點(diǎn)q∈B的測(cè)地線距離( geodesic distance：在三維空間中，兩點(diǎn)之間的最短路徑)是p到任意點(diǎn)q∈B的測(cè)地線距離為 $\frac{1}{r}$ dRn（p，q），其中r是球在環(huán)境空間中的半徑，dRn是環(huán)境空間上的現(xiàn)有度量（證明略）。

? ? 通過(guò)引理1，可以對(duì) $X_{i}$ 的 $K^th$ 近鄰的距離進(jìn)行正規(guī)化來(lái)近似于xi與其近鄰的測(cè)地線距離。通過(guò)為每個(gè) $x_{i}$ 創(chuàng)建一個(gè)自定義距離，我們可以確保在流形假設(shè)下均勻分布假設(shè)的有效性。而這些距離概念可能不兼容。我們有一個(gè)離散度量空間家族（每個(gè)度量空間對(duì)應(yīng)一個(gè)度量空間），我們希望將其合并為一致的全局結(jié)構(gòu)。這可以通過(guò)將度量空間(metricspaces)轉(zhuǎn)換為模糊單純形集（fuzzy simplicial sets）以自然的方式完成。

2.2 Fuzzy topological representation

? ??我們將數(shù)據(jù)轉(zhuǎn)換為模糊拓?fù)浔硎荆院喜?shù)據(jù)的不相容局部視圖，方法的主要理論依據(jù)來(lái)自于邁克爾·巴爾（Michael Barr）和大衛(wèi)·斯皮瓦克（David Spivak）的工作。我們將轉(zhuǎn)換為模糊拓?fù)浔硎荆?b>以合并數(shù)據(jù)的不相容局部視圖。首先，我們將回顧簡(jiǎn)單集（simplicial sets）的定義。單純形集為拓?fù)淇臻g的研究提供了一種組合方法。它們與簡(jiǎn)單復(fù)合物（simplicial complex）的簡(jiǎn)單概念有關(guān)，簡(jiǎn)單復(fù)合物通過(guò)將稱為simplicies的簡(jiǎn)單構(gòu)建塊粘合在一起來(lái)構(gòu)造拓?fù)淇臻g，但它們更為普遍。在范疇論的語(yǔ)言中，簡(jiǎn)單集合是最容易被完全抽象化的。

單純集是有向圖、半序集和范疇的高維推廣。形式上，單純集可以定義為從單純形范疇到集合范疇的逆變函子。單純集是在1950年由Samuel Eilenberg和J. A. Zilber提出的。

范疇論的理解：范疇論（ category theory）是數(shù)學(xué)的一門(mén)學(xué)科，以抽象的方法來(lái)處理數(shù)學(xué)概念，將這些概念形式化成一組組的“物件”及“態(tài)射”。數(shù)學(xué)中許多重要的領(lǐng)域可以形式化成范疇，并且使用范疇論，令在這些領(lǐng)域中許多難理解、難捉摸的數(shù)學(xué)結(jié)論可以比沒(méi)有使用范疇還會(huì)更容易敘述及證明。????????范疇最容易理解的一個(gè)例子為集合范疇，其物件為集合，態(tài)射為集合間的函數(shù),設(shè)X $\preceq$ {0、1、2、3、4}0<=x<=4，態(tài)射：y=x+1。但需注意，范疇的物件不一定要是集合，態(tài)射也不一定要是函數(shù)；一個(gè)數(shù)學(xué)概念若可以找到一種方法，以符合物件及態(tài)射的定義，則可形成一個(gè)有效的范疇，且所有在范疇論中導(dǎo)出的結(jié)論都可應(yīng)用在這個(gè)數(shù)學(xué)概念之上。

函子（ functor）：將一個(gè)范疇的每個(gè)物件和另一個(gè)范疇的物件相關(guān)連起來(lái)，并將第一個(gè)范疇的每個(gè)態(tài)射和第二個(gè)范疇的態(tài)射相關(guān)連起來(lái)。

每一范疇都由其對(duì)象，態(tài)射，和復(fù)合態(tài)射來(lái)表述。為了方便起見(jiàn)，以下的“函數(shù)”即是指態(tài)射。

Set?是所有集合和它們彼此之間的全函數(shù)構(gòu)成的范疇

Ord?是所有預(yù)序集和其間的單調(diào)函數(shù)構(gòu)成的范疇

Mag?是所有廣群和其間的同態(tài)映射構(gòu)成的范疇

Med?是所有對(duì)換廣群和其間的同態(tài)映射構(gòu)成的范疇

Defnition 1：范疇?具有作為對(duì)象的fnite順序集[n] = {1, . . . , n},用（非嚴(yán)格）保序映射給出的圖

Defnition 2：一個(gè)單純集是從?op到數(shù)據(jù)集（Sets）集合的函子。給定一個(gè)簡(jiǎn)單集X，?op→ Sets,n用來(lái)表示 $X_{n}$ 中的元素，單純形集最簡(jiǎn)單的例子是標(biāo)準(zhǔn)單純形 $?^n$ 被定義用來(lái)表示函數(shù)hom?(·,[n])。據(jù)Yoneda引理，X的n-單純形與單純形集范疇中的態(tài)射?n→ X之間存在著自然的對(duì)應(yīng)關(guān)系，通過(guò)密度定理和使用少量的符號(hào)，我們得到了：

covariant functor：函子?保留箭頭的方向，則該函子稱為協(xié)變，即每個(gè)箭頭都映射到一個(gè)箭頭 | · | : ? → Top mapping

一個(gè)標(biāo)準(zhǔn)的協(xié)變函子|·|:?→高級(jí)類別?的映射的拓?fù)淇臻g范疇發(fā)送[n]標(biāo)準(zhǔn)n單形|?n |?Rn + 1 defned被定義為：

用標(biāo)準(zhǔn)的子空間拓?fù)?。如果X : ?op→ Sets是一個(gè)簡(jiǎn)單的集合，那么我們可以構(gòu)造X表示逆極限。

拓?fù)淇臻g與給定的單純形集相關(guān)聯(lián)。相反地，給定一個(gè)拓?fù)淇臻gY，我們可以通過(guò)構(gòu)造一個(gè)關(guān)聯(lián)的單形集S（Y），S（Y）叫做Y的奇異集：

實(shí)現(xiàn)函子和奇異集函子是經(jīng)典同倫理論的一個(gè)標(biāo)準(zhǔn)結(jié)果，并提供了拓?fù)淇臻g與單純形集之間轉(zhuǎn)換的標(biāo)準(zhǔn)方法。我們的目標(biāo)是使這些強(qiáng)大的經(jīng)典結(jié)果適用于fnite度量空間的情況。

Defnition 3：一個(gè)預(yù)層P是 I^op?集上的函子。模糊集是I上的一個(gè)預(yù)割，使得所有映射P(a ≤ b)都是注入。（I上的預(yù)升形成一個(gè)范疇，其態(tài)射由自然變換給出）。

Defnition 4：fuzzy集的范疇Fuzz是fuzzy集所跨越的I上帶輪的完全子范疇。

Defnition 5：模糊單純形集的范疇sFuzz是指從?op到Fuzz函子給出對(duì)象，由自然變換給出態(tài)射的范疇。

Defnition 6：

擴(kuò)展偽度量空間（X，d）是一個(gè)集X和一個(gè)映射d:X×X→R≥0∪{∞}，使得

擴(kuò)展偽度量空間EPMet的范疇看做對(duì)象擴(kuò)展偽度量空間和非擴(kuò)展映射作為態(tài)射。給出了fnite擴(kuò)展偽度量空間FinEPMet的子范疇。

Defnition 7：

Defnition 8：

利用模糊奇異集函子將族中的每個(gè)度量空間轉(zhuǎn)化為一個(gè)模糊單純形集，在模糊結(jié)構(gòu)中保留度量信息的同時(shí)提取拓?fù)湫畔?。消除由此產(chǎn)生的模糊單形集族的不相容性，只需在整個(gè)族上?。╢uzzy）并即可。結(jié)果是一個(gè)單一的模糊單純形集，它捕獲流形M的相關(guān)拓?fù)浜偷讓佣攘拷Y(jié)構(gòu)。

Defnition 9：

fuzzy集并集提供了將不同度量空間合并在一起的方法。Tis提供了一個(gè)模糊單純形集作為流形的全局表示，流形是由多個(gè)局部表示拼湊而成的。我們可以通過(guò)簡(jiǎn)單地尋找與源數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)緊密匹配的低維表示來(lái)進(jìn)行降維。我們現(xiàn)在考慮尋找這樣一個(gè)低維表示的任務(wù)。

2.3 Optimizing a low dimensional representation

????讓Y={Y1，，YN}? $R^n$ 是一個(gè)低維（d<<n）表示X，使yi表示源數(shù)據(jù)點(diǎn)Xi。與我們要估計(jì)數(shù)據(jù)均勻分布的流形的源數(shù)據(jù)相比，我們知道Y的流形是 $R^d$ 。因此我們知道了流形和流形先驗(yàn)度量，并且可以直接計(jì)算模糊拓?fù)浔硎?。值得注意的是，我們?nèi)匀幌Ｍ鶕?jù)局部連通性要求合并到最近鄰的距離。它可以通過(guò)提供一個(gè)參數(shù)來(lái)定義嵌入空間中最近鄰居之間的期望距離來(lái)實(shí)現(xiàn)。

? ??給定x和Y的模糊單純形集表示，需要一種比較方法。如果我們只考慮模糊單純形集的 1-skeleton，我們就可以把它們描述成一個(gè)模糊圖，或者更具體地說(shuō)，一個(gè)模糊邊集。為了比較兩個(gè)模糊集，我們將使用模糊集交叉熵。為此，我們將回到經(jīng)典的模糊集表示法。由參考集A和隸屬度函數(shù)μ：A→[0,1]給出模糊集?？杀饶：哂邢嗤膮⒖技?。給定一層表示P，我們可以通過(guò)設(shè)置將其轉(zhuǎn)化為經(jīng)典模糊集A =Ua∈(0,1)P（[0，a）和μ（x）=sup{a∈（0,1]| x∈P（[0，a））}將其轉(zhuǎn)化為經(jīng)典模糊集。

Defnition 10:

信息熵的計(jì)算：

類似于t-SNE，我們可以利用隨機(jī)梯度下降來(lái)優(yōu)化嵌入Y相對(duì)于模糊集交叉熵C的性質(zhì)。然而，這需要一個(gè)可區(qū)分的模糊奇異集函子。如果點(diǎn)之間的期望最小距離為零，則模糊奇異集函子在這些情況下是可差分的，但是對(duì)于任何非零值，我們需要進(jìn)行可差分逼近（從合適的可差分函數(shù)族中選擇）。

????完成了該算法:利用流形逼近和局部模糊單純集表示相結(jié)合的方法，構(gòu)造了高維數(shù)據(jù)的拓?fù)浔硎?。然后，我們?cè)诘途S空間中優(yōu)化數(shù)據(jù)的布局，以最小化兩種拓?fù)浔硎局g的誤差。我們注意到，在這種情況下，我們限制了對(duì)模糊單形集的 1-skeleta的比較。我們可以通過(guò)定義成本函數(shù)C‘將其擴(kuò)展到?1-skeleta。

T-SNE的損失函數(shù)是通過(guò)KL散來(lái)進(jìn)行構(gòu)造的。

其中 $X_{i}$ 表示X的 i-simplices的模糊集， $\lambda _{i}$ 適當(dāng)選擇的實(shí)值權(quán)重。雖然這種方法可以更準(zhǔn)確地捕捉整體拓?fù)浣Y(jié)構(gòu)，但由于越來(lái)越多的高維單純形，其計(jì)算代價(jià)是不可忽略的。因此，目前的實(shí)現(xiàn)僅限于1-skeleton（?曲面的一組邊和頂點(diǎn)，例如，立方體的1骨架是連接角的12條邊的集合。）。

1-skeleton

3 A Computational View of UMAP

? ? 前面已經(jīng)對(duì)相關(guān)的概念進(jìn)行了理解，為了進(jìn)一步理解UMAP算法實(shí)際上是在進(jìn)行什么樣的計(jì)算UMAP論述是基于模糊單形集（ fuzzy simplicial sets）。在計(jì)算上實(shí)際可以描述為加權(quán)圖的一個(gè)骨架。從實(shí)際計(jì)算的角度來(lái)看，UMAP最終可以用加權(quán)圖的構(gòu)造和操作來(lái)描述。特別地，這將UMAP定位在一類基于k-鄰域的圖學(xué)習(xí)算法中，例如Laplacian特征映射、Isomap和t-SNE。UMAP可以分為兩個(gè)階段來(lái)描述。在第一階段，構(gòu)造了一個(gè)特定的加權(quán)k鄰域圖。在第二階段，計(jì)算該圖的低維布局。

3.1 Graph Construction（高維空間中）

圖的構(gòu)造基本過(guò)程：

UMAP第一個(gè)階段可以被認(rèn)為是加權(quán)k近鄰圖的構(gòu)造，X = {x1, . . . , xN} 為輸入的數(shù)據(jù)，具有度量（或不同度量）d:X×X→R≥0。給定一個(gè)輸入超參數(shù)k，K表示 $x_{i}$ 所具有的K個(gè)鄰居，在度量d計(jì)算每個(gè)數(shù)據(jù)點(diǎn) $x_{i}$ 的k近鄰，然后采用最近鄰下降算法。

3.2 Graph Layout(空間中）

UMAP在低維空間中使用了一種力導(dǎo)向圖布局算法（force directed graph layout algorithm ）。力導(dǎo)向圖布局利用沿邊施加的一組反作用力和頂點(diǎn)之間施加的一組斥力。任何力定向布局算法都需要描述引力作用力和斥力。算法通過(guò)在每個(gè)邊或頂點(diǎn)迭代施加引力和斥力來(lái)進(jìn)行。收斂性是通過(guò)緩慢降低反作用力和斥力來(lái)保證的，其方式與模擬退火中使用的方法類似。在UMAP中，坐標(biāo)yi和yj處的兩個(gè)頂點(diǎn)i和j之間的作用力分別由以下公式確定：

其中a和b是超參數(shù)。由于計(jì)算上的限制，斥力是通過(guò)采樣來(lái)計(jì)算的。當(dāng)一個(gè)引力作用于一條邊時(shí)，該邊的一個(gè)頂點(diǎn)會(huì)被其他頂點(diǎn)的采樣所排斥。斥力由

這個(gè)算法可以隨機(jī)初始化，但在實(shí)際應(yīng)用中，由于圖G的對(duì)稱Laplacian是流形的Laplace-Beltrami算子的離散逼近，我們可以使用譜布局來(lái)初始化嵌入。Tis在算法中提供了更快的收斂性和更大的穩(wěn)定性。

4 Implementation and Hyper-parameters

首先對(duì)實(shí)現(xiàn)的算法進(jìn)行更詳細(xì)的描述，最后討論了該算法的超參數(shù)及其實(shí)際效果。

4.1 Algorithm description

當(dāng)在局部模糊單形集上執(zhí)行一個(gè)模糊并集時(shí)，我們發(fā)現(xiàn)使用概率型t-conorm是最有效的(正如人們所期望的那樣，如果將隸屬?gòu)?qiáng)度視為單形存在的概率)。下面將更詳細(xì)地描述用于構(gòu)造局部模糊簡(jiǎn)單集、確定譜嵌入以及根據(jù)模糊集交叉熵優(yōu)化嵌入的各個(gè)函數(shù)。

算法2描述了局部模糊單純形集的構(gòu)造。為了表示模糊單純形集，我們使用[0]和[1]的模糊集圖像（即1-骨架），我們將其表示為fs-set0和fs-set1。我們也可以使用更高階的simplice，但當(dāng)前的實(shí)現(xiàn)不能。通過(guò)對(duì)n個(gè)最近鄰進(jìn)行fnite，在流形上生成適當(dāng)?shù)恼?guī)化距離，然后通過(guò)函子搜索將fnite度量空間轉(zhuǎn)化為一個(gè)簡(jiǎn)單集，在這種情況下，它轉(zhuǎn)化為負(fù)距離的指數(shù)。

我們不直接使用到第n近鄰的距離作為標(biāo)準(zhǔn)化，而是使用平滑版的knn距離，它將1-單純形模糊集的基數(shù)固定為固定值。為此，我們?cè)趯?shí)驗(yàn)的基礎(chǔ)上選擇了log2（n）。

構(gòu)造局部模糊單形集

譜嵌入初始化

特征向量：Eigenvectors

度矩陣（degree matrix）：度矩陣和拓?fù)鋵W(xué)相關(guān)，矩陣中只有main diagonal上有非零值，節(jié)點(diǎn)的度表示與該節(jié)點(diǎn)相連的邊的數(shù)量（如果自循環(huán)則算兩個(gè)），圖的度矩陣即用于描述圖中每個(gè)節(jié)點(diǎn)的度的矩陣，一般使用D表示。

UMAP的主要組成部分是通過(guò)最小化模糊集交叉熵來(lái)優(yōu)化嵌入。對(duì)于給定的隸屬函數(shù)μ和ν

我們采用基于抽樣的優(yōu)化方法。我們對(duì)概率為μ（a）的1-單形樣本進(jìn)行采樣，并根據(jù)處理術(shù)語(yǔ)μ（a）log（ν（a））的v（a）值進(jìn)行更新。這項(xiàng)（1-u（a））log（1-v（a））需要負(fù)采樣-而不是計(jì)算所有潛在的單形，我們隨機(jī)采樣潛在的1-單形，并假設(shè)它們是一個(gè)負(fù)示例（即成員強(qiáng)度為0），然后根據(jù)1-v（a）的值進(jìn)行更新。提供的頂點(diǎn)采樣（vertex sampling）分布：

因此，對(duì)于給定的 1-simplex a，它只剩下一個(gè)v（a）的可差分近似值，通過(guò)負(fù)采樣確定u（a）然后對(duì)v（a）應(yīng)用梯度下降法進(jìn)行優(yōu)化。具體如下：

Defnition 11：

優(yōu)化過(guò)程采用隨機(jī)梯度下降法，如算法5所示：

4.2 Implementation

????該算法的實(shí)際實(shí)現(xiàn)需要（近似）k近鄰計(jì)算和通過(guò)隨機(jī)梯度下降的有效優(yōu)化。利用文[16]中的近鄰下降算法，可以實(shí)現(xiàn)高效的近似k近鄰計(jì)算。降維技術(shù)中固有的誤差意味著這種近似對(duì)于這些目的來(lái)說(shuō)是足夠的。雖然沒(méi)有為最近鄰下降建立理論復(fù)雜度邊界，但原始論文的作者報(bào)告了經(jīng)驗(yàn)復(fù)雜度O（N1.14）。最近鄰法的另一個(gè)優(yōu)點(diǎn)是它的通用性；它適用于任何有效的相異度量，即使對(duì)于高維數(shù)據(jù)也是有效的。

? ??在所提供的目標(biāo)函數(shù)下優(yōu)化嵌入時(shí)，我們遵循了[45]的工作；利用概率邊緣采樣和負(fù)采樣。由于沒(méi)有規(guī)范化要求，它提供了一種非常有效的近似隨機(jī)梯度下降算法。此外，由于輸入數(shù)據(jù)的模糊圖表示的規(guī)范化拉普拉斯是流形，我們可以使用規(guī)范化Laplacian的特征向量為隨機(jī)梯度下降提供合適的初始化。所需的優(yōu)化工作量將隨模糊圖中的邊數(shù)（假設(shè)為fxed負(fù)采樣率）而縮放，從而導(dǎo)致復(fù)雜性為O（kN）。

4.3 Hyper-parameters

算法一中含有四個(gè)超參數(shù)，

1、n表示逼近局部度量時(shí)要考慮的鄰域數(shù)目

2、d表示目標(biāo)嵌入維數(shù)

3、min-dist,嵌入空間中閉合點(diǎn)之間的期望間隔。

4、n-epochs，優(yōu)化低維表示時(shí)要使用的訓(xùn)練階段數(shù)。

在圖1中，我們提供了為玩具數(shù)據(jù)集（toy dataset）更改超參數(shù)的效果示例。這個(gè)數(shù)據(jù)是來(lái)自三維彩色立方體的均勻隨機(jī)樣本，通過(guò)使用相應(yīng)的RGB顏色，可以方便地顯示嵌入空間中的原始三維坐標(biāo)。由于數(shù)據(jù)是三維立方體，因此沒(méi)有局部流形結(jié)構(gòu)，因此對(duì)于此類數(shù)據(jù)，我們希望更大的n值更有用。n比較小時(shí)會(huì)將隨機(jī)采樣的噪聲解釋為fne尺度流形結(jié)構(gòu)，產(chǎn)生潛在的雜散結(jié)構(gòu)。

圖1:UMAP超參數(shù)n和min dist的變化導(dǎo)致不同的嵌入。數(shù)據(jù)是來(lái)自三維彩色立方體的均勻隨機(jī)樣本，通過(guò)使用相應(yīng)的RGB顏色，可以方便地顯示嵌入空間中的原始三維坐標(biāo)。n的低值錯(cuò)誤地解釋了隨機(jī)采樣噪聲的結(jié)構(gòu)-有關(guān)此現(xiàn)象的進(jìn)一步討論，請(qǐng)參見(jiàn)第6節(jié)。

5 Practical Efficacy?

Pen digits：是一組1797個(gè)灰度數(shù)字圖像，使用數(shù)字輸入板輸入。每個(gè)圖像都是一個(gè)8x8圖像，我們將其視為一個(gè)64維向量，假設(shè)它在歐氏向量空間中。

COIL 20：是一組1440個(gè)灰度圖像，由20個(gè)對(duì)象組成，72個(gè)不同的旋轉(zhuǎn)范圍為360度。每個(gè)圖像是一個(gè)128x128圖像，我們將其作為一個(gè)16384維向量來(lái)計(jì)算圖像之間的距離。

COIL 100：是一組7200幅彩色圖像，由100個(gè)對(duì)象組成，在360度的72個(gè)不同旋轉(zhuǎn)。每個(gè)圖像由3個(gè)128x128強(qiáng)度矩陣組成（每個(gè)顏色通道一個(gè)）。為了計(jì)算圖像之間的距離，我們將其視為一個(gè)49152維向量。

Mouse scRNA-seq：提供了成年小鼠20921個(gè)細(xì)胞的基因表達(dá)數(shù)據(jù)。每個(gè)樣本由26774個(gè)測(cè)量向量組成

Statlog (Shuttle) ：是美國(guó)宇航局的一個(gè)數(shù)據(jù)集，包含與航天飛機(jī)中散熱器位置相關(guān)的各種數(shù)據(jù)，包括時(shí)間戳。Te數(shù)據(jù)集在9維特征空間中有58000個(gè)點(diǎn)。

MNIST：是一個(gè)28x28像素的手寫(xiě)數(shù)字灰度圖像集。Tere是10位數(shù)的類（0到9），總共有70000個(gè)圖像。Tis被視為70000個(gè)不同的784維向。

F-MNIST ：時(shí)尚MNIST是一個(gè)28x28像素的時(shí)尚物品（服裝、鞋類和箱包）灰度圖像的數(shù)據(jù)集。有10個(gè)類，共70000張圖片。與MNIST一樣，這被視為70000個(gè)不同的784維向量。

Flow cytometry：是一個(gè)流式細(xì)胞術(shù)測(cè)量CDT4細(xì)胞的數(shù)據(jù)集，由1000000個(gè)樣本組成，每個(gè)樣本有17個(gè)測(cè)量值。

GoogleNews word vectors ：是一個(gè)由300萬(wàn)個(gè)單詞和短語(yǔ)組成的數(shù)據(jù)集，這些單詞和短語(yǔ)來(lái)自Google新聞文檔的樣本，并通過(guò)word2vec嵌入到300維空間中

5.1多種算法的質(zhì)量比較

????t-SNE和LargeVis在數(shù)據(jù)定位和保存局部結(jié)構(gòu)方面都有顯著的改進(jìn)。通過(guò)比較它們的嵌入與Laplacian特征映射和PCA在2中生成的嵌入，可以定性地看到Tis。我們認(rèn)為，當(dāng)減小到二維或三維時(shí)，UMAP生產(chǎn)的埋件質(zhì)量與t-SNE相當(dāng)。例如，圖2顯示了COIL20、MNIST、Fashion、MNIST和Google News數(shù)據(jù)集的UMAP和t-SNE嵌入。當(dāng)精確的嵌入不同時(shí)，UMAP區(qū)分了與t-SNE和LargeVis相同的結(jié)構(gòu)。

????可以說(shuō)UMAP比t-SNE[4]捕獲了更多的數(shù)據(jù)集的全局和拓?fù)浣Y(jié)構(gòu)。COIL20數(shù)據(jù)集中的更多循環(huán)保持完整，包括交織的循環(huán)。類似地，MNIST digits數(shù)據(jù)集中不同數(shù)字之間的全局關(guān)系更清楚地被捕捉到，1（紅色）和0（深紅色）位于嵌入空間的遠(yuǎn)角，4,7,9（黃色、海綠和紫色）和3,5,8（橙色、綠色和藍(lán)色）被分離為不同的相似數(shù)字簇。在時(shí)尚MNIST數(shù)據(jù)集中，服裝（深紅色、黃色、橙色、朱紅色）和鞋類（黃綠色、海綠和紫色）之間的區(qū)別更加明顯。最后，當(dāng)t-SNE和UMAP都捕獲相似的詞向量組時(shí)，UMAP嵌入可以證明在不同的詞簇之間有更清晰的全局結(jié)構(gòu)。

5.2 Embedding Stability

圖2: 幾種降維算法的比較。我們注意到UMAP成功地反映了大量由拉普拉斯特征映射和主成分分析（尤其是MNIST和時(shí)尚MNIST）很好地表示的大規(guī)模全局結(jié)構(gòu)，同時(shí)也保留了類似于t-SNE和LargeVis的局部fne結(jié)構(gòu)。

? ? 為了比較UMAP、LargeVis和t-SNE（考慮的三維隨機(jī)降維技術(shù)）的次采樣下的穩(wěn)定性。從而度量嵌入的穩(wěn)定性，我們使用歸一化普洛克魯斯距離（Procustes distance：是兩個(gè)圖形或者兩個(gè)矩陣中地標(biāo)位置差異平方和的平方根。這可以用來(lái)描述許多地標(biāo)配置之間的差異）來(lái)度量?jī)蓚€(gè)潛在可比分布之間的距離。給定兩個(gè)數(shù)據(jù)集X={x1、、、xN}和Y={y1、、yN}，xi對(duì)應(yīng) yi。確定Y0={y10。，yN0}使平方誤差PNi=1(xi? yi）^2最小化的Y的最佳平移、均勻縮放和旋轉(zhuǎn)，定義為：

其值越小越好

由于在嵌入空間中使用距離的任何度量都可能對(duì)嵌入的范圍或規(guī)模敏感，因此我們?cè)谟?jì)算Procrustes距離之前先將數(shù)據(jù)標(biāo)準(zhǔn)化，然后除以嵌入數(shù)據(jù)集的平均范數(shù)。在圖3中，我們可視化了對(duì)UMAP和t-SNE的子樣本嵌入使用Procrustes對(duì)齊的結(jié)果，演示了Procrustes距離如何測(cè)量嵌入的整體結(jié)構(gòu)的穩(wěn)定性。給定不同嵌入之間距離的度量，我們可以通過(guò)考慮子樣本嵌入與整個(gè)數(shù)據(jù)集嵌入的相應(yīng)子樣本之間的規(guī)范化Procrustes距離來(lái)檢查子采樣下的穩(wěn)定性。隨著子樣本大小的增加，子樣本嵌入點(diǎn)之間的平均每點(diǎn)距離應(yīng)減小，在重復(fù)運(yùn)行

下可能朝著最大一致性的某個(gè)漸近線移動(dòng)。理想情況下，該漸近值為零誤差，但對(duì)于隨機(jī)嵌入，如UMAP和t-SNE，這是不可能實(shí)現(xiàn)的。我們使用流式細(xì)胞儀數(shù)據(jù)集對(duì)算法的穩(wěn)定性進(jìn)行了經(jīng)驗(yàn)比較，因?yàn)樗哂休^大的尺寸、有趣的結(jié)構(gòu)和較低的環(huán)境維度（有助于t-SNE的運(yùn)行時(shí)性能）。我們注意到，對(duì)于這么大的數(shù)據(jù)集，我們發(fā)現(xiàn)有必要將t-SNE的默認(rèn)n_iter值從1000增加到1500，以確保更好的收斂性。

基于Procrustes的10%子樣本（紅色）與用于UMAP和t-SNE的fow細(xì)胞術(shù)數(shù)據(jù)集的完整數(shù)據(jù)集（藍(lán)色）的對(duì)齊。

5.3 Computational Performance Comparisons

實(shí)驗(yàn)設(shè)備：

實(shí)世界數(shù)據(jù)集的基準(zhǔn)測(cè)試在Macbook Pro上執(zhí)行，Macbook Pro具有3.1 GHz的Intel Corei7和8GB的RAM（用于表1），在服務(wù)器上使用Intel XeonE5-2697v4處理器和512GB的RAM（用于5.3.1、5.3.2和5.3.3小節(jié)中的大規(guī)?；鶞?zhǔn)測(cè)試）。對(duì)于t-SNE，我們選擇了MulticoreTSNE[48]，我們認(rèn)為這是目前BarnesHut t-SNE最快的實(shí)現(xiàn)。

圖4：全流式細(xì)胞儀數(shù)據(jù)集中不同大小的子樣本上t-SNE、LargeVis和UMAP的平均每點(diǎn)程序距離的比較。UMAP子樣本嵌入非常接近完全嵌入，即使子樣本占整個(gè)數(shù)據(jù)集的5%，即使使用全流式細(xì)胞儀據(jù)集，其結(jié)果也優(yōu)于t-SNE和LargeVis。

5.3.1 Scaling with Embedding Dimension，

UMAP的整合性能遠(yuǎn)比t-SNE高效，即使是非常小的嵌入維數(shù)為6或8(參見(jiàn)圖5)。這主要是由于UMAP不需要全局規(guī)范化的事實(shí)。它允許算法在不需要空間樹(shù)的情況下工作，例如t-SNE使用的四叉樹(shù)和oct樹(shù)[49]。這種空間樹(shù)在維數(shù)上呈指數(shù)級(jí)縮放，導(dǎo)致t-SNE相對(duì)于嵌入維數(shù)的縮放效果相對(duì)較差。

表1：各種數(shù)據(jù)集上的幾種降維算法的運(yùn)行時(shí)間。允許更廣泛的算法運(yùn)行某些數(shù)據(jù)集，其中子采樣或其維數(shù)由PCA降低。流式細(xì)胞儀數(shù)據(jù)集以10%的樣本為基準(zhǔn)，GoogleNews被再抽樣到200000個(gè)數(shù)據(jù)點(diǎn)。最后，通過(guò)PCA將小鼠scRNA數(shù)據(jù)集降到1000維。每個(gè)數(shù)據(jù)集的最快運(yùn)行時(shí)間已加粗

相比之下，我們發(fā)現(xiàn)UMAP在嵌入維度上具有很好的一致性，使得該算法在可視化之外的更廣泛應(yīng)用中具有實(shí)用性，T-SNE對(duì)于維度過(guò)高或者過(guò)低的處效果都不好。

在筆數(shù)據(jù)集上UMAP、t-SNE和LargeVis的嵌入維數(shù)方面的縮放性能。

5.3.2 Scaling with Ambient Dimension

通過(guò)結(jié)合本地連接性約束和近似近鄰搜索，UMAP甚至可以對(duì)非常高維的數(shù)據(jù)執(zhí)行有效的降維（關(guān)于直接在180萬(wàn)維數(shù)據(jù)上操作UMAP的示例，請(qǐng)參見(jiàn)圖9）。tis許多其他流形學(xué)習(xí)技術(shù)（包括t-SNE和LargeVis）形成對(duì)比，對(duì)于這些技術(shù)，通常建議在應(yīng)用這些技術(shù)之前使用PCA來(lái)減小維數(shù)（例如，參見(jiàn)[50]）。為了比較相對(duì)于數(shù)據(jù)的環(huán)境維度的運(yùn)行時(shí)性能縮放，我們選擇使用高維度的鼠標(biāo)scRNA數(shù)據(jù)集，但也可以使用PCA來(lái)減少數(shù)據(jù)30的維度，作為預(yù)處理步驟，而不會(huì)丟失太多重要結(jié)構(gòu)3。在圖6中，我們比較了UMAP、FItSNE、MulticoreTSNE和LargeVis在將小鼠scRNA數(shù)據(jù)集的PCA還原為不同維度上的性能，以及在原始數(shù)據(jù)集上的性能。

5.3.3 Scaling with the Number of Samples

對(duì)于數(shù)據(jù)集大小性能比較，我們選擇將UMAP與FItSNE進(jìn)行比較，F(xiàn)ItSNE[30]是t-SNE的一個(gè)版本，它使用近似近鄰搜索和傅立葉插值優(yōu)化方法；MulticoreTSNE[48]，我們認(rèn)為它是Barnes?Hut t t-SNE現(xiàn)存最快的實(shí)現(xiàn)；

圖6:UMAP、t-SNE、FIt-SNE和Largevis相對(duì)于數(shù)據(jù)環(huán)境維度的運(yùn)行時(shí)性能縮放。當(dāng)環(huán)境維數(shù)增加到幾千維以上時(shí)，t-SNE、FIt-SNE和LargeVis的計(jì)算成本都會(huì)急劇增加，而UMAP在成千上萬(wàn)維中的表現(xiàn)仍然很好。

圖7:t-SNE和UMAP在整個(gè)Google新聞數(shù)據(jù)集的不同大小的子樣本上的運(yùn)行時(shí)性能縮放。Te lower t-SNE line是8核多核t-SNE的掛鐘運(yùn)行時(shí)間。

圖8:UMAP嵌入的GoogleNews數(shù)據(jù)集的300萬(wàn)字矢量的可視化。

UMAP允許生成任意大的、超高維的數(shù)據(jù)集，這些數(shù)據(jù)集仍然具有需要探索的有意義的結(jié)構(gòu)。在圖9和圖10中，我們顯示了從大約180萬(wàn)維的環(huán)境空間嵌入30000000個(gè)數(shù)據(jù)樣本。在一個(gè)大內(nèi)存SMP上，Tis計(jì)算大約需要2周。注意，盡管環(huán)境維度高，數(shù)據(jù)量大，UMAP仍然能夠fnd并顯示有趣的結(jié)構(gòu)。在圖11中，我們展示了嵌入的局部區(qū)域，展示了捕捉到的細(xì)節(jié)結(jié)構(gòu)。

6 Weaknesses

1、UMAP缺乏主成分分析（PCA）和非負(fù)矩陣分解（NMF）等相關(guān)技術(shù)的強(qiáng)大解釋能力（strong interpretability）。由于UMAP是基于觀測(cè)值之間的距離而不是源特征（ source features），因此它不具有PCA或因子分析等線性技術(shù)所能提供的等效因子載荷。如果很強(qiáng)的可解釋性是至關(guān)重要的，建議使用線性技術(shù)。

2、隨著采樣的數(shù)據(jù)越多，從噪聲中明顯可見(jiàn)的結(jié)構(gòu)數(shù)量將趨于減少，UMAP變得更加健壯，但是必須注意小樣本的噪聲數(shù)據(jù)，或僅具有大尺度流形結(jié)構(gòu)的數(shù)據(jù)（小噪聲的數(shù)據(jù)的噪音影響較大。

3、UMAP主要關(guān)注的是準(zhǔn)確地表示局部結(jié)構(gòu)。雖然我們相信UMAP可以捕獲比這些其他技術(shù)更多的全局結(jié)構(gòu)，但如果全局結(jié)構(gòu)是主要關(guān)注點(diǎn)，那么UMAP可能不是降維的最佳選擇。

4、為了提高算法的計(jì)算效率，進(jìn)行了一些近似計(jì)算（k近鄰算法，以及在優(yōu)化中使用負(fù)采樣，會(huì)導(dǎo)致次優(yōu)嵌入:suboptimal embeddings），對(duì)于小于500維的數(shù)據(jù)集將會(huì)產(chǎn)生影響.

7 Future Work

1、可以擴(kuò)展到支持（半監(jiān)督）降維和異構(gòu)數(shù)據(jù)集降維。每種數(shù)據(jù)類型（或監(jiān)督情況下的預(yù)測(cè)變量）可以被視為底層結(jié)構(gòu)的替代視圖，每種類型都有不同的關(guān)聯(lián)度量

2、每個(gè)視圖和度量都可以獨(dú)立地生成模糊簡(jiǎn)單集，然后將模糊簡(jiǎn)單集交叉在一起，創(chuàng)建一個(gè)用于嵌入的模糊簡(jiǎn)單集。

3、擴(kuò)展UMAP以處理混合數(shù)據(jù)類型將極大地增加它可以應(yīng)用到的數(shù)據(jù)集的范圍。用于（半監(jiān)督）降維的用例包括半監(jiān)督聚類和交互式標(biāo)記工具。為UMAP建立的Te計(jì)算框架允許潛在的技術(shù)發(fā)展，將新的不可見(jiàn)數(shù)據(jù)點(diǎn)添加到現(xiàn)有的嵌入中，并生成嵌入空間中任意點(diǎn)的高維表示。

4、將新樣本添加到現(xiàn)有嵌入將允許UMAP用作特征工程工具，作為集群或分類任務(wù)的通用機(jī)器學(xué)習(xí)管道的一部分。將點(diǎn)從嵌入的空間拉回到原始的高維空間，可以使UMAP用作生成模型，類似于自動(dòng)編碼器的一些用例。

5、在開(kāi)發(fā)技術(shù)以檢測(cè)和減輕潛在的虛假嵌入方面仍然有著重要的作用，特別是在小數(shù)據(jù)情況下。這種技術(shù)的加入將使UMAP作為探索性數(shù)據(jù)分析的工具變得更加健壯，這是為了可視化而減少到二維時(shí)的常見(jiàn)用例

8 Conclusions

UMAP降維算法明顯快于t-SNE算法，并且提供了更好的尺度。它允許我們生成比以前無(wú)法實(shí)現(xiàn)的更大數(shù)據(jù)集的高質(zhì)量嵌入。UMAP在各種科學(xué)領(lǐng)域的應(yīng)用和有效性證明了算法的強(qiáng)大性。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文筆記：UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction