GLOM

How?to?represent?part-whole?hierarchies?in a?neural?network

Hinton44頁的長文-GLOM分析

https://zhuanlan.zhihu.com/p/365735990

arXiv:2102.12627?[pdf,?other]

Authors:?Geoffrey Hinton

本文不描述工作系統(tǒng)。取而代之的是,它提出了一個(gè)關(guān)于表征的單一想法,允許幾個(gè)不同群體的進(jìn)步結(jié)合成一個(gè)稱為GLOM的想象系統(tǒng)。這些進(jìn)步包括Transformers、神經(jīng)領(lǐng)域、對(duì)比表征學(xué)習(xí)、蒸餾和膠囊。GLOM回答了這樣一個(gè)問題:一個(gè)具有固定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)如何將一幅圖像解析為一個(gè)局部-整體層次結(jié)構(gòu),而該層次結(jié)構(gòu)對(duì)每幅圖像都有不同的結(jié)構(gòu)?其思想是簡(jiǎn)單地使用相同向量的孤島來表示解析樹中的節(jié)點(diǎn)。如果GLOM能夠發(fā)揮作用,當(dāng)應(yīng)用于視覺或語言時(shí),它將顯著提高Transformers式系統(tǒng)產(chǎn)生的表示的可解釋性

1.想法概述

有強(qiáng)有力的心理學(xué)證據(jù)表明,人們將視覺場(chǎng)景解析為部分-整體層次結(jié)構(gòu),并將部分和整體之間視點(diǎn)不變的空間關(guān)系建模為他們指定給部分和整體的內(nèi)在坐標(biāo)系之間的坐標(biāo)變換[Hinton,1979]。如果我們想讓神經(jīng)網(wǎng)絡(luò)以與人類相同的方式理解圖像,我們需要弄清楚神經(jīng)網(wǎng)絡(luò)如何代表部分-整體層次結(jié)構(gòu)。這很困難,因?yàn)檎嬲纳窠?jīng)網(wǎng)絡(luò)無法動(dòng)態(tài)分配一組神經(jīng)元來表示解析樹2中的一個(gè)節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)無法動(dòng)態(tài)分配神經(jīng)元是使用“膠囊”的一系列模型的動(dòng)機(jī)[Sabour等人,2017年,Hinton等人,2018年,Kosiorek等人,2019年]。這些模型假設(shè)一組稱為膠囊的神經(jīng)元將永久性地用于圖像特定區(qū)域中發(fā)生的特定類型的一部分。然后,可以通過激活這些預(yù)先存在的特定于類型的膠囊的子集以及它們之間的適當(dāng)連接來創(chuàng)建解析樹。本文描述了一種非常不同的方法,使用膠囊來表示神經(jīng)網(wǎng)絡(luò)中的部分-整體層次結(jié)構(gòu)。

盡管本文主要關(guān)注單個(gè)靜態(tài)圖像的感知,但GLOM最容易理解為處理幀序列的管道,因此靜態(tài)圖像將被視為相同幀序列。

GLOM架構(gòu)由大量列4組成,這些列使用完全相同的權(quán)重。每一列都是一組空間局部自動(dòng)編碼器,用于學(xué)習(xí)小圖像塊中發(fā)生的事情的多個(gè)表示級(jí)別。每個(gè)自動(dòng)編碼器使用多層自下而上編碼器和多層自上而下解碼器將一個(gè)級(jí)別的嵌入轉(zhuǎn)換為相鄰級(jí)別的嵌入。這些級(jí)別對(duì)應(yīng)于部分-整體層次結(jié)構(gòu)中的級(jí)別。例如,當(dāng)顯示人臉圖像時(shí),單個(gè)列可能會(huì)聚在表示鼻孔、鼻子、人臉和人的嵌入向量5上。圖1顯示了不同級(jí)別的嵌入如何在單個(gè)列中交互。

圖1沒有顯示不同列中相同級(jí)別的嵌入之間的交互。它們比列中的交互簡(jiǎn)單得多,因?yàn)樗鼈儾恍枰獙?shí)現(xiàn)部分-整體坐標(biāo)變換。它們就像多頭Transformers中表示不同單詞片段的列之間的注意力加權(quán)交互[Devlin等人,2018],但它們更簡(jiǎn)單,因?yàn)椴樵儭㈡I和值向量都與嵌入向量相同。柱間相互作用的作用是通過使該級(jí)別的每個(gè)嵌入向量回歸到附近位置的其他類似向量,在該級(jí)別生成相同嵌入的孤島。這創(chuàng)建了多個(gè)局部“回音室”,其中某一級(jí)別的嵌入主要關(guān)注其他志同道合的嵌入。

在每個(gè)離散時(shí)間和每個(gè)列中,一個(gè)級(jí)別的嵌入更新為四個(gè)貢獻(xiàn)的加權(quán)平均值:

1.由自底向上的神經(jīng)網(wǎng)絡(luò)在上一次作用于下一級(jí)的嵌入所產(chǎn)生的預(yù)測(cè)。

2.由自頂向下的神經(jīng)網(wǎng)絡(luò)在上一時(shí)刻作用于上一層次的嵌入所產(chǎn)生的預(yù)測(cè)。

3.上一時(shí)間步的嵌入向量。

4.上一次相鄰柱中同一水平嵌入的注意加權(quán)平均值。

對(duì)于靜態(tài)圖像,某一級(jí)別的嵌入應(yīng)該隨著時(shí)間的推移而穩(wěn)定下來,以產(chǎn)生幾乎相同向量的不同孤島。如圖2所示,這些島嶼在更高的層次上應(yīng)該更大。使用相似性孤島來表示圖像的解析,避免了動(dòng)態(tài)分配神經(jīng)元組來表示解析樹的節(jié)點(diǎn),或者預(yù)先為所有可能的節(jié)點(diǎn)留出神經(jīng)元組。GLOM沒有分配神經(jīng)硬件來表示解析樹中的節(jié)點(diǎn),并將節(jié)點(diǎn)指針提供給其祖先和后代,而是分配適當(dāng)?shù)幕顒?dòng)向量來表示節(jié)點(diǎn),并對(duì)屬于節(jié)點(diǎn)6的所有位置使用相同的活動(dòng)向量。訪問節(jié)點(diǎn)的祖先和后代的能力是通過自底向上和自頂向下的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的,而不是通過使用RAM進(jìn)行表查找。

與BERT[Devlin et al.,2018]一樣,整體系統(tǒng)可以從頭到尾進(jìn)行訓(xùn)練,以便在最后一個(gè)時(shí)間步從缺少區(qū)域的輸入圖像重建圖像,但目標(biāo)函數(shù)還包括兩個(gè)正則化器,它們鼓勵(lì)在每個(gè)級(jí)別上形成近似相同向量的孤島。正則化器只是在某個(gè)級(jí)別上的新嵌入與自底向上和自頂向下預(yù)測(cè)之間的一致性。增加這一協(xié)議有助于當(dāng)?shù)貚u嶼的形成。

2導(dǎo)言

本文提出了使用相似向量的孤島來表示圖像的解析樹的想法,然后通過描述一個(gè)稱為GLOM的虛擬系統(tǒng)來探索這種想法的一些分支。文章最后對(duì)大腦如何實(shí)現(xiàn)GLOM的某些方面進(jìn)行了一些推測(cè)。但首先是一些免責(zé)聲明:

免責(zé)聲明1:

人類視覺是一個(gè)采樣過程,在此過程中,智能選擇的固定點(diǎn)用于獲取執(zhí)行任務(wù)所需的信息,使用固定點(diǎn)周圍分辨率更高的視網(wǎng)膜。相同的神經(jīng)回路在每次新固定中重復(fù)使用。出于本文的目的,我假設(shè)一個(gè)單一的視網(wǎng)膜或照相機(jī)具有統(tǒng)一的分辨率,并且只考慮第一次固定發(fā)生的情況。

免責(zé)聲明2:

為了避免像“子部件”這樣繁瑣的術(shù)語,我將經(jīng)常談?wù)摬考驼w,就好像在部件-整體層次結(jié)構(gòu)中只有兩個(gè)級(jí)別一樣。但當(dāng)考慮L-1和L時(shí),完整嵌入向量的一部分稱為整體,當(dāng)考慮L和L+1時(shí),該部分也稱為部分。

在具有通用隨機(jī)存取內(nèi)存的計(jì)算機(jī)中,表示特定圖像的部分-整體層次結(jié)構(gòu)的明顯方法是,通過動(dòng)態(tài)地將內(nèi)存塊分配給圖形中的節(jié)點(diǎn),并為每個(gè)節(jié)點(diǎn)指向其連接的節(jié)點(diǎn),為該特定圖像創(chuàng)建圖形結(jié)構(gòu)。將這種動(dòng)態(tài)創(chuàng)建的圖形與神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)相結(jié)合最近顯示出巨大的前景[Bear等人,2020],但是如果整體計(jì)算機(jī)是一個(gè)神經(jīng)網(wǎng)絡(luò),如果我們希望所有圖像的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)都相同,那么如何表示每個(gè)圖像不同的部分-整體層次結(jié)構(gòu)就不那么明顯了。如果我們?cè)试S一個(gè)神經(jīng)元的活動(dòng)控制另兩個(gè)神經(jīng)元之間的連接的三向交互[Hinton,1981c],很容易使連接動(dòng)態(tài)化,但仍不清楚如何動(dòng)態(tài)創(chuàng)建圖形結(jié)構(gòu),而不具備動(dòng)態(tài)分配神經(jīng)元的能力。這在實(shí)際的神經(jīng)網(wǎng)絡(luò)中尤其困難,因?yàn)橹R(shí)位于連接權(quán)重中,不容易復(fù)制。

這個(gè)問題的一個(gè)相當(dāng)麻煩的解決方案是為圖像7的每個(gè)區(qū)域中的每種可能類型的對(duì)象或部分留出一組稱為膠囊的神經(jīng)元,并使用路由算法將活動(dòng)膠囊的一小部分動(dòng)態(tài)連接到表示手頭圖像解析的圖中。膠囊內(nèi)神經(jīng)元的活動(dòng)可以表示某個(gè)部位的特性,如特定嘴或臉的姿勢(shì)或變形。

經(jīng)過大量努力,使用膠囊的模型在小數(shù)據(jù)集的監(jiān)督和非監(jiān)督學(xué)習(xí)方面取得了一些成功[Sabour等人,2017年,Hinton等人,2018年,Kosiorek等人,2019年],但它們沒有很好地?cái)U(kuò)展到更大的數(shù)據(jù)集[Barham和Isard,2019年]。太空艙沒有真正實(shí)用的想法,比如隨機(jī)梯度下降或只是想工作的Transformers。膠囊的基本缺點(diǎn)是它們使用一種混合物來模擬一組可能的部件。這就迫使人們做出一個(gè)艱難的決定,即汽車前照燈和眼睛是否真的是不同的部分。如果它們是由同一個(gè)膠囊模擬的,那么膠囊無法預(yù)測(cè)整體的特性。如果它們是由不同的膠囊模擬的,那么它們與整體的關(guān)系中的相似性就無法捕捉到。

避免使用混合物對(duì)不同類型的部分進(jìn)行建模的一種方法是使用一組相同的“通用”膠囊,其中每個(gè)膠囊都包含足夠的知識(shí)來對(duì)任何類型的部分進(jìn)行建模[Locatello等人,2020年,Srivastava等人,2019年,Sun等人,2020b]。這允許部分標(biāo)識(shí)具有分布式表示,從而允許相似部分之間更好地共享知識(shí)。在神經(jīng)科學(xué)術(shù)語中,身份是值編碼而不是位置編碼。但是,在決定每個(gè)部分應(yīng)該路由到哪個(gè)通用對(duì)象級(jí)別膠囊時(shí),它會(huì)產(chǎn)生對(duì)稱性破壞問題

. ?

通用膠囊的一個(gè)更激進(jìn)的版本,它避免了對(duì)稱性破壞和路由,是為圖像中的每個(gè)位置預(yù)先分配一個(gè)通用膠囊。這些無處不在的通用膠囊可以用來代表在那個(gè)位置發(fā)生的任何事情。一個(gè)更為奢侈的版本是為每個(gè)位置提供幾個(gè)不同級(jí)別的無處不在的通用膠囊,這樣一個(gè)位置就可以同時(shí)屬于一個(gè)場(chǎng)景、一個(gè)對(duì)象、一個(gè)部分和一個(gè)子部分。本文探討了這種表示部分-整體層次結(jié)構(gòu)的揮霍方式。它的靈感來源于生物學(xué)類比、數(shù)學(xué)類比和最近關(guān)于神經(jīng)場(chǎng)景表示的研究[Ha,2016,Sitzmann等人,2019]。

2.1生物學(xué)類比

人體內(nèi)的所有細(xì)胞都有整體基因組的拷貝。對(duì)于腦細(xì)胞來說,包含肝細(xì)胞行為的指令似乎是浪費(fèi),但它很方便,因?yàn)樗屆總€(gè)細(xì)胞都有自己的私人途徑來獲取它可能選擇表達(dá)的任何DNA。每個(gè)細(xì)胞對(duì)于每個(gè)基因都有一個(gè)表達(dá)強(qiáng)度9,對(duì)于構(gòu)成同一器官一部分的細(xì)胞,表達(dá)強(qiáng)度的載體是相似的。

與神經(jīng)網(wǎng)絡(luò)的類比是這樣的:圖像中的每個(gè)位置對(duì)應(yīng)一個(gè)生物細(xì)胞。一個(gè)位置的完整嵌入載體類似于細(xì)胞的基因表達(dá)強(qiáng)度載體。前向傳遞類似于發(fā)育過程,允許新的基因表達(dá)強(qiáng)度載體由先前的表達(dá)強(qiáng)度載體決定。對(duì)象就像器官:它們是一組位置的集合,其嵌入向量在較高級(jí)別上都非常相似。在一個(gè)對(duì)象中,嵌入向量可能在對(duì)應(yīng)于對(duì)象部分的較低級(jí)別上有所不同(見圖2)。

2.2數(shù)學(xué)類比

Kolmogorov-Arnold疊加定理指出,每個(gè)多元連續(xù)函數(shù)都可以表示為一元連續(xù)函數(shù)的疊加10。例如,乘法可以表示為各個(gè)參數(shù)的日志之和,后跟冪運(yùn)算。在機(jī)器學(xué)習(xí)術(shù)語中,當(dāng)涉及到多參數(shù)函數(shù)時(shí),加法就是您所需要的。當(dāng)然,這假設(shè)您可以找到正確的單參數(shù)函數(shù)來編碼要表示的多元函數(shù)的參數(shù),然后找到正確的函數(shù)來解碼和。Kolmogorov證明了這一點(diǎn),但用于證明的編碼器函數(shù)非常奇怪,與神經(jīng)網(wǎng)絡(luò)沒有實(shí)際關(guān)聯(lián)。

然而,該定理確實(shí)提出了一種有趣的方法來組合來自許多不同位置的信息。也許我們可以學(xué)習(xí)如何在每個(gè)位置編碼信息,這樣簡(jiǎn)單地平均不同位置的編碼是我們需要的唯一交互形式11。這一思想已經(jīng)在集合變換器中使用[Lee等人,2019],用于組合來自集合不同成員的信息。如果我們稍微修改這個(gè)建議,使用注意加權(quán)局部平均值,我們會(huì)得到一個(gè)特別簡(jiǎn)單的Transformers形式,其中鍵、查詢和值都與嵌入本身相同,位置之間的唯一交互是每個(gè)級(jí)別的注意加權(quán)平滑。所有的自適應(yīng)都發(fā)生在每個(gè)位置的自下而上和自上而下的神經(jīng)網(wǎng)絡(luò)中,如圖1中的藍(lán)色和紅色箭頭所示。這些網(wǎng)絡(luò)在所有位置和所有時(shí)間步長上共享,但可能不在部分-整體層次結(jié)構(gòu)的所有級(jí)別上共享。

2.3神經(jīng)領(lǐng)域

假設(shè)我們想要表示圖像中每個(gè)點(diǎn)的標(biāo)量變量的值,例如深度或強(qiáng)度。一種簡(jiǎn)單的方法是將圖像位置量化為像素,并使用一個(gè)數(shù)組指定每個(gè)像素處的標(biāo)量變量。如果不同像素的值相關(guān),則使用將表示圖像的碼向量作為輸入并輸出像素值數(shù)組的神經(jīng)網(wǎng)絡(luò)可能更有效。這就是自動(dòng)編碼器的解碼器所做的?;蛘撸覀兛梢允褂靡粋€(gè)神經(jīng)網(wǎng)絡(luò),將表示圖像的代碼向量加上表示圖像位置的附加輸入作為輸入,并在該位置輸出預(yù)測(cè)值。這被稱為神經(jīng)場(chǎng)12,這種使用神經(jīng)網(wǎng)絡(luò)的方法最近非常流行[Ha,2016,Sitzmann等人,2020,Mildenhall等人,2020]。圖3顯示了一個(gè)非常簡(jiǎn)單的示例,其中一組位置的強(qiáng)度都可以從相同的代碼重建,即使強(qiáng)度不同。

對(duì)于復(fù)雜的圖像,神經(jīng)網(wǎng)絡(luò)可以將表示整體圖像的代碼向量加上表示圖像位置的向量轉(zhuǎn)換為該位置的值。但是,如果圖像是由熟悉的對(duì)象組成的,而對(duì)象是由熟悉的部分組成的,那么使用神經(jīng)場(chǎng)的層次結(jié)構(gòu)13會(huì)更有效。在GLOM中,場(chǎng)景級(jí)自上而下的神經(jīng)網(wǎng)絡(luò)將場(chǎng)景向量加上圖像位置轉(zhuǎn)換為該位置的適當(dāng)對(duì)象向量。該向量包含有關(guān)對(duì)象相對(duì)于攝影機(jī)的三維姿勢(shì)的信息。屬于同一對(duì)象的所有位置都被賦予完全相同的對(duì)象級(jí)別向量。然后,對(duì)象級(jí)自上而下神經(jīng)網(wǎng)絡(luò)將對(duì)象向量加上位置轉(zhuǎn)換為適合該位置的部分向量,依此類推。例如,作用于完全相同的人臉向量的完全相同的自頂向下網(wǎng)絡(luò)能夠預(yù)測(cè)某些位置的鼻子向量和其他位置的嘴向量。

2.4部分-整體層次結(jié)構(gòu)的明確與緊急表示

在部分-整體層次結(jié)構(gòu)的符號(hào)AI表示中,每個(gè)節(jié)點(diǎn)都有一個(gè)唯一的符號(hào)或內(nèi)存地址,并且該符號(hào)或地址與內(nèi)容具有任意關(guān)系。在GLOM中,特定級(jí)別上的嵌入向量由該級(jí)別上孤島中的所有位置共享,其作用與圖中節(jié)點(diǎn)的地址相同,但該向量不是任意的。自頂向下的神經(jīng)網(wǎng)絡(luò)必須從L+1級(jí)對(duì)象的嵌入向量預(yù)測(cè)L級(jí)部分的嵌入向量。這涉及到使用相對(duì)于在L+1級(jí)別編碼的相機(jī)的姿勢(shì)和圖像位置的表示來計(jì)算位置在對(duì)象固有坐標(biāo)系內(nèi)的位置。這將確定該位置所屬的L級(jí)部分。

使用地址總線跟蹤指向已知對(duì)象的一部分表示的指針和使用自頂向下的神經(jīng)網(wǎng)絡(luò)計(jì)算部分向量之間有一個(gè)非常重要的區(qū)別。與表格查找不同,自頂向下的神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)處理部分之間對(duì)稱的形狀要容易得多。復(fù)制的部分,例如蜈蚣的腿,給神經(jīng)網(wǎng)絡(luò)增加的復(fù)雜性很小,即使腿沿著蜈蚣的方向變化,只要它們以可預(yù)測(cè)的方式變化,這一點(diǎn)仍然是正確的。與對(duì)象固有坐標(biāo)系對(duì)齊的雙邊對(duì)稱性將自頂向下神經(jīng)網(wǎng)絡(luò)所需的容量減少了近兩倍。

然而,對(duì)于神經(jīng)網(wǎng)絡(luò)來說,利用與坐標(biāo)系14不一致的對(duì)稱性要困難得多,而且人們通常不知道這種對(duì)稱性。例如,大多數(shù)人完全不知道立方體的三重旋轉(zhuǎn)對(duì)稱性,盡管其名稱如此,直到他們被迫使用穿過立方體中心的對(duì)角線作為其固有的上下軸[Hinton,1979]。然后,他們不再注意立方體中的任何直角,因?yàn)檫@些角度不再與新的內(nèi)在坐標(biāo)系對(duì)齊

. ?

3.一些設(shè)計(jì)決策

本節(jié)討論了在指定GLOM架構(gòu)時(shí)需要做出的一些決策。

3.1有多少個(gè)級(jí)別?

GLOM假定部分-整體層次結(jié)構(gòu)具有固定的深度。人們可以處理非常深層的層次結(jié)構(gòu),即頂部有恒星,底部有原子核。處理如此巨大范圍的方法是在世界實(shí)體和GLOM級(jí)別之間建立靈活的映射[Hinton,1990]。這使得同樣的神經(jīng)元可以在一個(gè)時(shí)間用于恒星,在另一個(gè)時(shí)間用于原子核,這有助于在太陽系和原子等不同尺度的結(jié)構(gòu)之間進(jìn)行類比。神經(jīng)硬件的遞歸重復(fù)使用引發(fā)了許多關(guān)于臨時(shí)存儲(chǔ)和控制流的有趣問題[Ba等人,2016年],這些問題將在這里稍縱即逝地討論。

合理數(shù)量的嵌入級(jí)別大約為5。這允許瞳孔和眼睛的白色成為場(chǎng)景中最低級(jí)別的子部分,該場(chǎng)景由對(duì)象組成,對(duì)象是人,部分是臉,子部分是眼睛。如果需要更精細(xì)的細(xì)節(jié),如虹膜的放大,人們可能需要將世界重新映射到硬件上,以便(例如)面部成為場(chǎng)景。

一個(gè)有趣的問題是,自下而上和自上而下的神經(jīng)網(wǎng)絡(luò)是否可以跨層次和跨位置共享。這不適用于較低級(jí)別的語言處理,不同級(jí)別的實(shí)體,如音素或單詞,具有非常不同的屬性,但視覺更具分形??缂?jí)別共享的一大優(yōu)勢(shì)是,當(dāng)特定面位于對(duì)象級(jí)別時(shí),用于該面的向量表示將被迫與其位于部分級(jí)別時(shí)的表示保持一致。這將使得通過簡(jiǎn)單地向上或向下復(fù)制幾個(gè)級(jí)別的所有向量,將視覺世界重新映射到硬件上變得更加容易。在使用眼睛的精細(xì)細(xì)節(jié)提取眼睛在對(duì)象層級(jí)時(shí)的高度知情的向量表示后,該向量可用于在子部分層級(jí)時(shí)表示眼睛。

3.2位置的粒度有多細(xì)?

位置可以像像素一樣精細(xì),也可以對(duì)應(yīng)更大的圖像塊[Dosovitskiy等人,2020]。為了避免在解釋本文的基本思想時(shí)增加復(fù)雜性,我將假設(shè)位置網(wǎng)格在所有級(jí)別上都保持不變,但這可能不是最佳選擇。

粒度可能在不同的嵌入級(jí)別發(fā)生變化。如果部分-整體層次結(jié)構(gòu)中的較高級(jí)別使用較大的步長,則自上而下的神經(jīng)網(wǎng)絡(luò)將需要為屬于一個(gè)較高級(jí)別位置的多個(gè)較低級(jí)別位置輸出多個(gè)不同的預(yù)測(cè)。類似地,自底向上的神經(jīng)網(wǎng)絡(luò)將需要查看所有在下一級(jí)合并的較低級(jí)別位置。

一種方便的方法是,在對(duì)大空間環(huán)境敏感的同時(shí),也能夠看到細(xì)微的細(xì)節(jié),即使用多個(gè)不同空間分辨率的圖像,所有這些圖像都具有相同數(shù)量的像素。最粗糙的圖像傳達(dá)了一個(gè)大的空間背景,但缺乏精細(xì)的細(xì)節(jié),而最精細(xì)的圖像傳達(dá)了精細(xì)的細(xì)節(jié),但僅適用于一個(gè)小區(qū)域。如果視覺輸入以這種方式被構(gòu)造成多個(gè)圖像,那么讓外圍位置覆蓋更大的區(qū)域是有意義的,但本文將忽略這個(gè)問題,因?yàn)檫@會(huì)使一切變得更加復(fù)雜。

3.3自下而上的網(wǎng)絡(luò)是否查看附近的位置?

即使不同級(jí)別的粒度保持不變,自底向上的神經(jīng)網(wǎng)絡(luò)也可以查看附近位置的嵌入向量。這是一個(gè)不太純粹的GLOM版本,它允許位置之間的交互比平均更復(fù)雜。純自底向上的路徑類似于卷積神經(jīng)網(wǎng)絡(luò),但下一級(jí)的預(yù)測(cè)是由多層神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的,其實(shí)現(xiàn)的功能遠(yuǎn)比矩陣乘法后的標(biāo)量非線性復(fù)雜得多。

允許自底向上網(wǎng)絡(luò)查看其他位置的缺點(diǎn)是,在部分級(jí)別具有相同表示的兩個(gè)位置可能具有不同的空間上下文。然后,我們將失去GLOM純版本的一個(gè)非常好的特性:在部分級(jí)別具有相同表示的位置在對(duì)象級(jí)別做出完全相同的自底向上預(yù)測(cè)。

通過查看其他位置,自下而上的網(wǎng)絡(luò)可以在預(yù)測(cè)下一級(jí)別的分布之前減少不確定性,這似乎是一件好事。但是,當(dāng)注意力加權(quán)平滑將來自一個(gè)位置的不確定自底向上預(yù)測(cè)與來自附近位置的不確定自底向上預(yù)測(cè)相結(jié)合時(shí),在進(jìn)行預(yù)測(cè)之后,不確定性應(yīng)該有可能得到類似的降低。當(dāng)然,這假設(shè)自底向上的網(wǎng)絡(luò)可以表示其預(yù)測(cè)中的不確定性,并且不同位置的不確定性可以通過注意加權(quán)平滑正確組合。第9節(jié)討論了這個(gè)問題。

3.4注意力是如何工作的?

位置x處L層嵌入更新的貢獻(xiàn)因素之一是上一時(shí)間步附近位置處L層嵌入的注意力加權(quán)平均值。GLOM假設(shè)注意權(quán)重的最簡(jiǎn)單形式,其中位置x給予位置y處嵌入的權(quán)重wxy由下式給出

哪里是兩個(gè)嵌入向量的標(biāo)量積,z為位置x在L級(jí)所關(guān)注的所有位置編制索引,β是一個(gè)“逆溫度”參數(shù),它決定了注意力的銳度。隨著GLOM對(duì)圖像的穩(wěn)定解釋,β可能增加。注意力在GLOM中的作用方式已經(jīng)成功地應(yīng)用于一個(gè)名為“ACNe”的系統(tǒng)中【Sun等人,2020a】。

關(guān)于使用馬爾可夫隨機(jī)場(chǎng)進(jìn)行圖像分割的開創(chuàng)性工作[Geman和Geman,1984]利用像素x和像素y之間存在的邊界來防止x影響y。邊界不僅僅是x和y之間的強(qiáng)度差,因?yàn)樗拇嬖谌Q于其他位置的強(qiáng)度。類似地,關(guān)于學(xué)習(xí)圖像空間相干特性的早期工作使用邊界的存在來選擇使用哪個(gè)專家插值器[Becker和Hinton,1993]。就像海邊一樣,邊界也有著自己豐富的生活,需要做更多的工作才能將它們整合到GLOM中,尤其是它的注意力機(jī)制中。

3.5視覺輸入

在大多數(shù)神經(jīng)網(wǎng)絡(luò)中,視覺輸入到達(dá)底層。在GLOM中,原始視覺輸入的補(bǔ)丁可以通過對(duì)圖像補(bǔ)丁中的強(qiáng)度進(jìn)行矢量化來定義某個(gè)位置的底層嵌入,但首先應(yīng)用可以看到更大圖像區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)可能更明智。這個(gè)卷積網(wǎng)絡(luò)的輸出將是每個(gè)位置的主要的、最低級(jí)別的嵌入。

卷積網(wǎng)絡(luò)是一種開環(huán)方法,用于解決以下推理問題:該位置的哪種最低級(jí)別嵌入能夠使用所有位置共享的學(xué)習(xí)神經(jīng)場(chǎng)重建像素強(qiáng)度。一旦初始化了最低級(jí)別的嵌入,就可以通過神經(jīng)場(chǎng)反向傳播重建誤差,在閉環(huán)中對(duì)其進(jìn)行細(xì)化[Williams等人,1995]。

無需將直接視覺輸入限制在主嵌入層。在低分辨率圖像上運(yùn)行的粗尺度卷積網(wǎng)絡(luò)可以提供關(guān)于更高級(jí)別嵌入的有用提示。例如,一個(gè)淺色的垂直橢圓和一個(gè)略高于一半的較暗的水平帶表示一種臉[Viola和Jones,2004],因此在粗糙像素上運(yùn)行的卷積網(wǎng)絡(luò)可以提供有用的信息來直接初始化更高級(jí)別的嵌入。

4顏色和紋理

考慮一個(gè)物體,它的每一個(gè)部分都是完全蒼白或完全淡紫色。部分的顏色很簡(jiǎn)單,但整體對(duì)象是什么顏色?GLOM的動(dòng)機(jī)之一是,整體對(duì)象具有一種復(fù)合顏色,可以稱為“淡綠色或淡紫色”,在對(duì)象級(jí)別上,屬于對(duì)象的每個(gè)位置都具有完全相同的復(fù)合顏色。這件東西是淡綠色的,全身都是淡紫色。在決定對(duì)象級(jí)別上的其他位置時(shí),將優(yōu)先考慮具有類似復(fù)合顏色的位置。

類似的想法也適用于紋理。各個(gè)紋理元素都有自己的形狀、姿勢(shì)和空間關(guān)系,但具有紋理曲面的對(duì)象在對(duì)象級(jí)別的所有位置都具有完全相同的紋理。GLOM將這一思想擴(kuò)展到形狀。一個(gè)對(duì)象可能有彼此非常不同的部分,但在對(duì)象級(jí)別上,它在其占據(jù)的所有位置都具有完全相同的復(fù)合形狀。

5簇發(fā)現(xiàn)與簇形成

EM膠囊模型[Hinton et al.,2018]試圖通過尋找整體姿勢(shì)的類似向量投票簇來激活代表整體(如面部)的膠囊。這些向量投票來自已經(jīng)確定的部分(例如鼻子或嘴巴),盡管這些投票的權(quán)重可以通過迭代路由程序進(jìn)行修改,但向量投票本身保持不變。如果其中一個(gè)部分的姿勢(shì)未確定,則這一問題相當(dāng)嚴(yán)重。例如,代表眼睛的圓沒有特定的方向,它在臉上的位置取決于它是左眼還是右眼。然而,它確實(shí)提供了一些關(guān)于面部比例的信息,并且在與兩眼之間的未知線正交的方向上對(duì)面部位置進(jìn)行了單峰預(yù)測(cè)

在GLOM中,L-1級(jí)位置的嵌入向量不會(huì)對(duì)L級(jí)的嵌入投不可變的向量票。相反,它為該嵌入提供了自底向上的向量貢獻(xiàn),該向量貢獻(xiàn)與來自L+1級(jí)的向量貢獻(xiàn)以及來自其他位置的L級(jí)嵌入的注意加權(quán)貢獻(xiàn)相結(jié)合,以確定更新的L級(jí)嵌入向量。自下而上的貢獻(xiàn)一開始可能非常模糊,隨著自上而下和橫向上下文信息逐步細(xì)化位置的L-1級(jí)嵌入,自下而上的貢獻(xiàn)可能會(huì)隨著時(shí)間的推移而變得更加清晰。在一個(gè)層次上相似嵌入向量的孤島可以看作集群,但這些集群在不變的數(shù)據(jù)中并沒有被發(fā)現(xiàn)。它們是由支持相似孤島的層內(nèi)過程和來自相鄰層位置嵌入的動(dòng)態(tài)變化建議之間的交互作用形成的。

6在位置上復(fù)制嵌入向量

乍一看,將對(duì)象級(jí)嵌入向量的副本提供給屬于對(duì)象的每個(gè)位置似乎效率很低。從使用隨機(jī)訪問內(nèi)存編程的計(jì)算機(jī)得出的令人信服的直覺表明,為對(duì)象提供數(shù)據(jù)結(jié)構(gòu)的單個(gè)副本會(huì)更好。這些直覺可能會(huì)誤導(dǎo)沒有RAM的神經(jīng)網(wǎng)絡(luò),即使RAM可用,在島上復(fù)制嵌入向量也有兩個(gè)很好的理由。

每個(gè)層面的島嶼生長過程最終可能會(huì)形成幾個(gè)幾乎相同的載體島嶼,但是,對(duì)這些島嶼的搜索需要能夠考慮到島嶼的位置的替代聚類,它還需要允許在島上的位置之間的協(xié)商關(guān)于在每個(gè)級(jí)別上相同的向量。這些協(xié)商是非常重要的,因?yàn)槊總€(gè)位置還試圖滿足來自其上一級(jí)和下一級(jí)的嵌入向量的層間約束,并且這些嵌入也在每個(gè)時(shí)間步驟中被細(xì)化。在搜索過程中,每個(gè)位置在每個(gè)級(jí)別都有自己版本的嵌入向量非常有用。聚類中的不確定性可以通過使某個(gè)位置的嵌入向量是它可能決定加入的不同聚類的向量的混合來表示。這種混合可以隨著時(shí)間的推移而細(xì)化,而且它生活在一個(gè)高維連續(xù)空間中的事實(shí)應(yīng)該使優(yōu)化更容易。

直觀地說,兩個(gè)完全不同的嵌入向量的混合與這兩個(gè)向量都不相似。這在低維向量空間中是正確的,但在處理高維空間時(shí),來自低維空間的直覺是不可信的。與隨機(jī)向量相比,兩個(gè)高維向量的平均值更接近這些向量中的每一個(gè)。這可以通過考慮向量的分量與其平均值的分量與其他隨機(jī)向量之間的相關(guān)性來理解。如果向量是高維的,這種相關(guān)性將非常顯著。

近同一性孤島的另一個(gè)優(yōu)點(diǎn)是,它允許在一個(gè)級(jí)別內(nèi)進(jìn)行稀疏的遠(yuǎn)程交互。如果在更高的層次上有更多的稀疏性,那么在不增加計(jì)算量的情況下,相互作用的范圍可以更長。對(duì)于屬于較遠(yuǎn)島嶼的位置,有關(guān)該島嶼的所有對(duì)象級(jí)別信息都包含在其每個(gè)位置中,因此只需對(duì)其中一個(gè)位置進(jìn)行采樣,即可使該遙遠(yuǎn)島嶼與其他較近島嶼爭(zhēng)奪位置的注意力。當(dāng)然,這意味著遠(yuǎn)島對(duì)注意力softmax的貢獻(xiàn)比近島少,但注意力softmax中使用的指數(shù)意味著,一個(gè)高度相關(guān)的遠(yuǎn)島的一個(gè)logit可以超過一個(gè)更近但相關(guān)性更小的島的多個(gè)logit。

選擇允許哪些其他位置競(jìng)爭(zhēng)位置x的注意力的一種簡(jiǎn)單方法是從以x為中心的高斯分布中取樣,而不進(jìn)行替換。更高級(jí)別的嵌入可以對(duì)相同數(shù)量的其他位置進(jìn)行采樣,但采樣范圍更大。采樣只能進(jìn)行一次,因此它是網(wǎng)絡(luò)架構(gòu)的一部分。或者,通過在每個(gè)時(shí)間步獨(dú)立采樣,可以大大減少采樣中的缺陷。

7學(xué)習(xí)島

假設(shè)GLOM經(jīng)過訓(xùn)練,能夠在其輸出端重建圖像的未損壞版本,其中一些區(qū)域已被刪除。這一目標(biāo)應(yīng)確保有關(guān)輸入的信息在向前傳播過程中得以保留,如果區(qū)域足夠大,還應(yīng)確保識(shí)別熟悉的物體有助于填充缺失的區(qū)域。為了鼓勵(lì)接近身份的島嶼,我們需要添加一個(gè)正則化器,經(jīng)驗(yàn)表明,一個(gè)簡(jiǎn)單地鼓勵(lì)附近位置的嵌入之間的相似性的正則化器可能會(huì)導(dǎo)致表示崩潰:所有的嵌入向量可能會(huì)變得非常小,以至于它們都非常相似,然后重建將使用非常大的權(quán)重來處理非常復(fù)雜的問題小規(guī)模。為了防止崩潰,對(duì)比學(xué)習(xí)[Becker和Hinton,1992年,Paccanaro和Hinton,2001年,van den Oord等人,2018年]使用負(fù)面例子,試圖使應(yīng)該一致的陳述接近,同時(shí)保持不應(yīng)該一致的陳述之間的分離21。

對(duì)比學(xué)習(xí)已經(jīng)非常成功地應(yīng)用于學(xué)習(xí)圖像裁剪的表征[Chen等人,2020a,Bachman等人,2019年,He等人,2020年,Chen等人,2020b,Tejankar等人,2020年]它學(xué)習(xí)使同一圖像中兩種不同裁剪的表示一致,而使不同圖像中兩種裁剪的表示不一致。但如果我們的目標(biāo)是識(shí)別物體,那么這樣做是不明智的。如果裁剪1包含對(duì)象A和B,而來自同一圖像的裁剪2包含對(duì)象B和C,則要求兩種裁剪的表示在對(duì)象級(jí)別相同是沒有意義的。然而,這在場(chǎng)景級(jí)別是有意義的。對(duì)于包含一個(gè)突出對(duì)象的場(chǎng)景,可以使用設(shè)計(jì)用于識(shí)別場(chǎng)景的表示來識(shí)別對(duì)象,但是,一旦我們區(qū)分了不同的嵌入級(jí)別,就可以清楚地看出,最好使用對(duì)比損失函數(shù),僅當(dāng)L級(jí)的兩個(gè)位置屬于L級(jí)的同一實(shí)體時(shí),才鼓勵(lì)對(duì)其進(jìn)行非常相似的表示。如果它們屬于不同的L級(jí)實(shí)體,則應(yīng)使用L級(jí)嵌入明顯不同。

從位置的角度來看,除了頂層,它需要決定其L級(jí)嵌入應(yīng)該與哪些其他位置相似。然后,它可以學(xué)習(xí)類似于這些嵌入,并從屬于同一圖像或其他圖像中不同對(duì)象的位置嵌入中排除。最近的工作利用可能的物體軌跡上的圖塊相似性來影響對(duì)比學(xué)習(xí)是否應(yīng)該嘗試使它們更相似,這項(xiàng)工作在發(fā)現(xiàn)視頻序列中圖塊之間的對(duì)應(yīng)關(guān)系方面表現(xiàn)出了令人印象深刻的表現(xiàn)[Jabri等人,2020]。

顯而易見的解決方案是通過鼓勵(lì)自下而上和自上而下的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)一致意見來規(guī)范它們。這是來自自上而下和自底向上網(wǎng)絡(luò)的預(yù)測(cè)的加權(quán)幾何平均值,是在前一時(shí)間步附近位置嵌入的注意力加權(quán)平均值,即嵌入的前一狀態(tài)。訓(xùn)練層間預(yù)測(cè),使其與共識(shí)一致,顯然會(huì)使前饋推理過程中發(fā)現(xiàn)的孤島更加一致。

一個(gè)重要的問題是,如果這種類型的培訓(xùn)沒有伴隨著培訓(xùn),那么對(duì)于使用一致意見的不相關(guān)空間上下文的負(fù)面示例,級(jí)別間預(yù)測(cè)是否會(huì)不同,那么這種培訓(xùn)是否一定會(huì)導(dǎo)致崩潰。使用層或批處理規(guī)范化應(yīng)該減少崩潰的趨勢(shì),但更重要的考慮可能是目標(biāo)的可實(shí)現(xiàn)性。

當(dāng)對(duì)比學(xué)習(xí)中的實(shí)證被用來嘗試為同一幅圖像的不同面片提取非常相似的表示時(shí),目標(biāo)通常是無法實(shí)現(xiàn)的,并且巨大的殘余誤差總是試圖使表示崩潰。但是,如果一個(gè)位置的嵌入可以自由選擇它應(yīng)該類似于其他位置的嵌入,那么通過學(xué)習(xí)形成相同向量的孤島并幾乎完全關(guān)注同一個(gè)孤島中的其他位置,幾乎可以完美地實(shí)現(xiàn)該目標(biāo)。這將大大減少崩潰的趨勢(shì),當(dāng)與深度去噪自動(dòng)編碼器目標(biāo)函數(shù)和其他最新技巧結(jié)合使用時(shí)[Grill等人,2020年,Chen和He,2020年],可能不需要負(fù)面示例。

8表示坐標(biāo)變換

當(dāng)使用神經(jīng)網(wǎng)絡(luò)表示形狀時(shí),如果它們表示形狀相對(duì)于其固有坐標(biāo)框架的細(xì)節(jié),而不是相對(duì)于基于相機(jī)或世界的框架的細(xì)節(jié),則它們通常工作得更好【Taylor等人,2007年,Deng等人,2020年】。

關(guān)于使用神經(jīng)場(chǎng)生成圖像的工作已經(jīng)證明,與使用兩個(gè)標(biāo)量表示x和y坐標(biāo)相比,有更好的方法來表示位置[Sitzmann等人,2020年,Mildenhall等人,2020年]。在不同頻率的水平和垂直正弦波和余弦波的位置,三角函數(shù)的乘積工作良好。在《Transformers》中,一個(gè)詞片段在句子中的位置也使用了類似的表示法。

位置的高度冗余表示的成功表明,坐標(biāo)變換的非平移自由度也可能存在高度冗余表示,這種表示在神經(jīng)網(wǎng)絡(luò)中的效果要比計(jì)算機(jī)圖形學(xué)中常用的矩陣或四元數(shù)好得多部分(即視網(wǎng)膜和部分固有參考框架之間的坐標(biāo)變換)由一個(gè)向量表示,該向量是表示該部分的嵌入向量的一個(gè)子部分。一個(gè)多層神經(jīng)網(wǎng)絡(luò),其權(quán)值捕捉部分和整體之間的視點(diǎn)不變坐標(biāo)變換,然后可以對(duì)部分的姿勢(shì)向量進(jìn)行操作,以預(yù)測(cè)整體的姿勢(shì)向量。如果我們簡(jiǎn)單地將姿勢(shì)的4x4矩陣表示展平為一個(gè)向量,就很容易手工設(shè)計(jì)一個(gè)多層神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將該向量作為輸入,并生成一個(gè)向量作為輸出,該向量對(duì)應(yīng)于矩陣矩陣乘法的展平結(jié)果,前提是我們知道乘以哪個(gè)矩陣,這取決于部分的標(biāo)識(shí)。這種對(duì)部分標(biāo)識(shí)的依賴是早期膠囊模型中為每種類型部分分配單獨(dú)膠囊的原因。不幸的是,平坦4x4矩陣的向量空間不便于表示姿勢(shì)某些方面的不確定性和其他方面的確定性。這可能需要更高維度的姿勢(shì)表示。

手工設(shè)計(jì)這種表示可能不如使用隨機(jī)梯度下降的端到端學(xué)習(xí)。盡管如此,第9節(jié)討論了一種在神經(jīng)網(wǎng)絡(luò)中表示不確定性的方法,只是為了證明它不是一個(gè)主要問題。

在通用膠囊中,部分標(biāo)識(shí)由活動(dòng)向量表示,而不是通過選擇激活哪個(gè)膠囊來表示,因此實(shí)現(xiàn)適當(dāng)部分-整體坐標(biāo)變換的神經(jīng)網(wǎng)絡(luò)需要將其權(quán)重調(diào)節(jié)在部分標(biāo)識(shí)向量23上。因此,需要將位置的整體部分級(jí)向量作為輸入提供給自底向上的神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)計(jì)算部分-整體坐標(biāo)變換。這使得計(jì)算更加復(fù)雜,但大大簡(jiǎn)化了架構(gòu)的設(shè)計(jì)。這意味著我們不需要在某一級(jí)別指定嵌入向量的一部分來表示姿勢(shì),而在該級(jí)別指定其余部分來表示實(shí)體的其他方面。我們所需要做的就是確保神經(jīng)網(wǎng)絡(luò)從下面(或上面)的嵌入中預(yù)測(cè)一個(gè)層次的嵌入具有足夠的表達(dá)能力,可以對(duì)表示姿勢(shì)的嵌入向量的組件應(yīng)用坐標(biāo)變換,并使該坐標(biāo)變換取決于表示部分標(biāo)識(shí)的向量組件。由于該神經(jīng)網(wǎng)絡(luò)將通過隨機(jī)梯度下降進(jìn)行學(xué)習(xí),我們甚至不需要將表示姿勢(shì)的嵌入向量的組件與表示該級(jí)別實(shí)體其他屬性的組件分開:?jiǎn)蝹€(gè)組件可以調(diào)整為姿勢(shì)、身份、變形、紋理等的組合。

將身份和姿勢(shì)的表現(xiàn)糾纏在一起似乎是個(gè)壞主意,但從對(duì)角線自下而上的預(yù)測(cè)如何表達(dá)整體是傾斜的正方形或直立的鉆石的觀點(diǎn)呢?為了使用基函數(shù)的活動(dòng)來表示這種分布,我們需要調(diào)整到身份和姿勢(shì)組合的基函數(shù)。

使用一個(gè)小矩陣或四元數(shù)來表示姿勢(shì),可以很容易地使用線性操作對(duì)視點(diǎn)更改的效果進(jìn)行建模。乍一看,放棄這些姿勢(shì)的顯式表示似乎可能會(huì)損害膠囊在不同視角下的泛化能力。如果每個(gè)膠囊只處理一種類型的物體,這將是正確的,但通用膠囊將從許多不同的角度看到許多不同類型的物體,任何新類型的物體都將通過熟悉類型的加權(quán)平均值很好地近似,所有這些類型的物體都學(xué)會(huì)了對(duì)視點(diǎn)的效果進(jìn)行建模。此外,此平均值中的權(quán)重對(duì)于所有視點(diǎn)都是相同的。因此,如果一個(gè)新的物體只能從一個(gè)角度看,宇宙飛船很可能能夠從完全不同的角度識(shí)別它。

關(guān)于泛化的相同論點(diǎn)也適用于CNN,但有一個(gè)細(xì)微的區(qū)別:GLOM被迫正確地模擬部分和整體之間的坐標(biāo)變換,以便能夠通過在整體層面上使用簡(jiǎn)單的平均操作,利用一個(gè)部分和另一個(gè)部分之間的空間關(guān)系。正是由于這些局部和整體空間關(guān)系的視點(diǎn)不變性,才有可能推廣到全新的視點(diǎn)。

9代表不確定性

很容易想象,嵌入向量的各個(gè)分量對(duì)應(yīng)于有意義的變量,例如相對(duì)于相機(jī)或?qū)ο箢悇e的對(duì)象姿勢(shì)的六個(gè)自由度。這將使表示更容易理解,但有一個(gè)很好的理由使物理上有意義的變量和神經(jīng)活動(dòng)之間的關(guān)系不那么直接:為了正確組合多個(gè)信息源,必須考慮每個(gè)信息源的不確定性。

假設(shè)我們希望以這樣一種方式來表示M維實(shí)體,即不同的信息源可以在M維空間上貢獻(xiàn)概率分布,而不僅僅是點(diǎn)估計(jì)。我們可以使用N>>M個(gè)神經(jīng)元群體,每個(gè)神經(jīng)元在M維空間中被調(diào)諧到高斯分布[Williams和Agakov,2002]。如果我們?nèi)?duì)數(shù),則神經(jīng)元對(duì)應(yīng)對(duì)數(shù)概率中的拋物線凹凸。這個(gè)凸起在某些方向上可能非常寬,而在其他方向上可能非常窄。它甚至可能是一個(gè)在某些方向上無限寬的水平脊。我們將一個(gè)神經(jīng)元的活動(dòng)視為其拋物線凸起的垂直縮放,簡(jiǎn)單地將所有縮放凸起相加,得到一個(gè)拋物線凸起,它表示由N個(gè)神經(jīng)元的總體表示的非標(biāo)準(zhǔn)化高斯分布的對(duì)數(shù)。

信息源現(xiàn)在可以貢獻(xiàn)概率分布,這些概率分布將通過簡(jiǎn)單地對(duì)N個(gè)神經(jīng)元的活動(dòng)進(jìn)行相加而相乘。如果我們想保持N相對(duì)較小,那么可以表示的概率分布將受到限制,但是,給定N個(gè)神經(jīng)元的預(yù)算,學(xué)習(xí)應(yīng)該能夠很好地利用它們來近似數(shù)據(jù)所證明的預(yù)測(cè)分布。例如,如果一個(gè)部分可以預(yù)測(cè)一個(gè)整體的水平位置,而不使該預(yù)測(cè)取決于整體姿勢(shì)或身份的其他方面,這將有助于將少數(shù)N個(gè)神經(jīng)元調(diào)整為代表底層M維空間中整體水平位置的維度上的間隔良好的值。然后,該部分可以通過對(duì)這一小撮神經(jīng)元做出適當(dāng)?shù)呢暙I(xiàn),沿著這個(gè)水平維度貢獻(xiàn)一個(gè)高斯分布。貢獻(xiàn)的相對(duì)大小決定了高斯分布的平均值,它們的總體尺度決定了高斯分布的逆方差。

假設(shè)神經(jīng)元在潛在實(shí)體的M維空間中具有高斯調(diào)諧,這只是一種簡(jiǎn)化,以表明神經(jīng)網(wǎng)絡(luò)在表示高斯概率分布和適當(dāng)組合它們方面沒有問題。一種更靈活的調(diào)節(jié)神經(jīng)元的方法是混合使用高斯分布和均勻分布[Hinton,2002]。此分布的日志是一個(gè)局部凹凸,稱為unibump。當(dāng)我們離平均值足夠遠(yuǎn),以至于均勻分布完全支配高斯分布時(shí),單凸包的邊向外展開并最終變成水平。與拋物線凹凸不同,拋物線凹凸具有遠(yuǎn)離其最大值的二次大梯度,而單凹凸具有遠(yuǎn)離其最大值的零梯度,因此它對(duì)遠(yuǎn)離其平均值的非規(guī)范化分布的形狀沒有貢獻(xiàn)。這允許單凸點(diǎn)表示多模態(tài)概率分布。一組相鄰的單凸點(diǎn)之和可以表示一種模式,另一組彼此接近但遠(yuǎn)離第一組的單凸點(diǎn)之和可以表示另一種模式。使用對(duì)應(yīng)于單凸點(diǎn)垂直縮放的神經(jīng)活動(dòng),可以分別控制每個(gè)模式的位置和清晰度。

假設(shè)單個(gè)神經(jīng)元被調(diào)諧到高斯分布和均勻分布的混合,只是為了表明神經(jīng)網(wǎng)絡(luò)可以表示多模態(tài)分布。神經(jīng)元為表示潛在空間中的多模態(tài)對(duì)數(shù)概率分布而實(shí)際學(xué)習(xí)的基函數(shù)不需要在該空間中是局部的。

表示不確定性的需要阻止了最簡(jiǎn)單的表示,即單個(gè)神經(jīng)元中的活動(dòng)表示多維實(shí)體的一維,但它仍然允許神經(jīng)元在多維空間中具有調(diào)諧曲線。對(duì)于試圖理解表象的人來說,是否有可能聯(lián)合推斷潛在的潛在空間和該空間中神經(jīng)元的調(diào)諧曲線是一個(gè)非常有趣的開放問題。但即使很難弄清楚單個(gè)神經(jīng)元在做什么,找到幾乎相同向量的孤島也應(yīng)該很容易,因此應(yīng)該很容易看到GLOM是如何解析圖像的,或者應(yīng)用于語言的類似模型是如何解析句子的。

在考慮如何表示部分姿勢(shì)或身份的不確定性時(shí),必須認(rèn)識(shí)到,每個(gè)位置都假定在層次結(jié)構(gòu)的每個(gè)級(jí)別上最多只占用一個(gè)部分24。這意味著嵌入向量中某一級(jí)別的所有神經(jīng)活動(dòng)都指向同一部分:不存在綁定問題,因?yàn)榻壎ㄊ峭ㄟ^位置完成的。因此,一個(gè)位置可以使用兩個(gè)不同的神經(jīng)元,它們?cè)诘讓覯維空間中的調(diào)諧曲線重疊很多,而不會(huì)造成任何混亂。如果我們不首先將不同的神經(jīng)元子集分配到不同的位置,那么表示不確定性所需的M維底層空間中的寬調(diào)諧曲線將導(dǎo)致不同對(duì)象屬性之間的混淆。這就是為什么粗編碼,即使用單一群體的廣泛調(diào)諧神經(jīng)元同時(shí)對(duì)多個(gè)不同實(shí)體建模[Hinton,1981a]無法有效地對(duì)不確定性建模。

9.1更新嵌入時(shí)合并不同的信息源

每個(gè)級(jí)別的嵌入都使用相鄰級(jí)別和同一級(jí)別上其他位置的上一時(shí)間步的信息進(jìn)行更新。這些源遠(yuǎn)非獨(dú)立的,尤其是當(dāng)圖像是靜態(tài)的,因此視覺輸入在多個(gè)時(shí)間步是相同的時(shí)。高級(jí)嵌入明顯依賴于早期的低級(jí)嵌入。此外,對(duì)注意力加權(quán)局部平均值有貢獻(xiàn)的同一級(jí)別嵌入將受到注意力加權(quán)平均值試圖更新的嵌入的早期狀態(tài)的影響。為了避免過于自信,最好將不同的信息源視為從視覺輸入計(jì)算嵌入向量的替代路徑。這就證明了采用單個(gè)來源預(yù)測(cè)的分布25的加權(quán)幾何平均值,而不是這些分布的簡(jiǎn)單乘積是合理的,如果它們是獨(dú)立的。為了解釋沒有時(shí)間背景的靜態(tài)圖像,用于此加權(quán)幾何平均值的權(quán)重需要在新固定后發(fā)生的迭代期間改變。最初,自下而上的震源應(yīng)該是最可靠的,但后來,自上而下和側(cè)向震源將得到改進(jìn)。深度信念網(wǎng)的實(shí)驗(yàn)[Hinton,2006]表明,逐漸增加自上而下相對(duì)于自底向上的權(quán)重會(huì)導(dǎo)致以后更合理的重建,這表明,當(dāng)GLOM被訓(xùn)練為端到端深度去噪自動(dòng)編碼器時(shí),這一點(diǎn)很重要。

10與其他神經(jīng)網(wǎng)絡(luò)模型的比較

本節(jié)將GLOM與影響其設(shè)計(jì)的一些神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較。

10.1與膠囊模型的比較

與膠囊模型26相比,GLOM的主要優(yōu)勢(shì)在于,它避免了將神經(jīng)元預(yù)先分配到每個(gè)級(jí)別的一組離散的可能部分的需要。部分的標(biāo)識(shí)成為特征活動(dòng)連續(xù)空間中的向量。這使得類似部件(如手臂和腿)之間的知識(shí)共享更大,并且在屬于特定類型對(duì)象的部件數(shù)量和類型方面具有更大的靈活性。

GLOM的第二個(gè)優(yōu)點(diǎn)是它不需要?jiǎng)討B(tài)路由。部分占用的每個(gè)位置都構(gòu)造了其自身的整體向量表示,而不是將信息從部分膠囊路由到包含相關(guān)整體類型知識(shí)的特定膠囊。一個(gè)位置上的一個(gè)部分只屬于一個(gè)整體的約束是由于該位置上的替代整體是同一組神經(jīng)元上的替代活動(dòng)向量這一事實(shí)的必然結(jié)果。關(guān)于幾個(gè)整體中哪一個(gè)是部分的正確父級(jí)的不確定性仍然可以通過使用活動(dòng)向量的混合來捕獲。

GLOM的第三個(gè)優(yōu)點(diǎn)是,用于形成島嶼的集群形成程序比用于膠囊模型的集群形成程序要好得多。為了使EM等方法在集群數(shù)量未知時(shí)能很好地工作,引入拆分和合并操作是有幫助的[Ueda等人,2000],但這些操作會(huì)在島嶼形成過程中自動(dòng)發(fā)生。通過從每個(gè)位置一個(gè)孤島開始,然后通過使嵌入向量一致來減少明顯不同的孤島的數(shù)量,解決了關(guān)于在嵌入級(jí)別找到正確數(shù)量的聚類的分層貝葉斯問題。這種減少發(fā)生在一個(gè)連續(xù)的空間中,不需要離散地改變簇的數(shù)量。

與大多數(shù)膠囊模型相比,GLOM的主要缺點(diǎn)是關(guān)于特定類型物體形狀的知識(shí)不局限于一小群神經(jīng)元(可能在相當(dāng)大的區(qū)域復(fù)制)。相反,必須在每個(gè)位置復(fù)制自下而上和自上而下的神經(jīng)網(wǎng)絡(luò)(對(duì)于每對(duì)相鄰的層級(jí)可能不同)。對(duì)于計(jì)算機(jī)實(shí)現(xiàn)來說,跨位置復(fù)制是一個(gè)很大的優(yōu)勢(shì),因?yàn)樗试S每次從內(nèi)存中檢索權(quán)重時(shí)使用多次,但對(duì)于生物神經(jīng)網(wǎng)絡(luò)來說,它似乎非常浪費(fèi)突觸。與基因類比的要點(diǎn)是生物學(xué)可以承受浪費(fèi),因此這種反對(duì)可能不像看上去那么嚴(yán)重。然而,對(duì)于生物版的GLOM來說,還有一個(gè)更嚴(yán)重的問題:無處不在的通用膠囊需要在每個(gè)不同的位置分別學(xué)習(xí)相同的知識(shí),這在統(tǒng)計(jì)上是非常低效的。幸運(yùn)的是,第12節(jié)展示了位置如何在不共享任何權(quán)重的情況下共享其自底向上和自頂向下模型所學(xué)到的知識(shí)。

GLOM通過將神經(jīng)元分配到位置而不是對(duì)象或部分的類型,消除了膠囊模型的一個(gè)主要缺點(diǎn),但保留了這些模型的大部分優(yōu)點(diǎn):

?正確處理視點(diǎn)的影響:自下而上和自上而下神經(jīng)網(wǎng)絡(luò)的權(quán)重捕獲部分和整體之間視點(diǎn)不變的空間關(guān)系,神經(jīng)活動(dòng)捕獲關(guān)于對(duì)象或部分姿勢(shì)的視點(diǎn)等變信息符合過濾:通過使用來自其部分的高維預(yù)測(cè)之間的一致性來識(shí)別對(duì)象。在GLOM中,使用協(xié)議的想法更進(jìn)一步,因?yàn)樗€用于將對(duì)象和部分表示為標(biāo)識(shí)島。

?無神經(jīng)元?jiǎng)討B(tài)分配:無需將神經(jīng)元?jiǎng)討B(tài)分配到解析樹中的節(jié)點(diǎn),即可表示部分-整體層次結(jié)構(gòu)。

10.2與Transformers型號(hào)的比較

通過將圖1中的垂直時(shí)間片視為圖4中的層,可以重新排列圖1中所示的GLOM架構(gòu)。GLOM的這種重新排列相當(dāng)于Transformers的標(biāo)準(zhǔn)版本【Vaswani等人,2017年】,但有以下變化:

?各層的權(quán)重相同,因?yàn)镚LOM是一個(gè)循環(huán)網(wǎng)絡(luò),我們已將時(shí)間片轉(zhuǎn)換為各層。

?通過在某一級(jí)別使用嵌入向量作為查詢、鍵和值,注意力機(jī)制大大簡(jiǎn)化。因此,通常由注意實(shí)現(xiàn)的不同位置之間的復(fù)雜交互被簡(jiǎn)化為一個(gè)簡(jiǎn)單的、注意加權(quán)的平滑操作。

?在大多數(shù)Transformers中,用于提供更多表達(dá)能力的多個(gè)磁頭被重新設(shè)計(jì)為實(shí)現(xiàn)一個(gè)部分-整體層次結(jié)構(gòu)的多個(gè)級(jí)別,并且一個(gè)位置的磁頭之間的交互是高度結(jié)構(gòu)化的,因此一個(gè)級(jí)別僅與相鄰級(jí)別交互。

?計(jì)算相鄰層級(jí)之間交互作用的自下而上和自上而下神經(jīng)網(wǎng)絡(luò)在部分和整體姿勢(shì)的分布式表示之間執(zhí)行坐標(biāo)變換,這些坐標(biāo)變換取決于部分和整體類型的分布式表示。

消除查詢、密鑰、值和嵌入本身的區(qū)別的理由如下:試著嘗試用一個(gè)潛在的嘴巴來驗(yàn)證一個(gè)Transformers中潛在的鼻子。嘴巴需要問“有沒有人和我有著合適的空間關(guān)系,可能是鼻子?”。如果是這樣,請(qǐng)告訴我要更像嘴巴。這似乎需要嘴發(fā)送一個(gè)鼻子查詢(包括相對(duì)于嘴的適當(dāng)姿勢(shì)),該查詢將匹配鼻子的關(guān)鍵點(diǎn)。然后,鼻子需要發(fā)回類似嘴巴的值(包括相對(duì)于鼻子的適當(dāng)姿勢(shì))。

但是嘴巴也可以被眼睛證實(shí),所以它需要發(fā)出一個(gè)不同的查詢來匹配眼睛的鍵。這可以通過使用不同的頭來處理,用嘴來找鼻子,用嘴來找眼睛(如在范疇語法中),但這看起來很笨拙。

一個(gè)更優(yōu)雅的解決方案(繼承自膠囊模型)是使用一種形式的霍夫變換。潛在的嘴預(yù)測(cè)它可能是其中一部分的臉的向量。潛在的鼻子和眼睛也會(huì)這樣做?,F(xiàn)在您所需要的是在面級(jí)別上的預(yù)測(cè)一致性,因此query=key=value=embedding。然后,面級(jí)別可以為其部分提供自上而下的支持,而不是使用特定于兩個(gè)部分的標(biāo)識(shí)的坐標(biāo)變換,從一個(gè)部分發(fā)送到另一個(gè)部分的值向量提供支持。

10.3與卷積神經(jīng)網(wǎng)絡(luò)的比較

膠囊最初是由三種感知到的CNN缺陷引起的:

1.CNN中的池操作旨在在下一級(jí)實(shí)現(xiàn)活動(dòng)向量中的平移的局部不變性。要求權(quán)重的不變性,而要求活動(dòng)的等變性似乎更好。

2.CNN試圖通過使用大量不同視點(diǎn)的示例來概括不同的視點(diǎn),這些不同視點(diǎn)可能是通過使用變換后的圖像擴(kuò)充數(shù)據(jù)集而產(chǎn)生的。計(jì)算機(jī)圖形學(xué)通過明確表示相對(duì)于攝影機(jī)的對(duì)象或部分的姿勢(shì)來概括各個(gè)視點(diǎn)。視點(diǎn)的變化,即使是非常大的變化,也可以通過對(duì)這些顯式姿勢(shì)的線性操作來完美地建模。使用部分姿勢(shì)和整體姿勢(shì)之間的視點(diǎn)不變關(guān)系似乎是推廣到全新視點(diǎn)的非常有效的方法。CNN似乎沒有這樣做,但外表可能具有欺騙性。

3.在CNN中,神經(jīng)元的活動(dòng)由權(quán)重向量與活動(dòng)向量的標(biāo)量積決定。這不是一個(gè)很好的方法來建模在視覺中非常重要的協(xié)方差結(jié)構(gòu)。將一個(gè)活動(dòng)向量與另一個(gè)活動(dòng)向量的標(biāo)量積相結(jié)合,可以更輕松地執(zhí)行符合檢測(cè)和注意等功能強(qiáng)大的操作。高維嵌入空間中的一致性是過濾由遮擋或缺失部分引起的噪聲的一種好方法,因?yàn)榕c總和不同,它們對(duì)缺少某些一致預(yù)測(cè)非常魯棒。

第一個(gè)缺陷很明顯。這取決于對(duì)CNN如何表示部分位置的常見誤解。網(wǎng)格點(diǎn)處的通道活動(dòng)向量可以具有部分位置的速率編碼表示,其精度遠(yuǎn)遠(yuǎn)高于網(wǎng)格點(diǎn)之間的跨距。因此,當(dāng)步幅在下一個(gè)級(jí)別通過合并增加時(shí),并不意味著部分的位置編碼不太準(zhǔn)確。更大的步幅不會(huì)產(chǎn)生更具平移不變性的表示。網(wǎng)格點(diǎn)用于分配不代表位置的神經(jīng)硬件。它們的間距受到這樣一個(gè)事實(shí)的限制,即網(wǎng)格點(diǎn)處的神經(jīng)硬件假設(shè)它永遠(yuǎn)不會(huì)代表它所代表的任何東西中的一個(gè)以上,而不受位置需要表示的精度的限制。

試圖處理第二個(gè)感知缺陷導(dǎo)致了一些有趣的模型。變換自動(dòng)編碼器[Hinton et al.,2011]通過堅(jiān)持重建圖像應(yīng)為原始圖像的變換版本,并將該變換指定為乘以編碼器提取的任何矩陣元素的矩陣,迫使編碼器提取每個(gè)膠囊中姿勢(shì)的顯式表示。同樣,當(dāng)EM膠囊模型被迫使用矩陣來表示一個(gè)部分與一個(gè)整體的關(guān)系時(shí),它可以更好地外推到新的視點(diǎn)。

不幸的是,perception必須處理計(jì)算機(jī)圖形27中不存在的不確定性,并且它需要能夠在其姿態(tài)預(yù)測(cè)中表示相關(guān)的不確定性,以便能夠正確組合多個(gè)信息源。這排除了姿勢(shì)的簡(jiǎn)單矩陣表示。一旦我們接受一個(gè)實(shí)體的可能姿勢(shì)上的分布將由對(duì)數(shù)概率空間中分配給基函數(shù)的尺度表示,CNN實(shí)際上很可能學(xué)會(huì)這樣做。這可能使它們能夠近似Hough變換,但如果不采用活動(dòng)向量的標(biāo)量積,這是很難做到的。

第三個(gè)缺陷可以通過使用活動(dòng)向量的標(biāo)量積來調(diào)節(jié)注意力的Transformers式結(jié)構(gòu)來糾正。

如果您喜歡CNN,GLOM可以被視為一種特殊類型的CNN,與標(biāo)準(zhǔn)CNN有以下不同:

?它僅使用1x1卷積(前端除外)。

?位置之間的交互通過無參數(shù)平均實(shí)現(xiàn),該平均實(shí)現(xiàn)了重合濾波器,允許使用Hough變換激活單位,而不是僅使用匹配濾波器。

?它通過迭代來實(shí)現(xiàn)由神經(jīng)場(chǎng)實(shí)現(xiàn)的自上而下的影響,而不是在表示層中使用單個(gè)前饋傳遞。

?它包括對(duì)比自監(jiān)督學(xué)習(xí),并將分層分割作為識(shí)別的一部分,而不是作為單獨(dú)的任務(wù)。沒有更多的盒子了。

10.4代表ISA層次結(jié)構(gòu)

傳統(tǒng)人工智能(GOFAI)的一個(gè)重要思想是財(cái)產(chǎn)繼承。沒有必要明確表示大象哺乳它們的幼仔,因?yàn)榇笙笫遣溉閯?dòng)物,除非另有說明,否則大象從更一般的類型繼承了這一特性。在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)屬性繼承的一種簡(jiǎn)單方法是使不同的實(shí)體對(duì)應(yīng)于同一組神經(jīng)元上的不同活動(dòng)向量。

假設(shè)表示一個(gè)概念的向量的分量是從非常一般到非常具體的順序排列的。哺乳動(dòng)物對(duì)于更一般的成分都有相似的值,而對(duì)于不太一般的成分則有不同的值。印度象和非洲象只在相當(dāng)具體的成分上有所不同。當(dāng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)使概念向量對(duì)其他向量產(chǎn)生因果效應(yīng)時(shí),所有哺乳動(dòng)物的效應(yīng)應(yīng)相同,但對(duì)所有脊椎動(dòng)物的效應(yīng)不相同,這自然會(huì)通過神經(jīng)元的輸出權(quán)重來實(shí)現(xiàn),這些神經(jīng)元對(duì)所有哺乳動(dòng)物都是活躍的,但對(duì)所有脊椎動(dòng)物都是活躍的。這種實(shí)現(xiàn)屬性繼承的方法使添加異常變得容易。鳥類共有的向量分量將學(xué)習(xí)權(quán)重,以獲取鳥類飛行的知識(shí),而將企鵝與其他鳥類區(qū)分開來的更具體的分量將學(xué)習(xí)更強(qiáng)大的權(quán)重,從而推翻該屬

10.4代表ISA層次結(jié)構(gòu)

傳統(tǒng)人工智能(GOFAI)的一個(gè)重要思想是財(cái)產(chǎn)繼承。沒有必要明確表示大象哺乳它們的幼仔,因?yàn)榇笙笫遣溉閯?dòng)物,除非另有說明,否則大象從更一般的類型繼承了這一特性。在神經(jīng)網(wǎng)絡(luò)中實(shí)現(xiàn)屬性繼承的一種簡(jiǎn)單方法是使不同的實(shí)體對(duì)應(yīng)于同一組神經(jīng)元上的不同活動(dòng)向量。

假設(shè)表示一個(gè)概念的向量的分量是從非常一般到非常具體的順序排列的。哺乳動(dòng)物對(duì)于更一般的成分都有相似的值,而對(duì)于不太一般的成分則有不同的值。印度象和非洲象只在相當(dāng)具體的成分上有所不同。當(dāng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)使概念向量對(duì)其他向量產(chǎn)生因果效應(yīng)時(shí),所有哺乳動(dòng)物的效應(yīng)應(yīng)相同,但對(duì)所有脊椎動(dòng)物的效應(yīng)不相同,這自然會(huì)通過神經(jīng)元的輸出權(quán)重來實(shí)現(xiàn),這些神經(jīng)元對(duì)所有哺乳動(dòng)物都是活躍的,但對(duì)所有脊椎動(dòng)物都是活躍的。這種實(shí)現(xiàn)屬性繼承的方法使添加異常變得容易。鳥類共有的向量分量將學(xué)習(xí)捕獲鳥類飛行知識(shí)的權(quán)重,將企鵝與其他鳥類區(qū)分開來的更具體分量將學(xué)習(xí)推翻一般情況的更強(qiáng)權(quán)重[Hinton,1981b]。

這種實(shí)現(xiàn)屬性繼承的方法還有一個(gè)額外的優(yōu)點(diǎn),即類型不需要形成樹。狗從犬科動(dòng)物(如狼)身上繼承了許多特性,但它們也從寵物(如貓)身上繼承了許多特性。無法保證從這些更一般、部分重疊的類繼承的屬性是一致的,但與邏輯不同,神經(jīng)網(wǎng)絡(luò)在處理相互沖突的證據(jù)方面沒有困難。

乍一看,使用概念向量表示的不同部分來捕獲ISA層次結(jié)構(gòu)中的不同級(jí)別的想法與使用不同部分來捕獲部分-整體層次結(jié)構(gòu)中的不同級(jí)別的想法相沖突。這似乎有問題,因?yàn)殂^嘴是鳥類的一部分,但它也定義了一種鳥類。這兩個(gè)想法可以通過以下方式協(xié)調(diào):首先將位置的嵌入向量劃分為表示PartTour層次結(jié)構(gòu)中不同級(jí)別的部分,然后將每個(gè)部分劃分為表示類型層次結(jié)構(gòu)中不同級(jí)別的子部分。

10.5與二維伊辛模型的關(guān)系

對(duì)于每個(gè)位置,上一時(shí)間步的L-1和L+1級(jí)嵌入向量分別向表示L級(jí)當(dāng)前嵌入向量的神經(jīng)元提供輸入。這就像條件馬爾可夫隨機(jī)場(chǎng)中的條件輸入:它影響迭代的當(dāng)前步驟,島嶼形成過程,試圖使L層位置的嵌入與L層其他位置的嵌入一致。

在二維伊辛模型中,二值自旋的二維陣列進(jìn)入一種附近自旋趨于一致的狀態(tài),從而最小化有利于相鄰自旋一致的能量函數(shù)。此處提出的模型類似于二維伊辛模型,因?yàn)樗褂脠D像位置的二維網(wǎng)格,但它通過以下方式概括了該模型:

1.它用高維實(shí)值向量替換二進(jìn)制自旋。事實(shí)上,這些存在于一個(gè)連續(xù)的空間應(yīng)該有助于尋找協(xié)議的島嶼。

2.它將單個(gè)旋轉(zhuǎn)場(chǎng)替換為多個(gè)級(jí)別的場(chǎng),并允許相同位置的相鄰級(jí)別嵌入相互作用[He等人,2004年,Saremi和Sejnowski,2013年]。層次之間的相互作用相當(dāng)復(fù)雜,因?yàn)樗鼈兩婕暗讲糠趾驼w之間的坐標(biāo)變換。因此,對(duì)于每對(duì)相鄰的嵌入層,每個(gè)位置的自上而下和自下而上交互作用必須由多層神經(jīng)網(wǎng)絡(luò)計(jì)算,而不是由簡(jiǎn)單的權(quán)重矩陣計(jì)算。

10.6與其他消除冗余方法的比較

主成分分析等方法通過限制表示中可用維度的數(shù)量來消除數(shù)據(jù)中的冗余。相比之下,一臺(tái)具有大量隱藏單元的受限玻爾茲曼機(jī)器通過使幾乎所有指數(shù)級(jí)的隱藏單元的可能二進(jìn)制配置都具有如此高的能量,以至于它們實(shí)際上不可用,從而擠出冗余。這是一種更加靈活的消除冗余的方法[Shi和Zhu,2007]。它可以模擬具有不同內(nèi)在維度的多個(gè)fat歧管28,甚至在fat歧管內(nèi),它可以模擬歧管不同部分中有效維度的變化。島嶼形成目標(biāo)屬于第二類方法。在每一級(jí),如果數(shù)據(jù)需要,它允許大量小島嶼,但如果可能,它努力使用少量小島嶼。

11視頻

本文重點(diǎn)介紹了使用GLOM架構(gòu)處理靜態(tài)圖像的單一固定,但該架構(gòu)的動(dòng)機(jī)是處理視頻,從視頻中學(xué)習(xí)通常比從靜態(tài)圖像中學(xué)習(xí)容易得多[Sabour等人,2021],因此,我將簡(jiǎn)要討論最簡(jiǎn)單的時(shí)間擴(kuò)展,即對(duì)時(shí)變圖像的單一固定。

為避免混淆,區(qū)分三種不同類型的時(shí)間可能會(huì)有所幫助:

?事件時(shí)間:這是事件發(fā)生的實(shí)際時(shí)間。

表示時(shí)間:這是神經(jīng)網(wǎng)絡(luò)中事件的特定表示發(fā)生的實(shí)際時(shí)間。如果自下而上的神經(jīng)網(wǎng)絡(luò)使用預(yù)測(cè)模型,事件的表示可以與事件本身同步,甚至可以先于事件,這將使接球更容易。

?參考時(shí)間:這是內(nèi)部表示所指的實(shí)際時(shí)間。例如,當(dāng)檢索內(nèi)存時(shí),構(gòu)造的表示的參考時(shí)間通常早于表示時(shí)間。如果內(nèi)存不正確,參考時(shí)間也可能與事件時(shí)間相差很大。

對(duì)于表示靜態(tài)圖像的幀序列,可以使用多個(gè)時(shí)間步來確定每個(gè)級(jí)別上的一組適當(dāng)孤島。但在動(dòng)態(tài)圖像中,也必須使用相同的時(shí)間步長來處理這樣一個(gè)事實(shí),即每層位置的居住者都可以隨時(shí)間變化。

使用相同向量的孤島來表示對(duì)象的一個(gè)優(yōu)點(diǎn)是,與對(duì)象的大小相比較小的連續(xù)幀之間的運(yùn)動(dòng)只需要對(duì)對(duì)象級(jí)別的位置的一小部分進(jìn)行較大的更改。保留在對(duì)象內(nèi)的所有位置只需稍微改變,以表示對(duì)象相對(duì)于攝影機(jī)的姿勢(shì)的輕微變化。

如果圖像中的變化很小且可預(yù)測(cè),則固定點(diǎn)變化后的時(shí)間步長可用于允許所有級(jí)別的嵌入在緩慢變化的一致島上,以跟蹤動(dòng)態(tài)圖像中的變化。最低級(jí)別的嵌入可能變化非常快,但它們應(yīng)該從上述級(jí)別更穩(wěn)定的嵌入中得到良好的自上而下預(yù)測(cè)。一旦嵌入形成了可感知的孤島,那么使用相同的時(shí)間步長來改進(jìn)每個(gè)幀的解釋并保持嵌入鎖定在動(dòng)態(tài)圖像上就沒有問題了。

如果變化很快,就沒有時(shí)間迭代地確定用于解釋特定幀的一組好的嵌入向量。這意味著,如果圖像變化迅速,GLOM架構(gòu)無法正確解釋復(fù)雜的形狀。試著把一個(gè)形狀不規(guī)則的土豆扔到空中,使它以每秒一到兩個(gè)周期的速度旋轉(zhuǎn)。即使你順利地跟蹤土豆,你也看不到它是什么形狀。

GLOM在生物學(xué)上是否合理?

雖然GLOM是受生物學(xué)啟發(fā)的,但它的幾個(gè)特點(diǎn)似乎使它作為一個(gè)生物學(xué)模型非常不可信。這里介紹了其中的三個(gè)特性。

?不同列中自下而上或自上而下模型之間的權(quán)重分配。

?需要在不中斷視頻管道的情況下,處理對(duì)比學(xué)習(xí)中的負(fù)面示例對(duì)。

?使用反向傳播學(xué)習(xí)自上而下和自下而上模型的隱藏層。

12.1新皮層是一個(gè)巨大的釀酒廠嗎?

DNA在每個(gè)細(xì)胞中的復(fù)制都是無問題的:這就是DNA擅長的。但生物學(xué)家經(jīng)常反對(duì)使用重量共享的模型,聲稱沒有明顯的方法復(fù)制重量[Lillicrap等人,2020]。然而,GLOM提出了一種通過使用上下文監(jiān)督來解決這個(gè)問題的相當(dāng)簡(jiǎn)單的方法。在真實(shí)的大腦中,我們想要的是一種有效的方法,在某個(gè)位置訓(xùn)練自下而上和自上而下的網(wǎng)絡(luò),以便它們計(jì)算出與其他位置對(duì)應(yīng)網(wǎng)絡(luò)相同的函數(shù)。只要相應(yīng)的網(wǎng)絡(luò)在功能上相同,權(quán)重就不需要相同。我們可以通過知識(shí)提煉來實(shí)現(xiàn)這一點(diǎn)[Buciluˇa等人,2006年,Hinton等人,2014年]。對(duì)于每個(gè)級(jí)別,每個(gè)位置的兩個(gè)學(xué)生分別是自下而上和自上而下的神經(jīng)網(wǎng)絡(luò)。教師是一致意見,即兩名學(xué)生的意見、先前嵌入狀態(tài)和其他位置的注意力加權(quán)嵌入的加權(quán)幾何平均值29。

將學(xué)生的預(yù)測(cè)回歸到共識(shí),可以通過注意力加權(quán)平均將其他位置的神經(jīng)網(wǎng)絡(luò)中的知識(shí)傳遞給學(xué)生。它不如與其他神經(jīng)網(wǎng)絡(luò)共享權(quán)重那樣有效,但效果相當(dāng)好[Hinton et al.,2014],從長遠(yuǎn)來看,如果數(shù)據(jù)分布是平移不變的,所有網(wǎng)絡(luò)都將收斂到非常相似的函數(shù)。然而,從長遠(yuǎn)來看,我們都已經(jīng)30歲了。因此,有趣的是,在局部模型完全不同的情況下,考慮在收斂之前會(huì)發(fā)生什么。假設(shè)構(gòu)成鼻子的所有位置在部分級(jí)別具有相同的嵌入向量。如果它們都有完全相同的自底向上模型,那么它們都會(huì)在對(duì)象級(jí)別對(duì)人臉做出完全相同的預(yù)測(cè)。但是,如果不同位置的自底向上模型有所不同,我們將在對(duì)象級(jí)別上獲得強(qiáng)大的整體效應(yīng):對(duì)于不同位置的同一對(duì)象,所有同時(shí)進(jìn)行的自底向上預(yù)測(cè)的平均值將比單個(gè)預(yù)測(cè)好得多。

通過蒸餾而不是復(fù)制權(quán)重在不同位置共享知識(shí)的一個(gè)優(yōu)點(diǎn)是,不同位置的自底向上模型的輸入不需要具有相同的結(jié)構(gòu)。這使得視網(wǎng)膜的感受野在離中央凹較遠(yuǎn)的地方逐漸變大變得很容易,而在卷積網(wǎng)中使用重量分擔(dān)是很難處理的。許多其他方面,如離中心凹較遠(yuǎn)的色差增加也很容易處理。位于不同位置的兩個(gè)對(duì)應(yīng)網(wǎng)絡(luò)應(yīng)學(xué)會(huì)計(jì)算光學(xué)陣列的相同功能,即使該陣列在呈現(xiàn)給兩個(gè)網(wǎng)絡(luò)之前通過成像過程進(jìn)行了不同的預(yù)處理。共蒸餾還意味著自上而下的模型不需要接收它們的位置作為輸入,因?yàn)閷?duì)于任何給定的模型它總是相同的。


最后,使用蒸餾在特定位置的神經(jīng)網(wǎng)絡(luò)之間共享知識(shí)解決了一個(gè)難題,即視覺系統(tǒng)中的突觸數(shù)量(約1013個(gè))與我們頭十年的固定數(shù)量(約109個(gè))之間存在差異。出于對(duì)過度擬合的擔(dān)憂,保守的統(tǒng)計(jì)學(xué)家傾向于將這些數(shù)據(jù)反過來計(jì)算31。如果我們?cè)诓煌奈恢檬褂?04個(gè)列,那么在一個(gè)位置的自底向上和自頂向下模型之間只有大約109個(gè)突觸。相反,用于學(xué)習(xí)在104個(gè)地點(diǎn)的集合中共享的知識(shí)的培訓(xùn)示例數(shù)量約為1013個(gè),盡管其中許多示例具有高度相關(guān)性。

與當(dāng)前使用的一些高度過參數(shù)化的網(wǎng)絡(luò)相比,訓(xùn)練案例多于參數(shù)的神經(jīng)網(wǎng)絡(luò)沒有那么神奇,但當(dāng)呈現(xiàn)在其訓(xùn)練分布之外的數(shù)據(jù)時(shí),它們可能會(huì)以更可預(yù)測(cè)的方式進(jìn)行推廣,因?yàn)樗鼈冇?jì)算的函數(shù)更受參數(shù)的高度約束數(shù)據(jù)

12.2睡眠在對(duì)比學(xué)習(xí)中的作用?

如果需要否定的例子,GLOM作為一個(gè)生物學(xué)模型可能看起來不太可信,因?yàn)榘l(fā)現(xiàn)和處理一對(duì)相似的圖像會(huì)增加復(fù)雜性,而這些圖像不應(yīng)該是相似的。然而,在1983年和2020年與Terry Sejnowski的對(duì)話中出現(xiàn)了一種有趣的可能性。

當(dāng)使用對(duì)比學(xué)習(xí)來獲得與相鄰視頻幀相似的表示時(shí),最有效的負(fù)面示例是同一視頻中相鄰但不直接相鄰的幀。我們可以通過在夜間使GLOM離線來進(jìn)行負(fù)面學(xué)習(xí),以防止表示崩潰,從而避免影響GLOM的實(shí)時(shí)性能。如果最高級(jí)別的嵌入能夠在最高級(jí)別生成序列,則可以使用自頂向下的網(wǎng)絡(luò)在每個(gè)列的每個(gè)級(jí)別生成嵌入序列。這個(gè)過程不需要在列之間引起任何注意,因?yàn)樗恍枰獔?zhí)行感知推理,因此它可能能夠以比正常速度快得多的速度生成合理的序列。然后,我們只需使用與清醒時(shí)相同的實(shí)時(shí)窗口長度,對(duì)自底向上模型進(jìn)行負(fù)學(xué)習(xí)。有證據(jù)表明,高速、自上而下的序列生成發(fā)生在睡眠的紡錘體階段[Lee和Wilson,2002年,N'adasdy等人,1999年]。

睡眠被用來分隔不應(yīng)混淆的表征的想法并不新鮮[Crick和Mitchison,1983]。Hinton和Sejnowski[Hinton和Sejnowski,1986]甚至提出,睡眠可以用于在Boltzmann機(jī)器學(xué)習(xí)的負(fù)階段遵循規(guī)范化項(xiàng)的導(dǎo)數(shù)。但這種想法的轉(zhuǎn)世比玻爾茲曼機(jī)器有兩大優(yōu)勢(shì)。首先,對(duì)比無監(jiān)督學(xué)習(xí)比Boltzmann機(jī)器學(xué)習(xí)更好,其次,它更能容忍正負(fù)階段之間的時(shí)間分離。

使用MNIST數(shù)字對(duì)比學(xué)習(xí)的初步實(shí)驗(yàn)表明,如果在大量正面更新之后緊接著大量負(fù)面更新,那么這種學(xué)習(xí)仍然有效。在純正面學(xué)習(xí)過程中,表征崩潰相當(dāng)緩慢,表征可以收縮一個(gè)顯著因素,而不會(huì)對(duì)性能產(chǎn)生太大影響。因此,可能一些應(yīng)該很好地分開的嵌入件在白天靠得太近,然后在晚上再次被推開。這就解釋了為什么完全剝奪幾天的睡眠會(huì)導(dǎo)致如此嚴(yán)重的精神混亂32。MNIST的實(shí)驗(yàn)還表明,經(jīng)過大量的純正面學(xué)習(xí)后,性能會(huì)下降,但通過少量的負(fù)面學(xué)習(xí)會(huì)迅速恢復(fù)。

為了避免長時(shí)間的純消極學(xué)習(xí),建議從睡眠的消極階段開始,將表征分開,然后使用從頂層生成的輸入序列,甚至從靠近感覺輸入的循環(huán)網(wǎng)絡(luò)生成的輸入序列,與積極階段交替。這與克里克·米奇森(Crick Mitchison)關(guān)于快速眼動(dòng)睡眠是為了忘卻學(xué)習(xí)的理論相沖突,但如果情景記憶提取依賴于頂層,頂層根本無法在快速眼動(dòng)睡眠中學(xué)習(xí),因?yàn)檫@些事件根本沒有發(fā)生,那么這仍然與我們無法記住幾乎所有的夢(mèng)相一致。

12.3大腦中的溝通錯(cuò)誤衍生物

訓(xùn)練GLOM的直接方法是要求它填充圖像的缺失區(qū)域,并使用時(shí)間反向傳播在整體時(shí)間確定過程中反向傳播重建誤差。每個(gè)層次的對(duì)比表征學(xué)習(xí)都可以看作是一個(gè)額外的正則化過程。不幸的是,很難看出大腦是如何通過多個(gè)時(shí)間步反向傳播的。然而,如果每個(gè)層面的一致意見都能為預(yù)測(cè)該層面嵌入向量的自下而上和自上而下模型提供足夠的教學(xué)信號(hào),那么在大腦中實(shí)現(xiàn)就變得更加可行。

如果我們能夠確保這些陳述隨著時(shí)間的推移而得到改進(jìn),神經(jīng)活動(dòng)的時(shí)間導(dǎo)數(shù)可能代表誤差導(dǎo)數(shù),局部學(xué)習(xí)過程將是棘波時(shí)間依賴性可塑性,其中突觸強(qiáng)度的增加與突觸前活動(dòng)與突觸后活動(dòng)增加率的乘積成正比。33假設(shè)棘波是由作為一個(gè)潛在的速率變量,我們可以通過對(duì)突觸后尖峰序列應(yīng)用導(dǎo)數(shù)濾波器,得到這個(gè)潛在速率變量變化率的一個(gè)有噪聲但無偏的估計(jì)34,這正是STDP所做的。

最近的一篇綜述論文[Lillicrap et al.,2020]詳細(xì)討論了如何將時(shí)間導(dǎo)數(shù)用作誤差導(dǎo)數(shù),以近似前饋網(wǎng)絡(luò)中的反向傳播35。審查文件假設(shè)了一個(gè)單獨(dú)的階段,在該階段中,以活動(dòng)擾動(dòng)形式存在的衍生品可以從較高的水平流回到較低的水平。對(duì)于視頻管道來說,這個(gè)過程似乎不合理。相比之下,GLOM的確定過程將學(xué)習(xí)所需的導(dǎo)數(shù)傳播為各級(jí)活動(dòng)的時(shí)間導(dǎo)數(shù),并且該傳播所需的時(shí)間步長可以與用于視頻幀的時(shí)間步長完全相同。

對(duì)于動(dòng)態(tài)圖像而言,其表現(xiàn)形式不斷改善似乎有些自相矛盾,但這并不比一個(gè)沖浪者在不改變海拔高度的情況下不斷下山更為自相矛盾。沖浪者下山的表面不是同一個(gè)表面。類似地,現(xiàn)實(shí)的時(shí)間片(代表性永遠(yuǎn)在改善)也不是同一個(gè)時(shí)間片。大腦瀏覽現(xiàn)實(shí)。

不幸的是,這并不能解釋如何獲得學(xué)習(xí)自下而上和自上而下神經(jīng)網(wǎng)絡(luò)隱藏層所需的導(dǎo)數(shù)。它也沒有解釋如何通過自下而上或自上而下的網(wǎng)絡(luò)反向傳播每個(gè)級(jí)別的誤差信號(hào)導(dǎo)數(shù),從而對(duì)相鄰級(jí)別的導(dǎo)數(shù)做出適當(dāng)?shù)呢暙I(xiàn)。這些棘手的問題將在另一份正在編寫的文件中討論。

13討論

本文一開始是作為一個(gè)實(shí)現(xiàn)的設(shè)計(jì)文檔,但很快就被證明設(shè)計(jì)決策正確性的需要所劫持。我使用了想象中的GLOM架構(gòu)作為載體,傳達(dá)了一組關(guān)于神經(jīng)網(wǎng)絡(luò)視覺系統(tǒng)如何組織的相互關(guān)聯(lián)的想法。由于缺乏有效的實(shí)施,更容易集中精力清晰地表達(dá)想法,避免了混淆想法質(zhì)量和實(shí)施質(zhì)量的問題,但也造成了嚴(yán)重的信譽(yù)問題??茖W(xué)和哲學(xué)的區(qū)別在于,實(shí)驗(yàn)可以表明,極為合理的想法是錯(cuò)誤的,而極為不合理的想法,就像通過端到端的梯度學(xué)習(xí)整體復(fù)雜系統(tǒng)一樣,是正確的。我目前正在合作進(jìn)行一個(gè)項(xiàng)目,以測(cè)試GLOM架構(gòu)將形狀識(shí)別推廣到全新視角的能力,我希望其他小組也能測(cè)試這里提出的想法。這篇論文已經(jīng)寫得夠長了,所以我將在結(jié)束時(shí)做一些簡(jiǎn)短的哲學(xué)評(píng)論。

解析樹中的節(jié)點(diǎn)由相似向量的孤島表示的思想統(tǒng)一了理解感知的兩種截然不同的方法。第一種方法是古典格式塔心理學(xué),它試圖通過吸引領(lǐng)域來模擬感知,并被整體不同于部分總和的觀點(diǎn)所困擾36。在GLOM中,感知實(shí)際上是一個(gè)場(chǎng),表示整體的共享嵌入向量與表示部分的共享嵌入向量非常不同。第二種方法是經(jīng)典人工智能,它通過結(jié)構(gòu)描述對(duì)感知進(jìn)行建模。GLOM確實(shí)有結(jié)構(gòu)描述,解析樹中的每個(gè)節(jié)點(diǎn)都有自己的“地址”,但地址存在于可能嵌入的連續(xù)空間中,而不是硬件位置的離散空間中。

一些對(duì)深度學(xué)習(xí)持批評(píng)態(tài)度的人認(rèn)為,神經(jīng)網(wǎng)絡(luò)無法處理成分層次結(jié)構(gòu),需要有一個(gè)“神經(jīng)符號(hào)”接口,允許神經(jīng)網(wǎng)絡(luò)前端和后端將更高層次的推理交給一個(gè)更具符號(hào)性的系統(tǒng)37。我相信我們的主要推理模式是使用類比,而類比是通過學(xué)習(xí)到的高維向量之間的相似性實(shí)現(xiàn)的,一位汽車制造商花了五十年的時(shí)間闡述電動(dòng)機(jī)的不足之處,但最終還是愿意用電動(dòng)機(jī)將汽油注入發(fā)動(dòng)機(jī),這是一個(gè)很好的類比。

BERT[Devlin et al.,2018]取得了驚人的成功,再加上早期的研究表明,如果任務(wù)需要,神經(jīng)網(wǎng)絡(luò)可以輸出解析樹[Vinyals et al.,2014],這清楚地表明,如果需要,神經(jīng)網(wǎng)絡(luò)可以解析句子。通過構(gòu)建BERT中多個(gè)頭部之間的交互,使其對(duì)應(yīng)于表示的級(jí)別,并通過添加對(duì)比學(xué)習(xí)的正則化器來鼓勵(lì)每個(gè)級(jí)別上多個(gè)單詞片段的局部一致性島,可以證明GLOMBERT確實(shí)解析句子。

致謝

許多人幫助我得出了本文中描述的一系列想法。Terry Sejnowski、Ilya Sutskever、Andrea Tagliasacchi、Jay McClelland、Chris Williams、Rich Zemel、Sue Becker、Ruslan Salakhutdinov、Nitish Srivastava、Tijmen Tieleman、Taco Cohen、Vincent Sitzmann、Adam Kosoriek、Sara Sabour、Simon Kornbrith、Ting Chen、Boyang Deng和Lala Li特別有幫助。幫助我改進(jìn)想法表達(dá)的人包括大衛(wèi)·弗利特、大衛(wèi)·哈、邁克爾·伊薩德、基思·奧特利、西蒙·科恩布里斯、勞倫斯·索爾、蒂姆·沙利克、喬恩·什倫斯、安德里亞·塔格里亞薩基、阿什·瓦斯瓦尼和其他一些人。我要特別感謝杰夫·迪恩和大衛(wèi)·弗利特,感謝他們?yōu)楣雀鑴?chuàng)造了環(huán)境,使這項(xiàng)研究成為可能??赡苡泻芏喾浅O嚓P(guān)的論文我應(yīng)該讀,但我沒有讀,我期待著了解它們。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容