[TOC]
動(dòng)機(jī)
現(xiàn)有的 PTM 有以下缺點(diǎn):
- 以預(yù)訓(xùn)練的語(yǔ)言模型為例,
它們很好地學(xué)習(xí)頻繁詞的語(yǔ)義,但在受長(zhǎng)尾數(shù)據(jù)分布限制的稀有詞上表現(xiàn)不佳。同樣,這種數(shù)據(jù)分布也限制了 CV PTM 在具有長(zhǎng)尾類不平衡的實(shí)際應(yīng)用中的實(shí)用性。 - PTM 不擅長(zhǎng)推理。例如,預(yù)訓(xùn)練語(yǔ)言模型是統(tǒng)計(jì)模型,根據(jù)共現(xiàn)信號(hào)學(xué)習(xí)隱含關(guān)系,導(dǎo)致缺乏邏輯推理。盡管預(yù)訓(xùn)練的語(yǔ)言模型可以捕獲豐富的語(yǔ)言學(xué) [11]、語(yǔ)義 [12]、句法 [13] 甚至世界知識(shí) [14],
但 Cao 等人。 [15]表明,預(yù)訓(xùn)練語(yǔ)言模型的下降事實(shí)知識(shí)提取性能主要?dú)w功于有偏見(jiàn)提示 biased prompts。 [16] 中的實(shí)驗(yàn)還表明,預(yù)訓(xùn)練語(yǔ)言模型在需要推理的任務(wù)中表現(xiàn)不佳。同樣,CV 的 PTM 無(wú)法提取檢測(cè)到的對(duì)象之間的語(yǔ)義關(guān)系。
3.由于 PTM 在某些任務(wù)中的表現(xiàn)優(yōu)于人類,引發(fā)了倫理和社會(huì)問(wèn)題。正如我們所觀察到的,預(yù)訓(xùn)練的語(yǔ)言模型缺乏常識(shí)知識(shí)并生成不合邏輯的句子 [17]。因此,PTM 的可解釋性和問(wèn)責(zé)制對(duì)于普遍應(yīng)用它們變得至關(guān)重要。
神經(jīng)網(wǎng)絡(luò)和符號(hào)知識(shí)的結(jié)合揭示了這些問(wèn)題的可能解決方案。
一方面,知識(shí)圖譜等符號(hào)知識(shí)對(duì)稀有詞的覆蓋率很高,解決了缺乏文本監(jiān)督的問(wèn)題[18],[19]。 除此之外,它們還為模型提供全面的關(guān)系信息 [20]、[21] 和/或顯式規(guī)則 [22],以增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型的推理能力。
另一方面,符號(hào)知識(shí)提高了下游任務(wù)中知識(shí)使用的可解釋性[23]。
此外,對(duì)于特定的下游應(yīng)用程序 [24]、[25],無(wú)需從頭開始訓(xùn)練即可將知識(shí) 1 攝取到預(yù)訓(xùn)練的檢查點(diǎn)中是切實(shí)可行的。 因此,有希望將知識(shí)與預(yù)訓(xùn)練的語(yǔ)言模型相結(jié)合,以實(shí)現(xiàn)更通用的人工智能。
本次調(diào)查的貢獻(xiàn)可總結(jié)如下:
? 全面總結(jié)。我們對(duì) NLP 和 CV 中的預(yù)訓(xùn)練模型以及知識(shí)表示學(xué)習(xí)進(jìn)行了全面總結(jié)。
? 新分類法。我們提出了 KEPTM 的分類法,從知識(shí)的粒度、知識(shí)注入的方法和符號(hào)知識(shí)參數(shù)化的程度對(duì)現(xiàn)有的 KEPTM 進(jìn)行分類。
? 性能分析。我們從應(yīng)用場(chǎng)景的范圍、知識(shí)注入的有效性、知識(shí)的管理和可解釋性的角度分析了不同類別 PTM 的優(yōu)缺點(diǎn)。
? 未來(lái)發(fā)展方向。我們討論了現(xiàn)有 KEPTM 的挑戰(zhàn),并提出了一些可能的未來(lái)研究方向。
調(diào)查的其余部分安排如下。
第 2 節(jié)概述了預(yù)訓(xùn)練模型和知識(shí)表示學(xué)習(xí)的進(jìn)展。
第 3 節(jié)介紹了分類原則和相應(yīng)的綜合分類法。
在第 3 節(jié)分類之后,第 4 節(jié)介紹了各種 KEPTM 的工作原理并分析了其優(yōu)缺點(diǎn),并從不同維度比較了現(xiàn)有的 KEPTM。
第 5 節(jié)討論了當(dāng)前的挑戰(zhàn)并提出了未來(lái)的方向。
背景
預(yù)訓(xùn)練模型
預(yù)訓(xùn)練模型可以從大量原始感官數(shù)據(jù)中提取高級(jí)特征以獲得有效的表示,并在微調(diào)預(yù)訓(xùn)練模型后將其應(yīng)用于下游任務(wù)。
預(yù)訓(xùn)練模型的有效性很大程度上取決于模型編碼器的表示學(xué)習(xí)。
表示學(xué)習(xí)是指學(xué)習(xí)數(shù)據(jù)的表示,以便在構(gòu)建分類器或其他預(yù)測(cè)器時(shí)更容易提取有用的信息[26]。表示學(xué)習(xí)社區(qū)中有兩種主流范式:概率圖形模型和神經(jīng)網(wǎng)絡(luò)。概率圖模型通過(guò)對(duì)樣本數(shù)據(jù)中潛在變量的后驗(yàn)分布進(jìn)行建模來(lái)學(xué)習(xí)特征表示,包括有向圖模型和無(wú)向圖模型。
神經(jīng)網(wǎng)絡(luò)模型大多使用由編碼器和解碼器組成的自動(dòng)編碼器。編碼器負(fù)責(zé)特征提取,而解碼器通過(guò)應(yīng)用正則化重建目標(biāo)來(lái)重建輸入。
與概率圖形模型相比,基于神經(jīng)網(wǎng)絡(luò)的模型具有以下優(yōu)點(diǎn)。
首先,神經(jīng)網(wǎng)絡(luò)可以用分布式向量而不是稀疏向量來(lái)表達(dá)更多可能的特征。
其次,考慮到現(xiàn)有數(shù)據(jù)主要是多個(gè)潛在因素相互作用的結(jié)果,分布式向量可以通過(guò)設(shè)計(jì)特定的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)表示不同的影響因素。
最后,深度神經(jīng)網(wǎng)絡(luò)的底層神經(jīng)層將從數(shù)據(jù)中學(xué)習(xí)到的具體特征轉(zhuǎn)換為上層的抽象特征,并隨著輸入數(shù)據(jù)的局部變化保持穩(wěn)定,增強(qiáng)了表示在許多下游任務(wù)中泛化的魯棒性。
遵循基于自動(dòng)編碼器的神經(jīng)模型,預(yù)訓(xùn)練模型設(shè)計(jì)特定的神經(jīng)網(wǎng)絡(luò)來(lái)編碼輸入數(shù)據(jù),同時(shí)使用預(yù)訓(xùn)練任務(wù)來(lái)解碼學(xué)習(xí)表示。經(jīng)過(guò)微調(diào)后,預(yù)訓(xùn)練模型可以輕松適應(yīng)各種 NLP 和 CV,甚至是跨模態(tài)任務(wù)。
我們主要將模型分為預(yù)訓(xùn)練CV 和預(yù)訓(xùn)練語(yǔ)言模型。
預(yù)訓(xùn)練 CV 模型
預(yù)訓(xùn)練的 CV 模型已成為圖像分類、對(duì)象檢測(cè)和語(yǔ)義分割的強(qiáng)大策略。
作為第一個(gè)探索用于通用目標(biāo)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò) (CNN),Girshick 等人。 [27] 通過(guò)將 AlexNet [28] 與區(qū)域提議選擇性搜索 [29] 相結(jié)合,實(shí)現(xiàn)了高目標(biāo)檢測(cè)質(zhì)量。受其在測(cè)試期間效率低下的激勵(lì),He 等人。 [30] 將傳統(tǒng)的空間金字塔池引入到 CNN 架構(gòu)中。 Fast RCNN [31] 同時(shí)學(xué)習(xí) softmax 分類器和特定類別的邊界框回歸,以進(jìn)一步提高檢測(cè)速度和質(zhì)量,而 Faster RCNN [7] 減輕了對(duì)外部區(qū)域提議的依賴。基于 Faster RCNN,Mask RCNN [32] 在對(duì)象檢測(cè)和實(shí)例分割方面取得了有希望的結(jié)果,而 Faster RCNN 的開銷很小。除了基于區(qū)域的方法之外,研究人員還開發(fā)了統(tǒng)一的檢測(cè)策略。作為 ILSVRC2013 [33] 定位和檢測(cè)競(jìng)賽的獲勝者,OverFeat [34] 通過(guò)網(wǎng)絡(luò)中的全卷積層的單次前向傳遞執(zhí)行目標(biāo)檢測(cè),因此具有顯著的速度優(yōu)勢(shì)。 YOLO 系列將對(duì)象檢測(cè)轉(zhuǎn)換為回歸問(wèn)題,并在標(biāo)準(zhǔn)檢測(cè)任務(wù)上達(dá)到最先進(jìn)的結(jié)果。與 YOLO 相比,SSD [35] 在保持高檢測(cè)質(zhì)量的同時(shí)實(shí)現(xiàn)了更快的檢測(cè)速度。 VGG [8] 作為一種流行的架構(gòu)適用于分類和圖像識(shí)別任務(wù)。基于對(duì)象檢測(cè)結(jié)果,SDS [36]使用與類別無(wú)關(guān)的自下而上對(duì)象提議進(jìn)行語(yǔ)義分割。龍等人。 [36]提出了端到端訓(xùn)練的卷積網(wǎng)絡(luò),而不依賴于區(qū)域提議。有關(guān)預(yù)訓(xùn)練 CV 模型的更多詳細(xì)信息,我們請(qǐng)讀者參考 [37]、[38]。
Pre-trained Language Models
Token-based Pre-trained Models
源自 Bengio 在 2003 年提出的 NNLM [51],單詞的分布式表示是在訓(xùn)練過(guò)程中作為副產(chǎn)品生成的。根據(jù)具有相似上下文的單詞具有相似語(yǔ)義的假設(shè),Mikolov 等人。 [39],
[40] 提出了兩種淺層架構(gòu):Continuous Bagof-Words (CBOW) 和 Skip-Gram (SG) 來(lái)捕獲單詞之間潛在的句法和語(yǔ)義相似性。此外,GloVe [41] 計(jì)算來(lái)自大型語(yǔ)料庫(kù)的詞詞共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)作為監(jiān)督信號(hào),F(xiàn)astText [42] 使用文本分類數(shù)據(jù)訓(xùn)練模型。隨著上述所有基于標(biāo)記的預(yù)訓(xùn)練模型的出現(xiàn),詞嵌入已普遍用作 NLP 任務(wù)中的文本表示。盡管這些模型簡(jiǎn)單有效,但它們僅適用于獲得固定表示而不是捕獲多義詞。這也是我們將這種模型稱為靜態(tài)預(yù)訓(xùn)練模型的原因。
Context-based Pre-trained Models
為了解決多義問(wèn)題,預(yù)訓(xùn)練模型需要區(qū)分單詞的語(yǔ)義并在不同的上下文中動(dòng)態(tài)生成單詞嵌入。 給定一個(gè)文本 x 1 ,x 2 ,··· ,x T 其中每個(gè)標(biāo)記 x t 是一個(gè)詞或子詞,x t 的上下文表示取決于整個(gè)文本。
以 LSTM [52] 作為神經(jīng)編碼器,ELMo [43] 模型從雙向語(yǔ)言模型中提取上下文相關(guān)的表示,這已證明可以為一系列 NLP 任務(wù)帶來(lái)很大的改進(jìn)。然而,ELMo 通常用作特征提取器來(lái)為下游任務(wù)的主模型生成初始嵌入,這意味著主模型的其余參數(shù)必須從頭開始訓(xùn)練。
同時(shí),ULMFiT [53] 的提議為模型提供了有價(jià)值的多階段遷移和微調(diào)技能。此外,Transformer [54] 在機(jī)器翻譯方面取得了驚人的成功,并被證明在處理遠(yuǎn)程文本依賴方面比 LSTM 更有效。在此背景下,OpenAI 提出了 GPT [4],它采用修改后的 Transformer 解碼器作為語(yǔ)言模型來(lái)學(xué)習(xí)可轉(zhuǎn)移到廣泛下游任務(wù)的通用表示,在 12 個(gè) NLP 任務(wù)中的 9 個(gè)中優(yōu)于特定于任務(wù)的架構(gòu)。 GPT-2 和 GPT-3 [5]、[55] 主要遵循架構(gòu)并在更大、更多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練,以從不同的領(lǐng)域?qū)W習(xí)。然而,受單向編碼器的限制,GPT 系列只能關(guān)注其左側(cè)上下文,從而導(dǎo)致學(xué)習(xí)句子級(jí)語(yǔ)義的次優(yōu)。為了克服這一缺陷,BERT [6] 采用了掩碼語(yǔ)言建模 (MLM) 目標(biāo),其中序列的一些標(biāo)記被隨機(jī)屏蔽,目標(biāo)是在考慮損壞句子的情況下預(yù)測(cè)這些標(biāo)記。受 Skip-Thoughts [56] 的啟發(fā),BERT 還采用下一句預(yù)測(cè)(NSP)任務(wù)來(lái)學(xué)習(xí)句子之間的語(yǔ)義聯(lián)系,在 11 個(gè) NLP 任務(wù)上獲得了新的 start-ofart 結(jié)果,甚至成為后續(xù)模型的基礎(chǔ)。在 BERT 的基礎(chǔ)上,RoBERTa [45] 設(shè)計(jì)了一些改進(jìn)的訓(xùn)練方案,包括在更多數(shù)據(jù)上使用更大的批次進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練、修改目標(biāo)、對(duì)長(zhǎng)序列進(jìn)行訓(xùn)練以及動(dòng)態(tài)更改掩碼模式,從而顯著提高 BERT 的性能。為了克服 BERT 的預(yù)訓(xùn)練和微調(diào)之間的差異,XLNet [44] 提出了一種基于置換語(yǔ)言建模的新自回歸方法,以在不引入任何新符號(hào)的情況下捕獲上下文信息。
與上述所有這些針對(duì)自然理解或生成任務(wù)的預(yù)訓(xùn)練模型不同,T5 [46] 采用編碼器-解碼器框架通過(guò)將數(shù)據(jù)轉(zhuǎn)換為文本到文本格式來(lái)統(tǒng)一自然理解和生成。 有關(guān)預(yù)訓(xùn)練語(yǔ)言模型的更多詳細(xì)信息,我們請(qǐng)讀者參考 [57]、[58]。
Knowledge Representation Learning
知識(shí)
知識(shí)是對(duì)某人或某事的熟悉、認(rèn)識(shí)或理解,例如事實(shí)(描述性知識(shí))、技能(程序性知識(shí))或?qū)ο?。大衛(wèi)等人。 [59]將知識(shí)分為四類,即事實(shí)性知識(shí)、概念性知識(shí)、程序性知識(shí)和元認(rèn)知知識(shí)。事實(shí)性知識(shí)是指描述客觀事物的術(shù)語(yǔ)和具體細(xì)節(jié)和要素的知識(shí)。概念性知識(shí)是一個(gè)更大結(jié)構(gòu)內(nèi)的基本要素之間的相互關(guān)系,使它們能夠共同發(fā)揮作用,例如原理、概括和理論。程序性知識(shí)是指指導(dǎo)行動(dòng)的知識(shí),包括探究方法和使用技能、算法、技術(shù)和方法的標(biāo)準(zhǔn)。元認(rèn)知知識(shí)強(qiáng)調(diào)自我能動(dòng)性,是一般的認(rèn)知知識(shí),也是意識(shí)的知識(shí)。
知識(shí)表示方法
傳統(tǒng)的知識(shí)表示方法包括一階謂詞邏輯、框架表示[61]、腳本表示[62]、語(yǔ)義網(wǎng)絡(luò)表示[63]和本體表示。一階謂詞邏輯的基本語(yǔ)法要素是表示對(duì)象、關(guān)系和功能的符號(hào),其中對(duì)象指代事物的個(gè)體或范疇,關(guān)系指事物之間的映射,而功能則需要每個(gè)對(duì)象中的對(duì)象。域具有映射值作為謂詞的特殊形式。這種方法雖然可以保證知識(shí)表示的一致性和推理結(jié)果的正確性,但難以表示程序性知識(shí)。
語(yǔ)義網(wǎng)絡(luò)是由有向圖表示的概念網(wǎng)絡(luò),其中節(jié)點(diǎn)表示概念,邊表示概念之間的語(yǔ)義關(guān)系,也可以轉(zhuǎn)化為三元組。它可以以統(tǒng)一和直接的方式描述知識(shí),有利于計(jì)算機(jī)存儲(chǔ)和檢索。但是,它只能代表概念性知識(shí),而不能代表過(guò)程知識(shí)等動(dòng)態(tài)知識(shí)。
框架表示通過(guò)框架的層次結(jié)構(gòu)組織知識(shí),其中每個(gè)實(shí)體由一個(gè)包含多個(gè)用于存儲(chǔ)屬性和相應(yīng)值的槽的框架表示。它通過(guò)繼承一個(gè)人的屬性來(lái)避免框架的重復(fù)定義。由于現(xiàn)實(shí)世界的多樣性和復(fù)雜性,許多實(shí)際情況和框架差異很大,在框架設(shè)計(jì)過(guò)程中引入了錯(cuò)誤或沖突,導(dǎo)致除了無(wú)法表示程序性知識(shí)外,缺乏通用性。
腳本化表示通過(guò)一系列原子動(dòng)作來(lái)表示事物的基本行為,描述事物以確定的時(shí)間或因果順序發(fā)生,并用于動(dòng)態(tài)知識(shí)。雖然它可以在一定程度上代表程序性知識(shí),但不適用于概念性或事實(shí)性知識(shí)。
最初,本體論一詞來(lái)自哲學(xué),用于描述世界上存在者的存在。為了獲得具有推理能力的模型,研究人員采用術(shù)語(yǔ)本體來(lái)描述程序中可以計(jì)算表示的世界。 CYC [64] 是一個(gè)按照本體規(guī)范構(gòu)建的知識(shí)庫(kù),旨在組織人類常識(shí)知識(shí)。由于本體可以表示一致認(rèn)可的靜態(tài)領(lǐng)域知識(shí),因此它也用于信息檢索和 NLP。 WordNet [65] 是基于單詞本體創(chuàng)建的。除了靜態(tài)知識(shí)建模之外,還設(shè)計(jì)了特定于任務(wù)的本體,以添加基于靜態(tài)知識(shí)的推理能力。
為了促進(jìn)語(yǔ)義理解,Tim 等人。 [66] 在 2001 年提出語(yǔ)義 Web 概念,以構(gòu)建一個(gè)大型分布式數(shù)據(jù)庫(kù),通過(guò)語(yǔ)義而不是字符串來(lái)鏈接數(shù)據(jù)。為了使計(jì)算機(jī)可以理解數(shù)據(jù),W3C 提出了資源描述框架(RDF)[67],它使用語(yǔ)義網(wǎng)絡(luò)表示以三元組的形式表達(dá)語(yǔ)義。這種形式可以很容易地通過(guò)圖來(lái)實(shí)現(xiàn),以應(yīng)用概率圖和圖論的圖算法來(lái)解決問(wèn)題。此外,Web Ontology Language (OWL) 旨在賦予計(jì)算機(jī)推理能力,它描述了符合本體表示的事物的類別、屬性和實(shí)例。
在工程實(shí)現(xiàn)中,知識(shí)圖譜(KG)是以實(shí)體為節(jié)點(diǎn),以關(guān)系為邊的網(wǎng)絡(luò)表示的知識(shí)庫(kù)。具體來(lái)說(shuō),KG 通過(guò)語(yǔ)義網(wǎng)技術(shù)從網(wǎng)絡(luò)中獲取知識(shí)和相應(yīng)的描述,并組織成三元組。由于程序性知識(shí)管理難度大,確定性弱,現(xiàn)有的KG大多只包含概念性知識(shí)和事實(shí)性知識(shí),沒(méi)有程序性知識(shí)。
Knowledge Representation Learning
深度學(xué)習(xí)委托的知識(shí)表示學(xué)習(xí)(KRL)側(cè)重于知識(shí)庫(kù)中實(shí)體和關(guān)系的表示學(xué)習(xí),有效衡量實(shí)體和關(guān)系的語(yǔ)義相關(guān)性,緩解稀疏問(wèn)題。更重要的是,在知識(shí)表示學(xué)習(xí)之后,符號(hào)知識(shí)可以更容易地與基于神經(jīng)網(wǎng)絡(luò)的模型集成。
平移距離模型
使用基于距離的評(píng)分函數(shù),這種類型的模型將事實(shí)的合理性衡量為關(guān)系執(zhí)行平移后兩個(gè)實(shí)體之間的距離。受 [68] 中語(yǔ)言規(guī)律的啟發(fā),TransE [69] 表示 d 維向量空間中的實(shí)體和關(guān)系,使得嵌入的實(shí)體 h 和 t 可以通過(guò)平移向量 r 連接,即當(dāng) (h, r, t) 成立。為了解決實(shí)體和關(guān)系的單個(gè)空間不足的問(wèn)題,TransH [70] 和 TransR [71] 允許實(shí)體在涉及不同關(guān)系時(shí)具有不同的表示。 TransH 引入了關(guān)系超平面,假設(shè)實(shí)體和關(guān)系共享相同的語(yǔ)義空間,而 TransR 利用分離的關(guān)系空間來(lái)考慮實(shí)體的不同屬性。 TransD [72] 認(rèn)為,即使具有相同的關(guān)系,實(shí)體也可以作為不同的類型,并通過(guò)考慮實(shí)體和關(guān)系之間的交互來(lái)構(gòu)建動(dòng)態(tài)映射矩陣。由于實(shí)體和關(guān)系的異質(zhì)性和不平衡性,TranSparse [73] 通過(guò)在投影矩陣上強(qiáng)制稀疏來(lái)簡(jiǎn)化 TransR。
語(yǔ)義匹配模型
語(yǔ)義匹配模型通過(guò)匹配實(shí)體的潛在語(yǔ)義和關(guān)系與基于相似性的評(píng)分函數(shù)來(lái)衡量事實(shí)的合理性。 RESCAL [74] 將每個(gè)實(shí)體和關(guān)系分別與向量和矩陣相關(guān)聯(lián)。事實(shí)的得分 (h, r, t) 由雙線性函數(shù)定義。為了降低計(jì)算復(fù)雜度,DistMult [75] 通過(guò)限制與對(duì)角矩陣的關(guān)系來(lái)簡(jiǎn)化 RESCAL。將 RESCAL 的表達(dá)能力與 DistMult 的效率和簡(jiǎn)單性相結(jié)合,HolE [28] 用循環(huán)相關(guān)運(yùn)算組合實(shí)體表示,然后將組合向量與關(guān)系表示匹配以對(duì)三元組進(jìn)行評(píng)分。與上述模型不同,SME [76] 使用神經(jīng)網(wǎng)絡(luò)架構(gòu)在實(shí)體和關(guān)系之間進(jìn)行語(yǔ)義匹配。 NTN [77] 將投影實(shí)體與關(guān)系張量相結(jié)合,并在關(guān)系線性輸出層之后預(yù)測(cè)分?jǐn)?shù)。
圖神經(jīng)網(wǎng)絡(luò)模型
上述模型僅通過(guò)存儲(chǔ)為三元組集合的事實(shí)嵌入實(shí)體和關(guān)系,而基于圖神經(jīng)網(wǎng)絡(luò)的模型考慮了圖的整個(gè)結(jié)構(gòu)。圖卷積網(wǎng)絡(luò) (GCN) 是在 [78] 中首次提出的,經(jīng)過(guò)不斷努力 [79]、[80]、[81]、[82],它已成為創(chuàng)建節(jié)點(diǎn)嵌入的有效工具,它聚合了圖鄰域中的局部信息對(duì)于每個(gè)節(jié)點(diǎn)。作為圖卷積網(wǎng)絡(luò)的擴(kuò)展,R-GCN [83]被開發(fā)用于處理現(xiàn)實(shí)知識(shí)庫(kù)的高度多關(guān)系數(shù)據(jù)特征。 SACN [84] 采用端到端網(wǎng)絡(luò)學(xué)習(xí)框架,其中編碼器利用圖節(jié)點(diǎn)結(jié)構(gòu)和屬性,解碼器簡(jiǎn)化 ConvE [85] 并保持 TransE 的平移特性。 Nathani 等人遵循 SACN 的相同框架。 [86] 提出了一種基于注意力的特征嵌入,它在編碼器中捕獲實(shí)體和關(guān)系特征。 Vashishth 等人。 [87]認(rèn)為在消息傳輸過(guò)程中應(yīng)綜合考慮關(guān)系和節(jié)點(diǎn)的結(jié)合。那里- 5
為此,他們提出了 CompGCN,它利用知識(shí)圖嵌入技術(shù)中的各種實(shí)體關(guān)系組合操作,并隨著關(guān)系的數(shù)量縮放以共同嵌入節(jié)點(diǎn)和關(guān)系。
KEPM的分類
3.1 分類原則
符號(hào)知識(shí)以實(shí)體描述、KG 和規(guī)則的形式為預(yù)訓(xùn)練模型提供豐富的信息,分別提供額外的實(shí)體特征、實(shí)體間關(guān)聯(lián)并指導(dǎo) PTM 的推理過(guò)程。 PTM 需要不同粒度的知識(shí)來(lái)解決不同的下游任務(wù)。然而,PTM 僅擁有知識(shí)是不夠的,它是一種有效的知識(shí)注入方法。這些方法對(duì)知識(shí)注入的效率、知識(shí)的存儲(chǔ)方式以及知識(shí)管理的難易程度都有顯著影響。除此之外,可解釋性和問(wèn)責(zé)制對(duì)于將 PTM 擴(kuò)展到更廣泛的應(yīng)用場(chǎng)景變得至關(guān)重要。已經(jīng)付出了很多努力來(lái)通過(guò)不同的探測(cè)方式來(lái)查看 PTM 中編碼的知識(shí) [88]。研究人員發(fā)現(xiàn),PLM 的標(biāo)記表示可以通過(guò)探測(cè)分類器 [89]、[90] 來(lái)捕獲句法和語(yǔ)義知識(shí)。問(wèn)答任務(wù)中的定量分析表明,PLM 可以編碼結(jié)構(gòu)化的常識(shí)知識(shí) [91]??死说热?。 [92] 探索了自注意力頭的功能,并報(bào)告說(shuō)他們?cè)谀承┚浞ㄎ恢蒙巷@著地注意單詞。盡管取得了這些成就,但沒(méi)有研究如何在下游任務(wù)中利用知識(shí)的可解釋性,特別是對(duì)于需要大量知識(shí)的任務(wù)。 PTM 缺乏確定和嚴(yán)格的計(jì)算形式,這對(duì)于需要顯式過(guò)程的推理任務(wù)尤其重要。因此,我們從知識(shí)粒度、知識(shí)注入方式、符號(hào)知識(shí)參數(shù)化程度三個(gè)維度對(duì)現(xiàn)有KEPTMs進(jìn)行分類,分析其對(duì)應(yīng)用范圍、知識(shí)注入效率和知識(shí)易用性的影響管理和可解釋性。
知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的分類
本節(jié)根據(jù)上面討論的維度給出了一個(gè)具體的分類。
知識(shí)粒度
KEPTM 集成了不同粒度的知識(shí),適用于需要不同細(xì)節(jié)級(jí)別信息的場(chǎng)景。一般來(lái)說(shuō),情感分析主要依賴于詞的特征,因此需要更多關(guān)于個(gè)體實(shí)體的信息。相比之下,文本生成任務(wù)依賴于基于常識(shí)知識(shí),問(wèn)答任務(wù)依賴規(guī)則和KG來(lái)推斷。根據(jù)知識(shí)集成的粒度,我們將 KEPTM 分為非結(jié)構(gòu)化知識(shí)和結(jié)構(gòu)化知識(shí)。前者由實(shí)體融合和文本融合的 KEPTM 組成,而后者又進(jìn)一步分為 sytax-tree fused、KG fused、rule fused KEPTM。
實(shí)體融合的 KEPTM
實(shí)體作為基本的語(yǔ)義單位,以詞、詞組和文字的形式存在?,F(xiàn)有的 KEPTM 通常將實(shí)體視為監(jiān)督數(shù)據(jù),以學(xué)習(xí)其語(yǔ)義或從中獲得額外的關(guān)鍵特征。稀有或歧義實(shí)體的信息使 PTM 能夠很好地學(xué)習(xí)其語(yǔ)義,并在命名實(shí)體識(shí)別 [93]、情感分析 [94]、詞義消歧甚至問(wèn)答任務(wù) [95] 中取得可喜的性能。
文本融合預(yù)訓(xùn)練模型
由于預(yù)訓(xùn)練以序列為輸入,因此無(wú)需額外處理即可輕松編碼文本。盡管它在表達(dá)上很靈活,但它不能提供明確的關(guān)系,主要有利于問(wèn)答。
語(yǔ)法樹融合的 KEPTM
句法知識(shí)提供了句子的關(guān)鍵成分,它們不僅有利于自然語(yǔ)言推理和理解任務(wù)[96],而且有利于句法解析[97]、語(yǔ)義角色標(biāo)記任務(wù)和共指解決。更重要的是,它可以通過(guò)各種方法加以利用。例如,它可以通過(guò)選擇語(yǔ)法樹的不同組成部分來(lái)用于監(jiān)督數(shù)據(jù)。此外,語(yǔ)法樹的結(jié)構(gòu)也可以通過(guò)圖神經(jīng)網(wǎng)絡(luò)(GNN)[98]進(jìn)行編碼。
KG 融合 KEPTM
隨著信息抽取技術(shù)的進(jìn)步,大量的通用知識(shí)圖譜和特定領(lǐng)域知識(shí)圖譜應(yīng)運(yùn)而生。知識(shí)圖譜提供了一種結(jié)構(gòu)化的方式來(lái)以實(shí)體和它們之間的關(guān)系的形式表示豐富的信息。在被 PTM 采用后,它們已成為各種任務(wù)的核心,包括一般的自然語(yǔ)言理解和生成任務(wù),以及圖像分類和視覺(jué)問(wèn)答。與語(yǔ)法樹類似,它們通過(guò)適當(dāng)?shù)?KRL [18]、[19] 充當(dāng)語(yǔ)義嵌入,或通過(guò)查詢 [21]、[99] 指導(dǎo)推理過(guò)程。
規(guī)則融合的 KEPTM
規(guī)則作為非正式約束或嚴(yán)格的邏輯表達(dá)式存在。它的主要好處是其由強(qiáng)有力的數(shù)學(xué)形式主義和明確的推理過(guò)程帶來(lái)的可解釋性和問(wèn)責(zé)制。這些規(guī)則不僅可以用作分配權(quán)重的監(jiān)督信號(hào)[100],還可以用作做出決策的獨(dú)立推理系統(tǒng)[23]。
知識(shí)注入方法法
知識(shí)注入的方法對(duì)于 PTM 與知識(shí)整合的有效性和效率,以及知識(shí)的管理和存儲(chǔ)都起著重要的作用。實(shí)際上,它決定了可以整合哪些知識(shí)以及知識(shí)的形式。為了深入了解知識(shí)是如何注入的,我們將模型分為特征融合、嵌入組合、知識(shí)監(jiān)督、數(shù)據(jù)結(jié)構(gòu)統(tǒng)一、基于檢索和規(guī)則引導(dǎo)的 KEPTM。
特征融合的 KEPTM
這種類型的模型從特定的知識(shí)庫(kù)中獲得諸如情感極性、超感和實(shí)體跨度等特征。特征 6 融合的 KEPTM 通常通過(guò)使用可訓(xùn)練矩陣投影到嵌入中來(lái)考慮它,并通過(guò)預(yù)訓(xùn)練任務(wù) [94]、[101]、[102] 來(lái)學(xué)習(xí)其含義。
嵌入組合的 KEPTM
為了填補(bǔ)符號(hào)知識(shí)和神經(jīng)網(wǎng)絡(luò)之間的空白,嵌入組合的 KEPTM 將符號(hào)知識(shí)轉(zhuǎn)換為嵌入,提前使用表示學(xué)習(xí)算法,這會(huì)極大地影響模型的性能。然后文本和實(shí)體中的標(biāo)記將通過(guò)注意力機(jī)制或其他加權(quán)操作[18],[19]對(duì)齊以結(jié)合它們的相應(yīng)嵌入。但是,由于對(duì)不同形式的知識(shí)有不同的表示學(xué)習(xí)算法,會(huì)存在異構(gòu)的語(yǔ)義空間。為了解決這個(gè)問(wèn)題,一些 KEPTM 生成節(jié)點(diǎn)的初始嵌入及其上下文 [20]、[103]。
數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM
由于結(jié)構(gòu)不兼容,一些工作對(duì) PTM 的知識(shí)注入和原始訓(xùn)練數(shù)據(jù)采用不同的表示學(xué)習(xí)算法。但是,它會(huì)導(dǎo)致語(yǔ)義空間異構(gòu),增加它們?nèi)诤系碾y度。為了平滑地集成它們,數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 將 KG 的關(guān)系三元組轉(zhuǎn)換為序列,因此使用相同的編碼器來(lái)學(xué)習(xí)嵌入 [24]、[104]、[105]。然而,統(tǒng)一數(shù)據(jù)結(jié)構(gòu)的構(gòu)建依賴于啟發(fā)式實(shí)現(xiàn),KG 的結(jié)構(gòu)信息被丟棄。
知識(shí)監(jiān)督的 KEPTM
為了避免額外的培訓(xùn)成本和工程設(shè)計(jì),知識(shí)監(jiān)督的 KEPTM 選擇滿足特定關(guān)系和/或關(guān)系三元組的實(shí)體作為訓(xùn)練數(shù)據(jù) [94]、[103]。正如我們上面所討論的,預(yù)訓(xùn)練的語(yǔ)言模型是一種統(tǒng)計(jì)模型,通過(guò)共現(xiàn)信號(hào)學(xué)習(xí)實(shí)體之間的關(guān)系。 KEPTMs 通過(guò)在不犧牲效率的情況下將關(guān)系三元組和/或?qū)嶓w與輸入序列連接起來(lái)克服了這個(gè)缺點(diǎn) [106]、[107]。
基于檢索的 KEPTM
基于檢索的 KEPTM 可以通過(guò)咨詢外部知識(shí)來(lái)更新感知,而不是注入知識(shí)。他們通常通過(guò)計(jì)算輸入文本和知識(shí) [108]、[109]、[110] 之間的相關(guān)性從知識(shí)源中檢索所需信息。優(yōu)勢(shì)之一在于主動(dòng)選擇相關(guān)信息,避免了無(wú)法匹配輸入文本的冗余和歧義知識(shí)的影響。由于它們不保留模型內(nèi)的知識(shí),因此它們的應(yīng)用受到限制,主要應(yīng)用于問(wèn)答。
規(guī)則引導(dǎo)的 KEPTM
大多數(shù) KEPTM 將知識(shí)和語(yǔ)言信息存儲(chǔ)在預(yù)訓(xùn)練模型的參數(shù)中。然而,觀察知識(shí)在下游任務(wù)中是如何被利用的并不直觀。解決它的一種直接方法是保持符號(hào)知識(shí)的原始形式,就像規(guī)則引導(dǎo)的 KEPTM 所做的那樣。這種類型的模型由感知系統(tǒng)和推理系統(tǒng)組成,前者由 PTM 組成,后者由規(guī)則 [22]、[23] 實(shí)現(xiàn)。這種模型的一個(gè)主要優(yōu)點(diǎn)是它們使用嚴(yán)格的數(shù)學(xué)公式保證結(jié)果的可靠性,并通過(guò)明確的推理過(guò)程提供可解釋性。
知識(shí)參數(shù)化程度
PTM 可以以符號(hào)或語(yǔ)義嵌入的形式利用知識(shí)。為了橋接符號(hào)知識(shí)和神經(jīng)網(wǎng)絡(luò),前者被投影到一個(gè)密集的低維語(yǔ)義空間中,并由分布式向量表示,徹底的知識(shí)表示學(xué)習(xí)[111]。當(dāng)前的算法主要集中在對(duì) KG 的表示學(xué)習(xí)上。使用 GNN 的變體來(lái)捕獲 KG 的結(jié)構(gòu)。然而,這種方法在知識(shí)存儲(chǔ)和管理方面也帶來(lái)了挑戰(zhàn)。一方面,知識(shí)需要一定數(shù)量的參數(shù)來(lái)存儲(chǔ)。另一方面,模型在知識(shí)不斷更新的情況下重復(fù)注入知識(shí)是不現(xiàn)實(shí)的,特別是對(duì)于那些通過(guò)預(yù)訓(xùn)練集成知識(shí)的模型。相比之下,一些研究人員保留了符號(hào)知識(shí)的形式并將其用于學(xué)習(xí)管道。根據(jù)知識(shí)參數(shù)化程度,我們將模型分為完全參數(shù)化、部分參數(shù)化和知識(shí)形式不變的 KEPTM。
完全參數(shù)化的 KEPTM
隨著 GNN 的快速發(fā)展,各種符號(hào)知識(shí),尤其是 KGs,可以被有效地編碼。不僅針對(duì)實(shí)體的語(yǔ)義,此類模型還借助 KRL 的優(yōu)越方法捕獲結(jié)構(gòu)信息以支持推理。通過(guò)將知識(shí)存儲(chǔ)為參數(shù),模型可以具有知識(shí)意識(shí)并適應(yīng)廣泛的場(chǎng)景。
部分參數(shù)化的 KEPTM
由于 GNN 對(duì) KG 的多步關(guān)系建模的局限性,部分參數(shù)化的融合 KEPTM 只對(duì)部分知識(shí)進(jìn)行編碼,而其余部分保持不變。例如,一些作品 [21]、[112] 對(duì) KG 的實(shí)體進(jìn)行編碼,但以原始形式保持結(jié)構(gòu)信息。實(shí)體的表示學(xué)習(xí)負(fù)責(zé)與 PTM 的集成,而 KG 的結(jié)構(gòu)信息負(fù)責(zé)檢索關(guān)聯(lián)的實(shí)體。考慮到 KG 中的大量關(guān)系三元組,這對(duì)于獲得盡可能多的相關(guān)實(shí)體來(lái)支持決策特別有效。
知識(shí)形成不變的 KEPTM
除了出色的性能外,研究人員還認(rèn)識(shí)到需要更好地理解 KEPTM 的基本原理?;谝?guī)則的表示提供了符號(hào)和 PTM 之間的映射機(jī)制。通過(guò)將符號(hào)推理系統(tǒng)集成到學(xué)習(xí)管道中,形成不變的 KEPTM 的知識(shí)調(diào)和了 PTM 的有效感知和符號(hào)表示的推理和可解釋性的優(yōu)勢(shì) [22]、[23]。
論文中介紹的分類和相應(yīng)的KEPTM如圖1所示。
知識(shí)增強(qiáng)預(yù)訓(xùn)練模型 概述
在本節(jié)中,我們將詳細(xì)介紹我們?cè)谖墨I(xiàn)調(diào)查中發(fā)現(xiàn)的 KEPTM。 我們將專注于知識(shí)注入的方法,因此根據(jù)這個(gè)維度組織我們的演示。 這是由于假設(shè)知識(shí)注入的方法作為核心影響因素,決定了 PTM 可以集成哪些類型的知識(shí)以及知識(shí)呈現(xiàn)的形式。 按照這個(gè)想法,我們從應(yīng)用場(chǎng)景、知識(shí)注入效率、知識(shí)管理和知識(shí)使用中的可解釋性的角度介紹了現(xiàn)有的 KEPTM。
為了可視化知識(shí)注入方法與知識(shí)類型和知識(shí)參數(shù)化程度之間的關(guān)聯(lián),我們?yōu)槊糠N類型的 KEPTM 繪制了示意圖。 圖表的線條粗細(xì)表示數(shù)量。
Fearure 融合的 KEPTM
Fearure 融合的 KEPTM 專注于實(shí)體級(jí)別的知識(shí),并通過(guò)注入實(shí)體特征和語(yǔ)言表示來(lái)注入知識(shí)。 他們從 KG 中提取實(shí)體的任務(wù)所需特征,并將它們與預(yù)訓(xùn)練序列一起投射到嵌入中,這些特征適用于強(qiáng)調(diào)實(shí)體語(yǔ)義的任務(wù),例如情感分析和詞義消歧。
SenseBERT [113]
將詞義信息注入到 BERT 的預(yù)訓(xùn)練信號(hào)中,增強(qiáng)了詞匯理解能力,從而解決了 BERT 無(wú)法很好地學(xué)習(xí)受重尾分布影響的稀有詞表示的問(wèn)題。遵循 BERT 架構(gòu),與標(biāo)準(zhǔn) MLM 一起,SenseBERT 訓(xùn)練了一個(gè)語(yǔ)義級(jí)語(yǔ)言模型來(lái)預(yù)測(cè)缺失的單詞含義。 SenseBERT 將帶有掩碼單詞的序列作為輸入,并在將單詞信息及其超義投影到嵌入后將其饋送到 Transformer 塊中。之后,該模型在詞形和詞義任務(wù)中進(jìn)行了預(yù)訓(xùn)練。在不影響通用語(yǔ)言理解評(píng)估 (GLUE) [114] 的性能的情況下,SenseBERT 提高了單詞級(jí)別的語(yǔ)義意識(shí),大大優(yōu)于普通 BERT 在 Supersense Disambiguation 任務(wù)中的表現(xiàn),并在 Word in Context 任務(wù)中取得了最先進(jìn)的結(jié)果 [115]。
盡管 BERT 已被證明在簡(jiǎn)單的情感分類中是成功的,但將其直接應(yīng)用于細(xì)粒度的情感分析顯示出不太顯著的改進(jìn) [116]。因此,為了更好地解決上述問(wèn)題,SemtiLARE [94] 被提出通過(guò)標(biāo)簽感知 MLM 目標(biāo)為 BERT 注入情感極性及其詞性。以 RoBERTa 為骨干模型,SemtiLARE 首先獲取詞性標(biāo)簽,并通過(guò)上下文感知注意機(jī)制從 SentiWordNet 計(jì)算單詞情感極性。然后利用兩個(gè)預(yù)訓(xùn)練任務(wù)來(lái)捕捉句子級(jí)語(yǔ)言表示和單詞級(jí)語(yǔ)言知識(shí)之間的關(guān)系。 SentiLARE 刷新了語(yǔ)言表示模型在句子級(jí)和方面級(jí)情感分析任務(wù)上的最新性能,從而促進(jìn)了情感理解。
受限于分詞方法,預(yù)訓(xùn)練語(yǔ)言模型的詞匯表中的token通常不是一個(gè)語(yǔ)義單元,而是它的碎片。因此,它的跨度特征對(duì)語(yǔ)義學(xué)習(xí)有至關(guān)重要的影響。 ERNIE 1.0 [101] 采用實(shí)體和短語(yǔ)掩蔽策略來(lái)判斷語(yǔ)義單元的跨度,并通過(guò)上下文學(xué)習(xí)它們的嵌入。其改進(jìn)版本 ERNIE 2.0 [102] 引入了不同的預(yù)測(cè)或分類預(yù)訓(xùn)練任務(wù),以同時(shí)捕獲詞匯、句法和語(yǔ)義信息。值得注意的是,ERNIE 2.0 采用持續(xù)的預(yù)訓(xùn)練框架來(lái)實(shí)現(xiàn)增量學(xué)習(xí),這表明多任務(wù)學(xué)習(xí)技術(shù)可能是將多重知識(shí)集成到 PTM 中的解決方案。
當(dāng) PTM 學(xué)習(xí)不同的知識(shí)時(shí),災(zāi)難性遺忘是一種普遍現(xiàn)象。為此,優(yōu)先考慮多任務(wù)學(xué)習(xí)技術(shù),將多重知識(shí)整合到預(yù)訓(xùn)練模型中。 PLM 可以從正則化效果中受益,以減輕對(duì)特定任務(wù)的過(guò)度擬合,從而使學(xué)習(xí)到的表示在任務(wù)之間具有通用性。
Embedding Combined KEPTMs
盡管特征融合的 KEPTM 可以學(xué)習(xí)實(shí)體的豐富語(yǔ)義,但僅使用實(shí)體進(jìn)行推理具有挑戰(zhàn)性。 為了捕獲各種知識(shí),嵌入組合的 KEPTM 預(yù)先通過(guò) KRL 對(duì)其進(jìn)行編碼,并通過(guò)注意力機(jī)制的變體注入相應(yīng)的嵌入。 它們利用更廣泛的知識(shí),例如實(shí)體、語(yǔ)法樹和 KG,并以參數(shù)的形式保存知識(shí)。 在裝備知識(shí)之后,嵌入組合的 KEPTM 被應(yīng)用于一般的自然語(yǔ)言理解、問(wèn)答和圖像分類任務(wù)。
跨度掩蔽策略流行用于注入實(shí)體的邊界特征。但是,它只能為每個(gè)對(duì)齊的令牌嵌入注入一個(gè)實(shí)體,并導(dǎo)致預(yù)訓(xùn)練和微調(diào)之間的不匹配。為了避免這些問(wèn)題并進(jìn)一步利用跨度內(nèi)的語(yǔ)義,Li 等人。 [93] 提出了一種多源詞對(duì)齊注意力(MWA),將顯式詞信息與預(yù)訓(xùn)練的字符嵌入相結(jié)合。具體來(lái)說(shuō),他們使用分詞工具將輸入序列劃分為不重疊的跨度。然后根據(jù)混合池策略[117]計(jì)算跨度對(duì)齊的注意力矩陣。最后,增強(qiáng)的字符表示是由 word-aligned attention 產(chǎn)生的。與之前的模型不同,ZEN 使用外部編碼器學(xué)習(xí)實(shí)體表示,而不是重新分配實(shí)體的注意力分?jǐn)?shù)以強(qiáng)調(diào)實(shí)體信息。為了學(xué)習(xí)更大的粒度文本,ZEN 在預(yù)訓(xùn)練期間通過(guò)參加 n-gram 表示來(lái)考慮不同的字符組合。給定一個(gè)漢字序列,模型提取 n-gram 并用 n-gram 匹配矩陣記錄它們的位置。然后所有的 n-gram 都由 Transformer 表示并與相關(guān)字符組合。與采用掩蔽策略注入實(shí)體信息的模型相比,ZEN 和 MWA 可以合并嵌套實(shí)體,從而顯著提高實(shí)體集成的通用性,同時(shí)提供很少的訓(xùn)練成本。與上述模型不同,LUKE [106] 使用額外的詞匯表來(lái)記錄實(shí)體的嵌入。它將單詞和實(shí)體視為獨(dú)立的標(biāo)記,并使用 Transformer 計(jì)算所有標(biāo)記的表示。具體來(lái)說(shuō),它使用了大量從維基百科獲得的實(shí)體注釋語(yǔ)料庫(kù)。考慮到巨大的成本和計(jì)算效率,作者計(jì)算實(shí)體嵌入,將它們分解為兩個(gè)小矩陣。此外,作者引入了一種實(shí)體感知的自我注意機(jī)制,該機(jī)制在計(jì)算注意分?jǐn)?shù)時(shí)考慮了標(biāo)記的類型。由于實(shí)體被視為令牌,LUKE 直接對(duì)實(shí)體之間的關(guān)系進(jìn)行建模,并在知識(shí)驅(qū)動(dòng)的 NLP 任務(wù)中實(shí)現(xiàn)了強(qiáng)大的經(jīng)驗(yàn)性能。
Boyond 實(shí)體、語(yǔ)法樹也可用于增強(qiáng)預(yù)訓(xùn)練的語(yǔ)言模型。句法偏差有助于涉及結(jié)構(gòu)化輸出空間的各種自然語(yǔ)言理解任務(wù)——包括語(yǔ)義角色標(biāo)記和共指解析等任務(wù)。 SyntaxBERT [96] 通過(guò)反映輸入的不同句法關(guān)系的稀疏掩碼矩陣對(duì)句法知識(shí)進(jìn)行建模,從而通過(guò)句法感知自注意機(jī)制將句法知識(shí)有效地整合到預(yù)訓(xùn)練的 Transformer 中。與啟發(fā)式實(shí)現(xiàn)不同,Sachan 等人。 [98]通過(guò)圖神經(jīng)網(wǎng)絡(luò)對(duì)輸入句子的依賴結(jié)構(gòu)進(jìn)行編碼。由于 BERT 將子詞作為輸入單元而不是語(yǔ)言標(biāo)記,因此該模型通過(guò)定義從標(biāo)記的第一個(gè)子詞到同一標(biāo)記的剩余子詞的新邊,在原始依賴樹中引入了額外的邊。
作為最常見(jiàn)的知識(shí),KGs 提供了全面而豐富的實(shí)體和關(guān)系信息,并提出了不同的表示學(xué)習(xí)算法來(lái)實(shí)現(xiàn)其嵌入。 ERNIE [18] 使用知識(shí)表示學(xué)習(xí)算法(例如 TransE)對(duì)實(shí)體和關(guān)系進(jìn)行編碼,并通過(guò)自注意力機(jī)制基于對(duì)齊方式集成實(shí)體表示和令牌嵌入。同樣,KnowBERT [19] 也提前學(xué)習(xí)了 KG 的表示。它沒(méi)有使用現(xiàn)有的對(duì)齊數(shù)據(jù),而是引入了一個(gè)輔助實(shí)體鏈接器來(lái)獲取更多的 KG 實(shí)體。在將 KG 的關(guān)系三元組集成到 BERT 中后,這兩個(gè)模型都展示了在關(guān)系提取、實(shí)體類型等知識(shí)驅(qū)動(dòng)任務(wù)中回憶事實(shí)的能力有所提高。然而,他們?cè)?KRL 過(guò)程中將三元組視為一個(gè)獨(dú)立的訓(xùn)練單元,忽略了實(shí)體的信息鄰居。 BRET-MK [105] 通過(guò)利用節(jié)點(diǎn)的上下文信息從 KG 中捕獲更豐富的三元組語(yǔ)義。從KG中提取實(shí)體的子圖并轉(zhuǎn)換成一個(gè)序列,如圖2所示??紤]到實(shí)體和關(guān)系的相互影響,關(guān)系也被視為圖節(jié)點(diǎn)。然后將節(jié)點(diǎn)序列送入Transformer,進(jìn)一步對(duì)實(shí)體的上下文信息進(jìn)行編碼之后,同樣的知識(shí)
以往,并非所有知識(shí)都在 KEPTM 中發(fā)揮積極作用。當(dāng) KEPTM 獨(dú)立于文本上下文對(duì)子圖進(jìn)行編碼時(shí),KG 中的冗余和模棱兩可的知識(shí)將被注入。為了達(dá)到目的,CokeBERT [118] 根據(jù)文本上下文動(dòng)態(tài)選擇上下文知識(shí)并嵌入知識(shí)上下文。
除了 NLP,KG 還為圖像分類提供對(duì)象的特征和它們之間的關(guān)系??紤]到視覺(jué)概念空間的龐大、復(fù)雜和動(dòng)態(tài),為每個(gè)概念構(gòu)建大型數(shù)據(jù)集是不可擴(kuò)展的。將知識(shí)與基于所學(xué)知識(shí)的推理相結(jié)合成為可能的答案。馬里諾等人。 [25] 引入圖搜索神經(jīng)網(wǎng)絡(luò)將大型知識(shí)圖合并到視覺(jué)分類管道中,其中特征向量由 VGG-16 [8] 和 Faster R-CNN [7] 確定。考慮到 KG 的大量節(jié)點(diǎn),它根據(jù)我們的輸入從一些初始節(jié)點(diǎn)開始,只選擇對(duì)最終輸出有用的節(jié)點(diǎn)作為訓(xùn)練數(shù)據(jù)。該圖通過(guò)傳播已知節(jié)點(diǎn)的屬性和關(guān)系成功地對(duì)屬于長(zhǎng)尾分布的類別進(jìn)行分類。王等人。 [119] 進(jìn)一步推進(jìn)了對(duì)圖像分類任務(wù)的少量樣本學(xué)習(xí)的研究。他們提出了一種通過(guò)使用 GCN 對(duì)描述對(duì)象類別的 KG 進(jìn)行編碼來(lái)實(shí)現(xiàn)零樣本對(duì)象識(shí)別的方法,該方法將從熟悉的類中獲得的知識(shí)轉(zhuǎn)移到描述不熟悉的類中。具體來(lái)說(shuō),GCN 將輸入作為用 GLoVE [41] 編碼的類別的語(yǔ)義嵌入,并根據(jù) VGGM [120] 提供的特征預(yù)測(cè)視覺(jué)分類器。然后學(xué)習(xí)到的視覺(jué)分類器識(shí)別出它以前從未見(jiàn)過(guò)的類別。在外部知識(shí)的幫助下,它將識(shí)別算法推廣到現(xiàn)實(shí)的開放世界。
總之,大多數(shù)實(shí)體組合的 KEPTM 必須經(jīng)歷兩個(gè)階段來(lái)整合知識(shí):知識(shí)表示學(xué)習(xí)和對(duì)齊。但是,標(biāo)記和實(shí)體的對(duì)齊方式存在一些錯(cuò)誤。因此,賦予 KEPTM 識(shí)別和糾正對(duì)齊過(guò)程中的錯(cuò)誤至關(guān)重要。例如,要求 ERNIE 根據(jù)錯(cuò)誤的對(duì)齊方式預(yù)測(cè)正確的實(shí)體 10
特意介紹的。值得注意的是,傳統(tǒng)的知識(shí)表示學(xué)習(xí)方法獨(dú)立處理三元組,因此無(wú)法涵蓋三元組周圍的局部鄰域中固有的復(fù)雜信息。與之相比,GNN 更適合對(duì)結(jié)構(gòu)知識(shí)進(jìn)行編碼。本節(jié)我們介紹的知識(shí)注入方法適用于知識(shí)的大部分粒度。此外,嵌入組合的 KEPTM 是知識(shí)感知模型,通過(guò)將知識(shí)作為參數(shù)存儲(chǔ)在模型中,適用于不同的應(yīng)用場(chǎng)景。它的缺點(diǎn)是需要額外的計(jì)算開銷來(lái)學(xué)習(xí)知識(shí)的表示和整合異構(gòu)知識(shí)。此外,這種知識(shí)注入方法難以確保模型獲得特定知識(shí),并阻止我們從模型中顯式更新或刪除知識(shí)。一旦刷新了關(guān)鍵信息,就需要重新訓(xùn)練嵌入組合的 KEPTM 以保持知識(shí)的正確性,從而導(dǎo)致知識(shí)管理效率低下。適配器模塊可能是減輕知識(shí)更新負(fù)擔(dān)的有前途的解決方案。它可以以少量可訓(xùn)練參數(shù)為代價(jià)保存每個(gè)適配器中的各種知識(shí),并且可以添加新知識(shí)而無(wú)需重新訪問(wèn)以前的知識(shí)。原始 PTM 的參數(shù)保持固定,產(chǎn)生高度的參數(shù)共享。
數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM
為了適應(yīng)文本和 KG 的不同結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 將序列和知識(shí)轉(zhuǎn)換為統(tǒng)一的結(jié)構(gòu),并使用相同的編碼器對(duì)嵌入進(jìn)行編碼,以避免異構(gòu)向量空間。 這類模型主要通過(guò) KG 增強(qiáng) PTM,并通過(guò)學(xué)習(xí)相應(yīng)的參數(shù)來(lái)獲取知識(shí)。
K-BERT [24] 通過(guò)構(gòu)建知識(shí)豐富的句子樹將序列與相關(guān)三元組連接起來(lái),實(shí)現(xiàn)知識(shí)注入。 具體來(lái)說(shuō),選擇句子中涉及的所有實(shí)體mention,在KGs中查詢相應(yīng)的三元組,然后K-BERT將三元組拼接到相應(yīng)的位置,生成如圖3所示的句子樹。
在不考慮結(jié)構(gòu)不一致的情況下,KBERT 通過(guò)對(duì)下游任務(wù)的微調(diào)來(lái)注入實(shí)體的關(guān)聯(lián)信息,并在特定領(lǐng)域任務(wù)中實(shí)現(xiàn) 1-2% 的 F 1 增益。值得一提的是,使用 CN-DBpedia [121] 微調(diào)的 K-BERT 在問(wèn)答和命名實(shí)體識(shí)別方面的表現(xiàn)優(yōu)于知網(wǎng) [122],而后者在語(yǔ)義相似性任務(wù)中得到了進(jìn)一步的改進(jìn),這表明了適合不同場(chǎng)景的KG。雖然 K-BERT 通過(guò)統(tǒng)一數(shù)據(jù)結(jié)構(gòu)注入了三元組和序列,但它把關(guān)系三元組視為獨(dú)立的單元,忽略了它們之間的關(guān)聯(lián)。為此,CoLAKE [104] 構(gòu)建了一個(gè)詞-知識(shí)圖,并通過(guò)預(yù)訓(xùn)練任務(wù)整合了上下文三元組。單詞知識(shí)圖是通過(guò)將由序列轉(zhuǎn)換的全連接圖中的提及替換為對(duì)齊的實(shí)體來(lái)構(gòu)建的。
然而,上述統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)依賴于啟發(fā)式實(shí)現(xiàn),一些研究人員提出了一種更通用的方法。關(guān)等人。 [123] 和 COMET [124] 通過(guò)特定模板將 KG 的關(guān)系三元組轉(zhuǎn)換為有意義的序列,并將它們輸入 PTM 的編碼器。為了用常識(shí)知識(shí)生成合理的故事,Guan 等人。 [123] 使用基于模板的方法 [125] 將 ConceptNet 和 ATOMIC 中的常識(shí)三元組轉(zhuǎn)換為可讀的自然語(yǔ)言句子,并通過(guò) LM 目標(biāo)對(duì)這些句子進(jìn)行后期訓(xùn)練。
值得注意的是,丹尼爾等人。 [126] 發(fā)現(xiàn)由預(yù)訓(xùn)練語(yǔ)言模型生成的實(shí)體表示在歸納鏈接預(yù)測(cè)、實(shí)體分類和信息檢索任務(wù)中表現(xiàn)出很強(qiáng)的泛化性。例如,通過(guò)從深度預(yù)訓(xùn)練的語(yǔ)言模型中轉(zhuǎn)移隱性知識(shí),COMET 學(xué)習(xí)生成與其主題和關(guān)系一致的新對(duì)象,并實(shí)現(xiàn)常識(shí)知識(shí)庫(kù)的自動(dòng)構(gòu)建。原因在于學(xué)習(xí)的表示同時(shí)捕獲了上下文信息和知識(shí)。盡管數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 無(wú)需額外的工程就可以注入知識(shí),但它們主要關(guān)注 KG,為了在統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)上讓步而丟棄了 KG 的結(jié)構(gòu)信息。
監(jiān)督的目標(biāo)包括實(shí)體和關(guān)系三元組。例如,T5+SSM [95] 經(jīng)過(guò)預(yù)訓(xùn)練,可以重建 BERT 從維基百科挖掘的命名實(shí)體和日期,并在開放域問(wèn)答基準(zhǔn)上獲得有競(jìng)爭(zhēng)力的結(jié)果。一些模型,如 WKLM [127]、LIBERT [128] 和 GLM [129],不使用獨(dú)立實(shí)體,而是選擇存在特定實(shí)體 11
來(lái)自 KG 的關(guān)系作為輸入數(shù)據(jù)來(lái)指導(dǎo)模型捕獲它。為了直接從非結(jié)構(gòu)化文本中獲取真實(shí)世界的知識(shí),WKLM 設(shè)計(jì)了弱監(jiān)督實(shí)體替換檢測(cè)訓(xùn)練目標(biāo)來(lái)強(qiáng)制模型學(xué)習(xí)實(shí)體之間的關(guān)系。與 MLM 目標(biāo)相比,實(shí)體替換任務(wù)引入了更強(qiáng)的實(shí)體級(jí)負(fù)信號(hào),并保留了原句的語(yǔ)言正確性。 LIEBRT [128] 沒(méi)有使用單個(gè)實(shí)體,而是將滿足語(yǔ)義相似性約束的實(shí)體對(duì)作為訓(xùn)練實(shí)例,以使 BERT 能夠理解詞匯-語(yǔ)義關(guān)系。不限于特定關(guān)系,GLM [129] 驅(qū)動(dòng)預(yù)訓(xùn)練模型通過(guò) KG 的指導(dǎo)來(lái)捕獲相關(guān)實(shí)體之間原始文本的隱含關(guān)系。正如我們上面所討論的,由預(yù)先訓(xùn)練的語(yǔ)言模型生成的實(shí)體表示在鏈接預(yù)測(cè)中表現(xiàn)出很強(qiáng)的泛化性。為此,KEPLER [103] 將參數(shù)與知識(shí)和 MLM 目標(biāo)聯(lián)合優(yōu)化,以獲得適用于 KG 相關(guān)和自然語(yǔ)言理解任務(wù)的表示。核心步驟是 KEPLER 使用 RoBERTa 的文本描述而不是 KRL 來(lái)初始化知識(shí)嵌入。與 KEPLER 類似,KADAPTER [130] 也通過(guò)共同學(xué)習(xí)知識(shí)和語(yǔ)言信息來(lái)更新參數(shù)。不同之處在于,K-ADAPTER 設(shè)計(jì)了一個(gè)適配器來(lái)存儲(chǔ)每種注入的知識(shí),以保持預(yù)訓(xùn)練模型的原始參數(shù)固定并隔離不同知識(shí)的交互,從而解決災(zāi)難性遺忘的問(wèn)題。
到目前為止,上述模型專注于利用編碼器的能力來(lái)捕獲給定實(shí)體的隱式關(guān)系。然而,復(fù)雜的推理需要直接對(duì)實(shí)體之間的關(guān)系進(jìn)行建模。實(shí)體可以通過(guò)維基百科超鏈接輕松標(biāo)注,并與KG中的實(shí)體對(duì)齊,作為知識(shí)注入的載體。然而,由于表達(dá)形式的多樣性,這并不適用于這種關(guān)系。為了直接建模實(shí)體之間的關(guān)系,ERICA [107] 將輸入序列與知識(shí)圖譜的關(guān)系連接起來(lái),并通過(guò)判別預(yù)訓(xùn)練任務(wù)對(duì)實(shí)體之間的關(guān)系進(jìn)行建模。具體來(lái)說(shuō),采用實(shí)體判別任務(wù)和關(guān)系判別任務(wù)。給定頭部實(shí)體和關(guān)系,前者旨在推斷尾部實(shí)體。后者旨在區(qū)分兩個(gè)關(guān)系在語(yǔ)義上是否接近。為了賦予句法解析的能力,LIMIT-BERT [97] 通過(guò)語(yǔ)言監(jiān)督掩碼策略學(xué)習(xí)語(yǔ)言表示。給定句子,它的句法或語(yǔ)義成分由預(yù)先訓(xùn)練的語(yǔ)言學(xué)模型預(yù)測(cè),從而確定掩蔽跨度。為了解決 [mask] 令牌引起的不匹配問(wèn)題,LIMIT-BERT 采用生成器和判別器作為編碼器,如 ELECTRA [131],并使用掩碼令牌預(yù)測(cè)和替換令牌檢測(cè)任務(wù)來(lái)訓(xùn)練模型。 SKEP [132] 為多個(gè)情緒分析任務(wù)提供統(tǒng)一的情緒表示。借助自動(dòng)挖掘的情感知識(shí),它將單詞、極性和方面級(jí)別的情感信息嵌入到情感知識(shí)預(yù)測(cè)目標(biāo)的表示中。
除了預(yù)訓(xùn)練的語(yǔ)言模型,知識(shí)圖譜還可以被視為 CV 和交叉語(yǔ)言中的監(jiān)督信號(hào)。
模態(tài)場(chǎng)。 [100] 定義了一個(gè)基于條件隨機(jī)場(chǎng) (CRF) [133] 的分類模型,其中所有標(biāo)簽都是根據(jù)先驗(yàn)知識(shí)分配的。具體來(lái)說(shuō),它首先定義了一個(gè)對(duì)層次結(jié)構(gòu)和排除關(guān)系進(jìn)行編碼的特定圖。然后分類分?jǐn)?shù)由 CRF 基于 CNN 導(dǎo)出的圖形和特征計(jì)算??傊?,它通過(guò)利用任意兩個(gè)標(biāo)簽之間的語(yǔ)義關(guān)系來(lái)推廣圖像多類分類框架。盡管在 CV 的經(jīng)典任務(wù)中取得了成就,但預(yù)訓(xùn)練的 CV 模型無(wú)法僅通過(guò)圖片來(lái)理解對(duì)象之間的語(yǔ)義。 ERNIEViL [134] 基于從文本中解析的場(chǎng)景圖,實(shí)現(xiàn)了視覺(jué)和語(yǔ)言之間的詳細(xì)語(yǔ)義對(duì)齊。作為基本因素,場(chǎng)景圖為跨模態(tài)模型提供了細(xì)粒度的語(yǔ)義信息,例如作為掩蔽目標(biāo)的對(duì)象、屬性和對(duì)象之間的關(guān)系。借助這些監(jiān)督數(shù)據(jù),ERNIEViL 在預(yù)訓(xùn)練期間通過(guò)預(yù)測(cè)場(chǎng)景圖中不同類型的節(jié)點(diǎn)來(lái)學(xué)習(xí)聯(lián)合表示。
知識(shí)監(jiān)督 KEPTM 的主要好處是無(wú)需額外的網(wǎng)絡(luò)架構(gòu)即可輕松實(shí)現(xiàn)。此外,可以通過(guò)在預(yù)訓(xùn)練或微調(diào)期間確定預(yù)測(cè)目標(biāo)來(lái)靈活地注入知識(shí)。例如,SKEP 通過(guò)將情感詞作為掩蔽目標(biāo)來(lái)實(shí)現(xiàn)有希望的各種情感任務(wù)。這是因?yàn)榍楦蟹治鲋饕蕾囉谇楦性~和詞極性,而不是整個(gè)文本。知識(shí)注入方法的另一個(gè)優(yōu)點(diǎn)是它可以利用對(duì)比學(xué)習(xí)技術(shù)來(lái)提高集成的有效性。對(duì)比學(xué)習(xí)最近在 NLP 和 CV 領(lǐng)域取得了最先進(jìn)的性能,通過(guò)區(qū)分方差提高了模型的魯棒性。 KG 可以提供特定的關(guān)系,例如反義詞和同義詞,適合作為比較學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。例如,ERICA 通過(guò)利用實(shí)體和關(guān)系區(qū)分來(lái)更好地捕獲文本中的關(guān)系事實(shí)。
Retrieval-based KEPTMs
基于檢索的 KEPTM 不融合知識(shí)本身,而是學(xué)習(xí)檢索、選擇和編碼知識(shí)的能力。 它側(cè)重于從外部資源中提取所需的知識(shí),以滿足單個(gè)場(chǎng)景的需求,只需要很少的培訓(xùn)開銷。 至關(guān)重要的是,由于不需要存儲(chǔ)大量知識(shí),因此此類模型可以在面對(duì)知識(shí)的頻繁變化時(shí)更高效、更方便地進(jìn)行更新。
例如,參考關(guān)鍵信息來(lái)判斷而不是存儲(chǔ)所有可能相關(guān)的知識(shí)用于問(wèn)答和生成任務(wù)會(huì)更有效。 12
KT-NET [135] 采用注意力機(jī)制從 KG 中自適應(yīng)地選擇所需知識(shí),然后融合所選知識(shí)以實(shí)現(xiàn)機(jī)器閱讀理解的知識(shí)和上下文感知預(yù)測(cè)。它通過(guò) KRL [75] 對(duì) KG 進(jìn)行編碼,并通過(guò)微調(diào)學(xué)習(xí)從 WordNet 和 NELL [136] 中檢索潛在相關(guān)實(shí)體。為了提供事實(shí)知識(shí),KGLM [137] 被構(gòu)建為從本地 KG 中呈現(xiàn)信息,該本地 KG 通過(guò)根據(jù)來(lái)自外部 KG 的上下文選擇和復(fù)制事實(shí)來(lái)動(dòng)態(tài)構(gòu)建。
我們上面介紹的模型使用丟棄結(jié)構(gòu)信息的傳統(tǒng) KRL 方法對(duì) KG 進(jìn)行編碼。為了解決這個(gè)問(wèn)題,GNN 的各種變體被用來(lái)更好地建模 KG 的拓?fù)浣Y(jié)構(gòu)。呂等人。 [20] 設(shè)計(jì)了一個(gè)基于圖的模型,從檢索到的句子中提取關(guān)系三元組并為其構(gòu)建自定義圖。對(duì)于自定義圖,該模型采用圖卷積網(wǎng)絡(luò)(GCN)將鄰居信息編碼為節(jié)點(diǎn)的表示,并通過(guò)圖注意力機(jī)制聚合證據(jù)以預(yù)測(cè)最終答案。
除了問(wèn)答,KG 在生成任務(wù)上也大放異彩。為了賦予 GPT-2 推理能力,GRF [138] 引入了 ConceptNet 作為外部參考,并根據(jù)之前的上下文和知識(shí)圖譜生成一個(gè)結(jié)尾。該模型的核心在于動(dòng)態(tài)推理模塊,該模塊計(jì)算三元組和令牌嵌入之間的相關(guān)性以獲得生成的單詞。沒(méi)有上下文,劉等人。 [139] 提出了僅通過(guò)一組概念生成合理句子的 KG-BART。它首先通過(guò)考慮概念推理圖結(jié)構(gòu)來(lái)豐富令牌表示。之后,該模型捕獲了由概念擴(kuò)展圖提供的概念內(nèi)和概念間的內(nèi)在相關(guān)性。該模型通過(guò)混合 KG 和文本信息,即使在看不見(jiàn)的概念集中也可以生成高質(zhì)量的句子。作為結(jié)構(gòu)化知識(shí)的補(bǔ)充,純文本可以提供豐富且高覆蓋率的證據(jù)。 RAG [110] 通過(guò)基于預(yù)先訓(xùn)練的 seq2seq 模型檢索跨外部文本的相關(guān)跨度來(lái)生成答案。給定一個(gè)查詢,RAG 使用輸入序列來(lái)檢索前 K 個(gè)相關(guān)文本,并在這些潛在文檔和輸入上生成輸出條件。類似地,REALM [109] 通過(guò)從大型語(yǔ)料庫(kù)中檢索和處理文檔來(lái)增強(qiáng)語(yǔ)言模型,但是以更加模塊化和可解釋的方式。具體來(lái)說(shuō),它由兩個(gè)關(guān)鍵組件組成:使用 BERT 框架實(shí)現(xiàn)的神經(jīng)知識(shí)檢索器,對(duì)輸入數(shù)據(jù)進(jìn)行編碼并檢索可能有用的文檔,以及使用 Transformer 實(shí)現(xiàn)的知識(shí)增強(qiáng)編碼器,用于在文檔中注入實(shí)體并預(yù)測(cè)單詞用于問(wèn)答。 TEK [108] 與檢索到的百科知識(shí)一起學(xué)習(xí)輸入文本的表示,以捕獲和保存與稀有實(shí)體相關(guān)的事實(shí)知識(shí)。給定查詢和上下文,TEK 從多個(gè)文檔中檢索相關(guān)句子列表以補(bǔ)充輸入,然后對(duì)輸入進(jìn)行 Transformer 編碼器操作??紤]到預(yù)訓(xùn)練過(guò)程中看到的輸入類型與推理過(guò)程中的類型不匹配,研究人員對(duì)背景知識(shí)增強(qiáng)的輸入文本進(jìn)行了自我監(jiān)督的預(yù)訓(xùn)練。
除了有效利用知識(shí)外,基于檢索的模型的另一個(gè)優(yōu)勢(shì)在于知識(shí)使用的可解釋性。 FaE[112]設(shè)計(jì)了一個(gè)基于神經(jīng)語(yǔ)言模型的顯式接口,將符號(hào)可解釋的事實(shí)信息和語(yǔ)言表示連接起來(lái),實(shí)現(xiàn)對(duì)知識(shí)的檢查和解釋。由于知識(shí)表示和語(yǔ)言表示的解耦,F(xiàn)aE 可以通過(guò)僅修改非參數(shù)三元組來(lái)改變語(yǔ)言模型的輸出,而無(wú)需任何額外的訓(xùn)練。
盡管應(yīng)用場(chǎng)景有限,但這種方法允許靈活地根據(jù)需要對(duì)知識(shí)進(jìn)行編碼。更重要的是,它可以在保留符號(hào)知識(shí)的情況下檢查知識(shí)的使用情況,從而增加可解釋性。例如,F(xiàn)aE 使用外部存儲(chǔ)器來(lái)保存事實(shí)知識(shí)并通過(guò)整合不同的知識(shí)來(lái)觀察相應(yīng)的預(yù)測(cè)。然而,基于檢索的 KEPTM 依賴于標(biāo)記數(shù)據(jù)來(lái)獲得通過(guò)微調(diào)的檢索能力?;谔崾镜哪P蛷?PTM 中檢索所需的知識(shí),以通過(guò)少量樣本處理下游任務(wù)。盡管發(fā)展迅速,但考慮到缺乏關(guān)鍵知識(shí),很難檢索模型所需的所有知識(shí)。在快速學(xué)習(xí)期間利用符號(hào)知識(shí)可以減輕參數(shù)學(xué)習(xí)的負(fù)擔(dān)。例如,PTR [140] 設(shè)計(jì)了一個(gè)由嵌入和實(shí)體組成的提示來(lái)實(shí)現(xiàn)高效的學(xué)習(xí)。快速學(xué)習(xí)與知識(shí)相結(jié)合,調(diào)和了少數(shù)樣本的學(xué)習(xí)和檢索能力。
規(guī)則引導(dǎo)的 KEPTM
如上所述,面向符號(hào)知識(shí)的表示學(xué)習(xí),如 KG,是連接符號(hào)知識(shí)和預(yù)訓(xùn)練模型的解決方案。 相比之下,一個(gè)突出的研究方向是將 PTM 學(xué)習(xí)到的表示轉(zhuǎn)化為概念,然后用符號(hào)知識(shí)進(jìn)行推理,保持對(duì) PTM 的有效學(xué)習(xí)和符號(hào)知識(shí)的可解釋性和問(wèn)責(zé)性,就像規(guī)則引導(dǎo)的 KEPTM 所做的那樣。 規(guī)則引導(dǎo)的 KEPTM 主要關(guān)注基于規(guī)則的推理階段。 這些模型中的知識(shí)以符號(hào)形式表示并以模塊化方式集成,而感知?jiǎng)t由 PTM 實(shí)現(xiàn)。 它們的基本特征允許穩(wěn)健學(xué)習(xí)和有效推理的原則組合,以及符號(hào)系統(tǒng)提供的可解釋性。Gangopadhyay 等人。 [22] 提出了深度學(xué)習(xí)和符號(hào)推理的結(jié)構(gòu)化組合,用于解決模糊圖像分類。一種半詞匯語(yǔ)言,包括規(guī)則和字母表,是預(yù)先定義好的。然后半詞匯標(biāo)記的字符串被 SimpleNet [141] 識(shí)別為字母表的一個(gè)元素。最后,通過(guò)規(guī)則來(lái)決定那些模棱兩可的標(biāo)記,這提供了一個(gè)基于領(lǐng)域知識(shí)的推理框架來(lái)解釋復(fù)雜的場(chǎng)景。然而,上述模型 13
依賴于任務(wù)相關(guān)領(lǐng)域特定語(yǔ)言的啟發(fā)式實(shí)現(xiàn)。相比之下,Amizadeh 等人。 [23] 為視覺(jué)問(wèn)答提出了一種更通用的數(shù)學(xué)形式,它從一階邏輯概率派生。與計(jì)算機(jī)視覺(jué)的傳統(tǒng)任務(wù)相比,視覺(jué)問(wèn)答需要推理和關(guān)于圖像主題的特定知識(shí),因此是一個(gè)明顯更復(fù)雜的問(wèn)題。提示調(diào)整 [142] 已被廣泛用于分類任務(wù)。然而,手動(dòng)設(shè)計(jì)語(yǔ)言提示是錯(cuò)誤的,而那些自動(dòng)生成的提示要驗(yàn)證它們的有效性是很耗時(shí)的。為此,PTR [140] 應(yīng)用邏輯規(guī)則來(lái)構(gòu)造帶有多個(gè)子提示的提示以進(jìn)行權(quán)衡。它使用 PTM 確定主題和對(duì)象實(shí)體類型,并使用邏輯規(guī)則聚合子提示以處理許多類分類任務(wù)。該模型將問(wèn)題轉(zhuǎn)化為一階邏輯公式,并通過(guò)函數(shù)程序進(jìn)行推理,以保證正確的推理過(guò)程,而圖像的檢測(cè)則使用 Faster-RCNN 實(shí)現(xiàn)
[7]。
除了一階邏輯,一些模型 [21]、[99] 還采用 KGs 來(lái)實(shí)現(xiàn)推理。他們將查詢圖像的概念與 KG 中的適當(dāng)信息聯(lián)系起來(lái),以構(gòu)建局部圖并推理隨后的正確答案。本體將知識(shí)組織為邏輯語(yǔ)義表達(dá),從而實(shí)現(xiàn)不同場(chǎng)景之間的共享和語(yǔ)義可解釋性。
[143] 引入了域本體,并使用 Mask R-CNN [32] 對(duì)它提供的對(duì)象和關(guān)系進(jìn)行分類,以識(shí)別建筑工地的潛在危險(xiǎn)。在感知 PTM 之后,提取的信息存儲(chǔ)在 Neo4j 中,用于推理和查詢。這些方法保留了符號(hào)知識(shí)的結(jié)構(gòu),從而實(shí)現(xiàn)了從概念層面的語(yǔ)義推理和檢索。
這些模型的主要好處是它的可組合性,它涉及表示和推理過(guò)程,這引入了 KEPTM 工作原理的可解釋性。盡管有一些方法可以探索 PTM 的可解釋性,但它們側(cè)重于所學(xué)到的知識(shí)并依賴于瑣碎的探索技巧。相比之下,這種類型的模型通過(guò)指示模型如何得出答案來(lái)實(shí)現(xiàn)對(duì)知識(shí)使用的檢查和解釋。
我們?cè)诒?1 和表 2 中詳細(xì)說(shuō)明了所有引入的 KEPTM。
結(jié)論和未來(lái)方向
我們從知識(shí)的粒度、知識(shí)注入的方法、知識(shí)參數(shù)化的程度三個(gè)角度分析比較了現(xiàn)有的KEPTMs,并從第二個(gè)維度進(jìn)行了詳細(xì)討論。
大多數(shù) KEPTM 在預(yù)訓(xùn)練期間混合知識(shí),而少數(shù)在微調(diào)期間這樣做。然而,與微調(diào)相比,預(yù)訓(xùn)練期間的集成成本要高得多。此外,使用 PTM 選擇一致的預(yù)訓(xùn)練范式可以緩解集成困難。例如,通過(guò)在生成預(yù)訓(xùn)練中屏蔽掉包含某些類型知識(shí)的單詞,模型
可以更善于記憶和完成這些知識(shí)。
特征融合的 KEPTM 利用實(shí)體信息而不引入額外的網(wǎng)絡(luò)和計(jì)算開銷,實(shí)現(xiàn)簡(jiǎn)單,適用于需要細(xì)粒度實(shí)體特征的任務(wù)。盡管付出了更多努力,但嵌入組合的 KEPTM 可以同時(shí)存儲(chǔ)實(shí)體和關(guān)系信息,并泛化知識(shí)驅(qū)動(dòng)的任務(wù),如實(shí)體分類、關(guān)系提取和知識(shí)完成。知識(shí)監(jiān)督的 KEPTM 以最少的工作實(shí)現(xiàn)知識(shí)注入,這是通過(guò)設(shè)計(jì)適當(dāng)?shù)念A(yù)訓(xùn)練任務(wù)來(lái)實(shí)現(xiàn)的?;跈z索和規(guī)則引導(dǎo)的 KEPTM 幫助我們了解預(yù)訓(xùn)練模型如何利用知識(shí)來(lái)完成下游任務(wù),并為更好地使用和進(jìn)一步改進(jìn)提供指南。
盡管 KEPTM 已經(jīng)證明了它們?cè)诟鞣N NLP 和 CV 任務(wù)中的強(qiáng)大能力,但由于知識(shí)和語(yǔ)言的復(fù)雜性以及不同模態(tài)的交互,挑戰(zhàn)仍然存在。我們建議遵循 KEPTM 的未來(lái)方向。
(1) 我們介紹的大多數(shù) KEPTM 都側(cè)重于注入事實(shí)或概念知識(shí)。還有其他類型的知識(shí)值得考慮。例如,程序和元認(rèn)知知識(shí)在開放世界的推理和判斷中也發(fā)揮著重要作用。因此,一個(gè)更有吸引力的方向是探索上述兩類知識(shí)的利用。
(2) 基于語(yǔ)義網(wǎng)絡(luò)表示,關(guān)系三元組已成為最流行的知識(shí)組織形式。然而,正如我們所討論的,由于原始訓(xùn)練數(shù)據(jù)和外部知識(shí)的表示方法不同而導(dǎo)致的異構(gòu)注入還需要做更多的工作。除了語(yǔ)義網(wǎng)絡(luò)表示之外,還有許多知識(shí)表示方法以不同的形式呈現(xiàn)知識(shí)的屬性。因此,為不同的知識(shí)搜索更一般的知識(shí)表示是有希望的。
(3) 盡管基于檢索和規(guī)則引導(dǎo)的 KEPTM 使決策過(guò)程透明化,但它們是為特定應(yīng)用而設(shè)計(jì)的。在不破壞符號(hào)知識(shí)檢查的情況下設(shè)計(jì)具有通用目的的 KEPTM 將顯著提高可解釋性。
(4)現(xiàn)有的KEPTMs幾乎沒(méi)有考慮知識(shí)的存儲(chǔ)和更新。在知識(shí)瞬息萬(wàn)變的環(huán)境中,將知識(shí)存儲(chǔ)在更小的空間中并有效地更新它是切實(shí)可行的?;谶m配器的方法為我們樹立了寶貴的榜樣。設(shè)計(jì)一種以即插即用方式利用知識(shí)的方法至關(guān)重要。
(5) 基于文本和圖像的多模態(tài)模型通過(guò)學(xué)習(xí)圖像-文本表示來(lái)捕獲圖像和相關(guān)文本中的豐富語(yǔ)義,并已應(yīng)用于字幕、視覺(jué)問(wèn)答和視覺(jué)推理任務(wù)。然而,學(xué)習(xí)到的圖像特征無(wú)法捕捉到圖像中描述的詳細(xì)語(yǔ)義。此外,多模態(tài)模型的預(yù)訓(xùn)練通常依賴于文本數(shù)據(jù)和圖像數(shù)據(jù)之間存在強(qiáng)相關(guān)性的假設(shè)。需要探索對(duì)多模態(tài)模型的組織良好的知識(shí)的利用,以打破這種假設(shè)的限制并提供豐富的圖像語(yǔ)義。
(6) 知識(shí)的提取通常采用多步處理。但是,誤差會(huì)在此過(guò)程中傳播,從而導(dǎo)致模型性能下降。因此,整合從原始數(shù)據(jù)中挖掘出來(lái)的知識(shí),避免造成信息丟失是一個(gè)有價(jià)值的方向。
(7) 盡管在蘊(yùn)涵任務(wù)上表現(xiàn)出色,但預(yù)訓(xùn)練的語(yǔ)言模型無(wú)法執(zhí)行溯因推理[144]。以前的工作主要集中在形式邏輯過(guò)于僵化而無(wú)法概括為復(fù)雜的自然語(yǔ)言。將形式邏輯與預(yù)先訓(xùn)練的語(yǔ)言模型相結(jié)合,為未來(lái)的研究提供了一條有希望的途徑。
(8) 預(yù)訓(xùn)練的語(yǔ)言模型難以控制生成內(nèi)容的屬性或主題,尤其是結(jié)構(gòu)良好的內(nèi)容。以知識(shí)的形式表達(dá)某些文體的結(jié)構(gòu)并以此指導(dǎo)文本的生成是值得探索的。