[TOC]

動(dòng)機(jī)

現(xiàn)有的 PTM 有以下缺點(diǎn)：

以預(yù)訓(xùn)練的語(yǔ)言模型為例，
它們很好地學(xué)習(xí)頻繁詞的語(yǔ)義，但在受長(zhǎng)尾數(shù)據(jù)分布限制的稀有詞上表現(xiàn)不佳。同樣，這種數(shù)據(jù)分布也限制了 CV PTM 在具有長(zhǎng)尾類不平衡的實(shí)際應(yīng)用中的實(shí)用性。
PTM 不擅長(zhǎng)推理。例如，預(yù)訓(xùn)練語(yǔ)言模型是統(tǒng)計(jì)模型，根據(jù)共現(xiàn)信號(hào)學(xué)習(xí)隱含關(guān)系，導(dǎo)致缺乏邏輯推理。盡管預(yù)訓(xùn)練的語(yǔ)言模型可以捕獲豐富的語(yǔ)言學(xué) [11]、語(yǔ)義 [12]、句法 [13] 甚至世界知識(shí) [14]，
但 Cao 等人。 [15]表明，預(yù)訓(xùn)練語(yǔ)言模型的下降事實(shí)知識(shí)提取性能主要?dú)w功于有偏見(jiàn)提示 biased prompts。 [16] 中的實(shí)驗(yàn)還表明，預(yù)訓(xùn)練語(yǔ)言模型在需要推理的任務(wù)中表現(xiàn)不佳。同樣，CV 的 PTM 無(wú)法提取檢測(cè)到的對(duì)象之間的語(yǔ)義關(guān)系。

3.由于 PTM 在某些任務(wù)中的表現(xiàn)優(yōu)于人類，引發(fā)了倫理和社會(huì)問(wèn)題。正如我們所觀察到的，預(yù)訓(xùn)練的語(yǔ)言模型缺乏常識(shí)知識(shí)并生成不合邏輯的句子 [17]。因此，PTM 的可解釋性和問(wèn)責(zé)制對(duì)于普遍應(yīng)用它們變得至關(guān)重要。

神經(jīng)網(wǎng)絡(luò)和符號(hào)知識(shí)的結(jié)合揭示了這些問(wèn)題的可能解決方案。
一方面，知識(shí)圖譜等符號(hào)知識(shí)對(duì)稀有詞的覆蓋率很高，解決了缺乏文本監(jiān)督的問(wèn)題[18]，[19]。除此之外，它們還為模型提供全面的關(guān)系信息 [20]、[21] 和/或顯式規(guī)則 [22]，以增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型的推理能力。
另一方面，符號(hào)知識(shí)提高了下游任務(wù)中知識(shí)使用的可解釋性[23]。
此外，對(duì)于特定的下游應(yīng)用程序 [24]、[25]，無(wú)需從頭開始訓(xùn)練即可將知識(shí) 1 攝取到預(yù)訓(xùn)練的檢查點(diǎn)中是切實(shí)可行的。因此，有希望將知識(shí)與預(yù)訓(xùn)練的語(yǔ)言模型相結(jié)合，以實(shí)現(xiàn)更通用的人工智能。

本次調(diào)查的貢獻(xiàn)可總結(jié)如下：
? 全面總結(jié)。我們對(duì) NLP 和 CV 中的預(yù)訓(xùn)練模型以及知識(shí)表示學(xué)習(xí)進(jìn)行了全面總結(jié)。

? 新分類法。我們提出了 KEPTM 的分類法，從知識(shí)的粒度、知識(shí)注入的方法和符號(hào)知識(shí)參數(shù)化的程度對(duì)現(xiàn)有的 KEPTM 進(jìn)行分類。

? 性能分析。我們從應(yīng)用場(chǎng)景的范圍、知識(shí)注入的有效性、知識(shí)的管理和可解釋性的角度分析了不同類別 PTM 的優(yōu)缺點(diǎn)。

? 未來(lái)發(fā)展方向。我們討論了現(xiàn)有 KEPTM 的挑戰(zhàn)，并提出了一些可能的未來(lái)研究方向。

調(diào)查的其余部分安排如下。
第 2 節(jié)概述了預(yù)訓(xùn)練模型和知識(shí)表示學(xué)習(xí)的進(jìn)展。
第 3 節(jié)介紹了分類原則和相應(yīng)的綜合分類法。
在第 3 節(jié)分類之后，第 4 節(jié)介紹了各種 KEPTM 的工作原理并分析了其優(yōu)缺點(diǎn)，并從不同維度比較了現(xiàn)有的 KEPTM。
第 5 節(jié)討論了當(dāng)前的挑戰(zhàn)并提出了未來(lái)的方向。

背景

預(yù)訓(xùn)練模型

預(yù)訓(xùn)練模型可以從大量原始感官數(shù)據(jù)中提取高級(jí)特征以獲得有效的表示，并在微調(diào)預(yù)訓(xùn)練模型后將其應(yīng)用于下游任務(wù)。
預(yù)訓(xùn)練模型的有效性很大程度上取決于模型編碼器的表示學(xué)習(xí)。
表示學(xué)習(xí)是指學(xué)習(xí)數(shù)據(jù)的表示，以便在構(gòu)建分類器或其他預(yù)測(cè)器時(shí)更容易提取有用的信息[26]。表示學(xué)習(xí)社區(qū)中有兩種主流范式：概率圖形模型和神經(jīng)網(wǎng)絡(luò)。概率圖模型通過(guò)對(duì)樣本數(shù)據(jù)中潛在變量的后驗(yàn)分布進(jìn)行建模來(lái)學(xué)習(xí)特征表示，包括有向圖模型和無(wú)向圖模型。
神經(jīng)網(wǎng)絡(luò)模型大多使用由編碼器和解碼器組成的自動(dòng)編碼器。編碼器負(fù)責(zé)特征提取，而解碼器通過(guò)應(yīng)用正則化重建目標(biāo)來(lái)重建輸入。

與概率圖形模型相比，基于神經(jīng)網(wǎng)絡(luò)的模型具有以下優(yōu)點(diǎn)。
首先，神經(jīng)網(wǎng)絡(luò)可以用分布式向量而不是稀疏向量來(lái)表達(dá)更多可能的特征。
其次，考慮到現(xiàn)有數(shù)據(jù)主要是多個(gè)潛在因素相互作用的結(jié)果，分布式向量可以通過(guò)設(shè)計(jì)特定的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)表示不同的影響因素。
最后，深度神經(jīng)網(wǎng)絡(luò)的底層神經(jīng)層將從數(shù)據(jù)中學(xué)習(xí)到的具體特征轉(zhuǎn)換為上層的抽象特征，并隨著輸入數(shù)據(jù)的局部變化保持穩(wěn)定，增強(qiáng)了表示在許多下游任務(wù)中泛化的魯棒性。

遵循基于自動(dòng)編碼器的神經(jīng)模型，預(yù)訓(xùn)練模型設(shè)計(jì)特定的神經(jīng)網(wǎng)絡(luò)來(lái)編碼輸入數(shù)據(jù)，同時(shí)使用預(yù)訓(xùn)練任務(wù)來(lái)解碼學(xué)習(xí)表示。經(jīng)過(guò)微調(diào)后，預(yù)訓(xùn)練模型可以輕松適應(yīng)各種 NLP 和 CV，甚至是跨模態(tài)任務(wù)。
我們主要將模型分為預(yù)訓(xùn)練CV 和預(yù)訓(xùn)練語(yǔ)言模型。

預(yù)訓(xùn)練 CV 模型

預(yù)訓(xùn)練的 CV 模型已成為圖像分類、對(duì)象檢測(cè)和語(yǔ)義分割的強(qiáng)大策略。
作為第一個(gè)探索用于通用目標(biāo)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò) (CNN)，Girshick 等人。 [27] 通過(guò)將 AlexNet [28] 與區(qū)域提議選擇性搜索 [29] 相結(jié)合，實(shí)現(xiàn)了高目標(biāo)檢測(cè)質(zhì)量。受其在測(cè)試期間效率低下的激勵(lì)，He 等人。 [30] 將傳統(tǒng)的空間金字塔池引入到 CNN 架構(gòu)中。 Fast RCNN [31] 同時(shí)學(xué)習(xí) softmax 分類器和特定類別的邊界框回歸，以進(jìn)一步提高檢測(cè)速度和質(zhì)量，而 Faster RCNN [7] 減輕了對(duì)外部區(qū)域提議的依賴。基于 Faster RCNN，Mask RCNN [32] 在對(duì)象檢測(cè)和實(shí)例分割方面取得了有希望的結(jié)果，而 Faster RCNN 的開銷很小。除了基于區(qū)域的方法之外，研究人員還開發(fā)了統(tǒng)一的檢測(cè)策略。作為 ILSVRC2013 [33] 定位和檢測(cè)競(jìng)賽的獲勝者，OverFeat [34] 通過(guò)網(wǎng)絡(luò)中的全卷積層的單次前向傳遞執(zhí)行目標(biāo)檢測(cè)，因此具有顯著的速度優(yōu)勢(shì)。 YOLO 系列將對(duì)象檢測(cè)轉(zhuǎn)換為回歸問(wèn)題，并在標(biāo)準(zhǔn)檢測(cè)任務(wù)上達(dá)到最先進(jìn)的結(jié)果。與 YOLO 相比，SSD [35] 在保持高檢測(cè)質(zhì)量的同時(shí)實(shí)現(xiàn)了更快的檢測(cè)速度。 VGG [8] 作為一種流行的架構(gòu)適用于分類和圖像識(shí)別任務(wù)。基于對(duì)象檢測(cè)結(jié)果，SDS [36]使用與類別無(wú)關(guān)的自下而上對(duì)象提議進(jìn)行語(yǔ)義分割。龍等人。 [36]提出了端到端訓(xùn)練的卷積網(wǎng)絡(luò)，而不依賴于區(qū)域提議。有關(guān)預(yù)訓(xùn)練 CV 模型的更多詳細(xì)信息，我們請(qǐng)讀者參考 [37]、[38]。

Pre-trained Language Models

Token-based Pre-trained Models

源自 Bengio 在 2003 年提出的 NNLM [51]，單詞的分布式表示是在訓(xùn)練過(guò)程中作為副產(chǎn)品生成的。根據(jù)具有相似上下文的單詞具有相似語(yǔ)義的假設(shè)，Mikolov 等人。 [39],
[40] 提出了兩種淺層架構(gòu)：Continuous Bagof-Words (CBOW) 和 Skip-Gram (SG) 來(lái)捕獲單詞之間潛在的句法和語(yǔ)義相似性。此外，GloVe [41] 計(jì)算來(lái)自大型語(yǔ)料庫(kù)的詞詞共現(xiàn)統(tǒng)計(jì)數(shù)據(jù)作為監(jiān)督信號(hào)，F(xiàn)astText [42] 使用文本分類數(shù)據(jù)訓(xùn)練模型。隨著上述所有基于標(biāo)記的預(yù)訓(xùn)練模型的出現(xiàn)，詞嵌入已普遍用作 NLP 任務(wù)中的文本表示。盡管這些模型簡(jiǎn)單有效，但它們僅適用于獲得固定表示而不是捕獲多義詞。這也是我們將這種模型稱為靜態(tài)預(yù)訓(xùn)練模型的原因。

Context-based Pre-trained Models

為了解決多義問(wèn)題，預(yù)訓(xùn)練模型需要區(qū)分單詞的語(yǔ)義并在不同的上下文中動(dòng)態(tài)生成單詞嵌入。給定一個(gè)文本 x 1 ,x 2 ,··· ,x T 其中每個(gè)標(biāo)記 x t 是一個(gè)詞或子詞，x t 的上下文表示取決于整個(gè)文本。

以 LSTM [52] 作為神經(jīng)編碼器，ELMo [43] 模型從雙向語(yǔ)言模型中提取上下文相關(guān)的表示，這已證明可以為一系列 NLP 任務(wù)帶來(lái)很大的改進(jìn)。然而，ELMo 通常用作特征提取器來(lái)為下游任務(wù)的主模型生成初始嵌入，這意味著主模型的其余參數(shù)必須從頭開始訓(xùn)練。

同時(shí)，ULMFiT [53] 的提議為模型提供了有價(jià)值的多階段遷移和微調(diào)技能。此外，Transformer [54] 在機(jī)器翻譯方面取得了驚人的成功，并被證明在處理遠(yuǎn)程文本依賴方面比 LSTM 更有效。在此背景下，OpenAI 提出了 GPT [4]，它采用修改后的 Transformer 解碼器作為語(yǔ)言模型來(lái)學(xué)習(xí)可轉(zhuǎn)移到廣泛下游任務(wù)的通用表示，在 12 個(gè) NLP 任務(wù)中的 9 個(gè)中優(yōu)于特定于任務(wù)的架構(gòu)。 GPT-2 和 GPT-3 [5]、[55] 主要遵循架構(gòu)并在更大、更多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練，以從不同的領(lǐng)域?qū)W習(xí)。然而，受單向編碼器的限制，GPT 系列只能關(guān)注其左側(cè)上下文，從而導(dǎo)致學(xué)習(xí)句子級(jí)語(yǔ)義的次優(yōu)。為了克服這一缺陷，BERT [6] 采用了掩碼語(yǔ)言建模 (MLM) 目標(biāo)，其中序列的一些標(biāo)記被隨機(jī)屏蔽，目標(biāo)是在考慮損壞句子的情況下預(yù)測(cè)這些標(biāo)記。受 Skip-Thoughts [56] 的啟發(fā)，BERT 還采用下一句預(yù)測(cè)（NSP）任務(wù)來(lái)學(xué)習(xí)句子之間的語(yǔ)義聯(lián)系，在 11 個(gè) NLP 任務(wù)上獲得了新的 start-ofart 結(jié)果，甚至成為后續(xù)模型的基礎(chǔ)。在 BERT 的基礎(chǔ)上，RoBERTa [45] 設(shè)計(jì)了一些改進(jìn)的訓(xùn)練方案，包括在更多數(shù)據(jù)上使用更大的批次進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練、修改目標(biāo)、對(duì)長(zhǎng)序列進(jìn)行訓(xùn)練以及動(dòng)態(tài)更改掩碼模式，從而顯著提高 BERT 的性能。為了克服 BERT 的預(yù)訓(xùn)練和微調(diào)之間的差異，XLNet [44] 提出了一種基于置換語(yǔ)言建模的新自回歸方法，以在不引入任何新符號(hào)的情況下捕獲上下文信息。

與上述所有這些針對(duì)自然理解或生成任務(wù)的預(yù)訓(xùn)練模型不同，T5 [46] 采用編碼器-解碼器框架通過(guò)將數(shù)據(jù)轉(zhuǎn)換為文本到文本格式來(lái)統(tǒng)一自然理解和生成。有關(guān)預(yù)訓(xùn)練語(yǔ)言模型的更多詳細(xì)信息，我們請(qǐng)讀者參考 [57]、[58]。

Knowledge Representation Learning

知識(shí)
知識(shí)是對(duì)某人或某事的熟悉、認(rèn)識(shí)或理解，例如事實(shí)（描述性知識(shí)）、技能（程序性知識(shí)）或?qū)ο?。大衛(wèi)等人。 [59]將知識(shí)分為四類，即事實(shí)性知識(shí)、概念性知識(shí)、程序性知識(shí)和元認(rèn)知知識(shí)。事實(shí)性知識(shí)是指描述客觀事物的術(shù)語(yǔ)和具體細(xì)節(jié)和要素的知識(shí)。概念性知識(shí)是一個(gè)更大結(jié)構(gòu)內(nèi)的基本要素之間的相互關(guān)系，使它們能夠共同發(fā)揮作用，例如原理、概括和理論。程序性知識(shí)是指指導(dǎo)行動(dòng)的知識(shí)，包括探究方法和使用技能、算法、技術(shù)和方法的標(biāo)準(zhǔn)。元認(rèn)知知識(shí)強(qiáng)調(diào)自我能動(dòng)性，是一般的認(rèn)知知識(shí)，也是意識(shí)的知識(shí)。

知識(shí)表示方法

傳統(tǒng)的知識(shí)表示方法包括一階謂詞邏輯、框架表示[61]、腳本表示[62]、語(yǔ)義網(wǎng)絡(luò)表示[63]和本體表示。一階謂詞邏輯的基本語(yǔ)法要素是表示對(duì)象、關(guān)系和功能的符號(hào)，其中對(duì)象指代事物的個(gè)體或范疇，關(guān)系指事物之間的映射，而功能則需要每個(gè)對(duì)象中的對(duì)象。域具有映射值作為謂詞的特殊形式。這種方法雖然可以保證知識(shí)表示的一致性和推理結(jié)果的正確性，但難以表示程序性知識(shí)。

語(yǔ)義網(wǎng)絡(luò)是由有向圖表示的概念網(wǎng)絡(luò)，其中節(jié)點(diǎn)表示概念，邊表示概念之間的語(yǔ)義關(guān)系，也可以轉(zhuǎn)化為三元組。它可以以統(tǒng)一和直接的方式描述知識(shí)，有利于計(jì)算機(jī)存儲(chǔ)和檢索。但是，它只能代表概念性知識(shí)，而不能代表過(guò)程知識(shí)等動(dòng)態(tài)知識(shí)。

框架表示通過(guò)框架的層次結(jié)構(gòu)組織知識(shí)，其中每個(gè)實(shí)體由一個(gè)包含多個(gè)用于存儲(chǔ)屬性和相應(yīng)值的槽的框架表示。它通過(guò)繼承一個(gè)人的屬性來(lái)避免框架的重復(fù)定義。由于現(xiàn)實(shí)世界的多樣性和復(fù)雜性，許多實(shí)際情況和框架差異很大，在框架設(shè)計(jì)過(guò)程中引入了錯(cuò)誤或沖突，導(dǎo)致除了無(wú)法表示程序性知識(shí)外，缺乏通用性。

腳本化表示通過(guò)一系列原子動(dòng)作來(lái)表示事物的基本行為，描述事物以確定的時(shí)間或因果順序發(fā)生，并用于動(dòng)態(tài)知識(shí)。雖然它可以在一定程度上代表程序性知識(shí)，但不適用于概念性或事實(shí)性知識(shí)。

最初，本體論一詞來(lái)自哲學(xué)，用于描述世界上存在者的存在。為了獲得具有推理能力的模型，研究人員采用術(shù)語(yǔ)本體來(lái)描述程序中可以計(jì)算表示的世界。 CYC [64] 是一個(gè)按照本體規(guī)范構(gòu)建的知識(shí)庫(kù)，旨在組織人類常識(shí)知識(shí)。由于本體可以表示一致認(rèn)可的靜態(tài)領(lǐng)域知識(shí)，因此它也用于信息檢索和 NLP。 WordNet [65] 是基于單詞本體創(chuàng)建的。除了靜態(tài)知識(shí)建模之外，還設(shè)計(jì)了特定于任務(wù)的本體，以添加基于靜態(tài)知識(shí)的推理能力。

為了促進(jìn)語(yǔ)義理解，Tim 等人。 [66] 在 2001 年提出語(yǔ)義 Web 概念，以構(gòu)建一個(gè)大型分布式數(shù)據(jù)庫(kù)，通過(guò)語(yǔ)義而不是字符串來(lái)鏈接數(shù)據(jù)。為了使計(jì)算機(jī)可以理解數(shù)據(jù)，W3C 提出了資源描述框架（RDF）[67]，它使用語(yǔ)義網(wǎng)絡(luò)表示以三元組的形式表達(dá)語(yǔ)義。這種形式可以很容易地通過(guò)圖來(lái)實(shí)現(xiàn)，以應(yīng)用概率圖和圖論的圖算法來(lái)解決問(wèn)題。此外，Web Ontology Language (OWL) 旨在賦予計(jì)算機(jī)推理能力，它描述了符合本體表示的事物的類別、屬性和實(shí)例。

在工程實(shí)現(xiàn)中，知識(shí)圖譜（KG）是以實(shí)體為節(jié)點(diǎn)，以關(guān)系為邊的網(wǎng)絡(luò)表示的知識(shí)庫(kù)。具體來(lái)說(shuō)，KG 通過(guò)語(yǔ)義網(wǎng)技術(shù)從網(wǎng)絡(luò)中獲取知識(shí)和相應(yīng)的描述，并組織成三元組。由于程序性知識(shí)管理難度大，確定性弱，現(xiàn)有的KG大多只包含概念性知識(shí)和事實(shí)性知識(shí)，沒(méi)有程序性知識(shí)。

Knowledge Representation Learning

深度學(xué)習(xí)委托的知識(shí)表示學(xué)習(xí)（KRL）側(cè)重于知識(shí)庫(kù)中實(shí)體和關(guān)系的表示學(xué)習(xí)，有效衡量實(shí)體和關(guān)系的語(yǔ)義相關(guān)性，緩解稀疏問(wèn)題。更重要的是，在知識(shí)表示學(xué)習(xí)之后，符號(hào)知識(shí)可以更容易地與基于神經(jīng)網(wǎng)絡(luò)的模型集成。

平移距離模型
使用基于距離的評(píng)分函數(shù)，這種類型的模型將事實(shí)的合理性衡量為關(guān)系執(zhí)行平移后兩個(gè)實(shí)體之間的距離。受 [68] 中語(yǔ)言規(guī)律的啟發(fā)，TransE [69] 表示 d 維向量空間中的實(shí)體和關(guān)系，使得嵌入的實(shí)體 h 和 t 可以通過(guò)平移向量 r 連接，即當(dāng) (h, r, t) 成立。為了解決實(shí)體和關(guān)系的單個(gè)空間不足的問(wèn)題，TransH [70] 和 TransR [71] 允許實(shí)體在涉及不同關(guān)系時(shí)具有不同的表示。 TransH 引入了關(guān)系超平面，假設(shè)實(shí)體和關(guān)系共享相同的語(yǔ)義空間，而 TransR 利用分離的關(guān)系空間來(lái)考慮實(shí)體的不同屬性。 TransD [72] 認(rèn)為，即使具有相同的關(guān)系，實(shí)體也可以作為不同的類型，并通過(guò)考慮實(shí)體和關(guān)系之間的交互來(lái)構(gòu)建動(dòng)態(tài)映射矩陣。由于實(shí)體和關(guān)系的異質(zhì)性和不平衡性，TranSparse [73] 通過(guò)在投影矩陣上強(qiáng)制稀疏來(lái)簡(jiǎn)化 TransR。

語(yǔ)義匹配模型
語(yǔ)義匹配模型通過(guò)匹配實(shí)體的潛在語(yǔ)義和關(guān)系與基于相似性的評(píng)分函數(shù)來(lái)衡量事實(shí)的合理性。 RESCAL [74] 將每個(gè)實(shí)體和關(guān)系分別與向量和矩陣相關(guān)聯(lián)。事實(shí)的得分 (h, r, t) 由雙線性函數(shù)定義。為了降低計(jì)算復(fù)雜度，DistMult [75] 通過(guò)限制與對(duì)角矩陣的關(guān)系來(lái)簡(jiǎn)化 RESCAL。將 RESCAL 的表達(dá)能力與 DistMult 的效率和簡(jiǎn)單性相結(jié)合，HolE [28] 用循環(huán)相關(guān)運(yùn)算組合實(shí)體表示，然后將組合向量與關(guān)系表示匹配以對(duì)三元組進(jìn)行評(píng)分。與上述模型不同，SME [76] 使用神經(jīng)網(wǎng)絡(luò)架構(gòu)在實(shí)體和關(guān)系之間進(jìn)行語(yǔ)義匹配。 NTN [77] 將投影實(shí)體與關(guān)系張量相結(jié)合，并在關(guān)系線性輸出層之后預(yù)測(cè)分?jǐn)?shù)。

圖神經(jīng)網(wǎng)絡(luò)模型
上述模型僅通過(guò)存儲(chǔ)為三元組集合的事實(shí)嵌入實(shí)體和關(guān)系，而基于圖神經(jīng)網(wǎng)絡(luò)的模型考慮了圖的整個(gè)結(jié)構(gòu)。圖卷積網(wǎng)絡(luò) (GCN) 是在 [78] 中首次提出的，經(jīng)過(guò)不斷努力 [79]、[80]、[81]、[82]，它已成為創(chuàng)建節(jié)點(diǎn)嵌入的有效工具，它聚合了圖鄰域中的局部信息對(duì)于每個(gè)節(jié)點(diǎn)。作為圖卷積網(wǎng)絡(luò)的擴(kuò)展，R-GCN [83]被開發(fā)用于處理現(xiàn)實(shí)知識(shí)庫(kù)的高度多關(guān)系數(shù)據(jù)特征。 SACN [84] 采用端到端網(wǎng)絡(luò)學(xué)習(xí)框架，其中編碼器利用圖節(jié)點(diǎn)結(jié)構(gòu)和屬性，解碼器簡(jiǎn)化 ConvE [85] 并保持 TransE 的平移特性。 Nathani 等人遵循 SACN 的相同框架。 [86] 提出了一種基于注意力的特征嵌入，它在編碼器中捕獲實(shí)體和關(guān)系特征。 Vashishth 等人。 [87]認(rèn)為在消息傳輸過(guò)程中應(yīng)綜合考慮關(guān)系和節(jié)點(diǎn)的結(jié)合。那里- 5

為此，他們提出了 CompGCN，它利用知識(shí)圖嵌入技術(shù)中的各種實(shí)體關(guān)系組合操作，并隨著關(guān)系的數(shù)量縮放以共同嵌入節(jié)點(diǎn)和關(guān)系。

KEPM的分類

3.1 分類原則

符號(hào)知識(shí)以實(shí)體描述、KG 和規(guī)則的形式為預(yù)訓(xùn)練模型提供豐富的信息，分別提供額外的實(shí)體特征、實(shí)體間關(guān)聯(lián)并指導(dǎo) PTM 的推理過(guò)程。 PTM 需要不同粒度的知識(shí)來(lái)解決不同的下游任務(wù)。然而，PTM 僅擁有知識(shí)是不夠的，它是一種有效的知識(shí)注入方法。這些方法對(duì)知識(shí)注入的效率、知識(shí)的存儲(chǔ)方式以及知識(shí)管理的難易程度都有顯著影響。除此之外，可解釋性和問(wèn)責(zé)制對(duì)于將 PTM 擴(kuò)展到更廣泛的應(yīng)用場(chǎng)景變得至關(guān)重要。已經(jīng)付出了很多努力來(lái)通過(guò)不同的探測(cè)方式來(lái)查看 PTM 中編碼的知識(shí) [88]。研究人員發(fā)現(xiàn)，PLM 的標(biāo)記表示可以通過(guò)探測(cè)分類器 [89]、[90] 來(lái)捕獲句法和語(yǔ)義知識(shí)。問(wèn)答任務(wù)中的定量分析表明，PLM 可以編碼結(jié)構(gòu)化的常識(shí)知識(shí) [91]?？死说热?。 [92] 探索了自注意力頭的功能，并報(bào)告說(shuō)他們?cè)谀承┚浞ㄎ恢蒙巷@著地注意單詞。盡管取得了這些成就，但沒(méi)有研究如何在下游任務(wù)中利用知識(shí)的可解釋性，特別是對(duì)于需要大量知識(shí)的任務(wù)。 PTM 缺乏確定和嚴(yán)格的計(jì)算形式，這對(duì)于需要顯式過(guò)程的推理任務(wù)尤其重要。因此，我們從知識(shí)粒度、知識(shí)注入方式、符號(hào)知識(shí)參數(shù)化程度三個(gè)維度對(duì)現(xiàn)有KEPTMs進(jìn)行分類，分析其對(duì)應(yīng)用范圍、知識(shí)注入效率和知識(shí)易用性的影響管理和可解釋性。

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的分類

本節(jié)根據(jù)上面討論的維度給出了一個(gè)具體的分類。

知識(shí)粒度

KEPTM 集成了不同粒度的知識(shí)，適用于需要不同細(xì)節(jié)級(jí)別信息的場(chǎng)景。一般來(lái)說(shuō)，情感分析主要依賴于詞的特征，因此需要更多關(guān)于個(gè)體實(shí)體的信息。相比之下，文本生成任務(wù)依賴于基于常識(shí)知識(shí)，問(wèn)答任務(wù)依賴規(guī)則和KG來(lái)推斷。根據(jù)知識(shí)集成的粒度，我們將 KEPTM 分為非結(jié)構(gòu)化知識(shí)和結(jié)構(gòu)化知識(shí)。前者由實(shí)體融合和文本融合的 KEPTM 組成，而后者又進(jìn)一步分為 sytax-tree fused、KG fused、rule fused KEPTM。

實(shí)體融合的 KEPTM
實(shí)體作為基本的語(yǔ)義單位，以詞、詞組和文字的形式存在?，F(xiàn)有的 KEPTM 通常將實(shí)體視為監(jiān)督數(shù)據(jù)，以學(xué)習(xí)其語(yǔ)義或從中獲得額外的關(guān)鍵特征。稀有或歧義實(shí)體的信息使 PTM 能夠很好地學(xué)習(xí)其語(yǔ)義，并在命名實(shí)體識(shí)別 [93]、情感分析 [94]、詞義消歧甚至問(wèn)答任務(wù) [95] 中取得可喜的性能。

文本融合預(yù)訓(xùn)練模型
由于預(yù)訓(xùn)練以序列為輸入，因此無(wú)需額外處理即可輕松編碼文本。盡管它在表達(dá)上很靈活，但它不能提供明確的關(guān)系，主要有利于問(wèn)答。

語(yǔ)法樹融合的 KEPTM
句法知識(shí)提供了句子的關(guān)鍵成分，它們不僅有利于自然語(yǔ)言推理和理解任務(wù)[96]，而且有利于句法解析[97]、語(yǔ)義角色標(biāo)記任務(wù)和共指解決。更重要的是，它可以通過(guò)各種方法加以利用。例如，它可以通過(guò)選擇語(yǔ)法樹的不同組成部分來(lái)用于監(jiān)督數(shù)據(jù)。此外，語(yǔ)法樹的結(jié)構(gòu)也可以通過(guò)圖神經(jīng)網(wǎng)絡(luò)（GNN）[98]進(jìn)行編碼。

KG 融合 KEPTM
隨著信息抽取技術(shù)的進(jìn)步，大量的通用知識(shí)圖譜和特定領(lǐng)域知識(shí)圖譜應(yīng)運(yùn)而生。知識(shí)圖譜提供了一種結(jié)構(gòu)化的方式來(lái)以實(shí)體和它們之間的關(guān)系的形式表示豐富的信息。在被 PTM 采用后，它們已成為各種任務(wù)的核心，包括一般的自然語(yǔ)言理解和生成任務(wù)，以及圖像分類和視覺(jué)問(wèn)答。與語(yǔ)法樹類似，它們通過(guò)適當(dāng)?shù)?KRL [18]、[19] 充當(dāng)語(yǔ)義嵌入，或通過(guò)查詢 [21]、[99] 指導(dǎo)推理過(guò)程。

規(guī)則融合的 KEPTM
規(guī)則作為非正式約束或嚴(yán)格的邏輯表達(dá)式存在。它的主要好處是其由強(qiáng)有力的數(shù)學(xué)形式主義和明確的推理過(guò)程帶來(lái)的可解釋性和問(wèn)責(zé)制。這些規(guī)則不僅可以用作分配權(quán)重的監(jiān)督信號(hào)[100]，還可以用作做出決策的獨(dú)立推理系統(tǒng)[23]。

知識(shí)注入方法法

知識(shí)注入的方法對(duì)于 PTM 與知識(shí)整合的有效性和效率，以及知識(shí)的管理和存儲(chǔ)都起著重要的作用。實(shí)際上，它決定了可以整合哪些知識(shí)以及知識(shí)的形式。為了深入了解知識(shí)是如何注入的，我們將模型分為特征融合、嵌入組合、知識(shí)監(jiān)督、數(shù)據(jù)結(jié)構(gòu)統(tǒng)一、基于檢索和規(guī)則引導(dǎo)的 KEPTM。

特征融合的 KEPTM
這種類型的模型從特定的知識(shí)庫(kù)中獲得諸如情感極性、超感和實(shí)體跨度等特征。特征 6 融合的 KEPTM 通常通過(guò)使用可訓(xùn)練矩陣投影到嵌入中來(lái)考慮它，并通過(guò)預(yù)訓(xùn)練任務(wù) [94]、[101]、[102] 來(lái)學(xué)習(xí)其含義。

嵌入組合的 KEPTM
為了填補(bǔ)符號(hào)知識(shí)和神經(jīng)網(wǎng)絡(luò)之間的空白，嵌入組合的 KEPTM 將符號(hào)知識(shí)轉(zhuǎn)換為嵌入，提前使用表示學(xué)習(xí)算法，這會(huì)極大地影響模型的性能。然后文本和實(shí)體中的標(biāo)記將通過(guò)注意力機(jī)制或其他加權(quán)操作[18]，[19]對(duì)齊以結(jié)合它們的相應(yīng)嵌入。但是，由于對(duì)不同形式的知識(shí)有不同的表示學(xué)習(xí)算法，會(huì)存在異構(gòu)的語(yǔ)義空間。為了解決這個(gè)問(wèn)題，一些 KEPTM 生成節(jié)點(diǎn)的初始嵌入及其上下文 [20]、[103]。

數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM
由于結(jié)構(gòu)不兼容，一些工作對(duì) PTM 的知識(shí)注入和原始訓(xùn)練數(shù)據(jù)采用不同的表示學(xué)習(xí)算法。但是，它會(huì)導(dǎo)致語(yǔ)義空間異構(gòu)，增加它們?nèi)诤系碾y度。為了平滑地集成它們，數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 將 KG 的關(guān)系三元組轉(zhuǎn)換為序列，因此使用相同的編碼器來(lái)學(xué)習(xí)嵌入 [24]、[104]、[105]。然而，統(tǒng)一數(shù)據(jù)結(jié)構(gòu)的構(gòu)建依賴于啟發(fā)式實(shí)現(xiàn)，KG 的結(jié)構(gòu)信息被丟棄。

知識(shí)監(jiān)督的 KEPTM
為了避免額外的培訓(xùn)成本和工程設(shè)計(jì)，知識(shí)監(jiān)督的 KEPTM 選擇滿足特定關(guān)系和/或關(guān)系三元組的實(shí)體作為訓(xùn)練數(shù)據(jù) [94]、[103]。正如我們上面所討論的，預(yù)訓(xùn)練的語(yǔ)言模型是一種統(tǒng)計(jì)模型，通過(guò)共現(xiàn)信號(hào)學(xué)習(xí)實(shí)體之間的關(guān)系。 KEPTMs 通過(guò)在不犧牲效率的情況下將關(guān)系三元組和/或?qū)嶓w與輸入序列連接起來(lái)克服了這個(gè)缺點(diǎn) [106]、[107]。

基于檢索的 KEPTM
基于檢索的 KEPTM 可以通過(guò)咨詢外部知識(shí)來(lái)更新感知，而不是注入知識(shí)。他們通常通過(guò)計(jì)算輸入文本和知識(shí) [108]、[109]、[110] 之間的相關(guān)性從知識(shí)源中檢索所需信息。優(yōu)勢(shì)之一在于主動(dòng)選擇相關(guān)信息，避免了無(wú)法匹配輸入文本的冗余和歧義知識(shí)的影響。由于它們不保留模型內(nèi)的知識(shí)，因此它們的應(yīng)用受到限制，主要應(yīng)用于問(wèn)答。

規(guī)則引導(dǎo)的 KEPTM
大多數(shù) KEPTM 將知識(shí)和語(yǔ)言信息存儲(chǔ)在預(yù)訓(xùn)練模型的參數(shù)中。然而，觀察知識(shí)在下游任務(wù)中是如何被利用的并不直觀。解決它的一種直接方法是保持符號(hào)知識(shí)的原始形式，就像規(guī)則引導(dǎo)的 KEPTM 所做的那樣。這種類型的模型由感知系統(tǒng)和推理系統(tǒng)組成，前者由 PTM 組成，后者由規(guī)則 [22]、[23] 實(shí)現(xiàn)。這種模型的一個(gè)主要優(yōu)點(diǎn)是它們使用嚴(yán)格的數(shù)學(xué)公式保證結(jié)果的可靠性，并通過(guò)明確的推理過(guò)程提供可解釋性。

知識(shí)參數(shù)化程度

PTM 可以以符號(hào)或語(yǔ)義嵌入的形式利用知識(shí)。為了橋接符號(hào)知識(shí)和神經(jīng)網(wǎng)絡(luò)，前者被投影到一個(gè)密集的低維語(yǔ)義空間中，并由分布式向量表示，徹底的知識(shí)表示學(xué)習(xí)[111]。當(dāng)前的算法主要集中在對(duì) KG 的表示學(xué)習(xí)上。使用 GNN 的變體來(lái)捕獲 KG 的結(jié)構(gòu)。然而，這種方法在知識(shí)存儲(chǔ)和管理方面也帶來(lái)了挑戰(zhàn)。一方面，知識(shí)需要一定數(shù)量的參數(shù)來(lái)存儲(chǔ)。另一方面，模型在知識(shí)不斷更新的情況下重復(fù)注入知識(shí)是不現(xiàn)實(shí)的，特別是對(duì)于那些通過(guò)預(yù)訓(xùn)練集成知識(shí)的模型。相比之下，一些研究人員保留了符號(hào)知識(shí)的形式并將其用于學(xué)習(xí)管道。根據(jù)知識(shí)參數(shù)化程度，我們將模型分為完全參數(shù)化、部分參數(shù)化和知識(shí)形式不變的 KEPTM。

完全參數(shù)化的 KEPTM
隨著 GNN 的快速發(fā)展，各種符號(hào)知識(shí)，尤其是 KGs，可以被有效地編碼。不僅針對(duì)實(shí)體的語(yǔ)義，此類模型還借助 KRL 的優(yōu)越方法捕獲結(jié)構(gòu)信息以支持推理。通過(guò)將知識(shí)存儲(chǔ)為參數(shù)，模型可以具有知識(shí)意識(shí)并適應(yīng)廣泛的場(chǎng)景。

部分參數(shù)化的 KEPTM
由于 GNN 對(duì) KG 的多步關(guān)系建模的局限性，部分參數(shù)化的融合 KEPTM 只對(duì)部分知識(shí)進(jìn)行編碼，而其余部分保持不變。例如，一些作品 [21]、[112] 對(duì) KG 的實(shí)體進(jìn)行編碼，但以原始形式保持結(jié)構(gòu)信息。實(shí)體的表示學(xué)習(xí)負(fù)責(zé)與 PTM 的集成，而 KG 的結(jié)構(gòu)信息負(fù)責(zé)檢索關(guān)聯(lián)的實(shí)體。考慮到 KG 中的大量關(guān)系三元組，這對(duì)于獲得盡可能多的相關(guān)實(shí)體來(lái)支持決策特別有效。

知識(shí)形成不變的 KEPTM
除了出色的性能外，研究人員還認(rèn)識(shí)到需要更好地理解 KEPTM 的基本原理?；谝?guī)則的表示提供了符號(hào)和 PTM 之間的映射機(jī)制。通過(guò)將符號(hào)推理系統(tǒng)集成到學(xué)習(xí)管道中，形成不變的 KEPTM 的知識(shí)調(diào)和了 PTM 的有效感知和符號(hào)表示的推理和可解釋性的優(yōu)勢(shì) [22]、[23]。

論文中介紹的分類和相應(yīng)的KEPTM如圖1所示。

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型概述

在本節(jié)中，我們將詳細(xì)介紹我們?cè)谖墨I(xiàn)調(diào)查中發(fā)現(xiàn)的 KEPTM。我們將專注于知識(shí)注入的方法，因此根據(jù)這個(gè)維度組織我們的演示。這是由于假設(shè)知識(shí)注入的方法作為核心影響因素，決定了 PTM 可以集成哪些類型的知識(shí)以及知識(shí)呈現(xiàn)的形式。按照這個(gè)想法，我們從應(yīng)用場(chǎng)景、知識(shí)注入效率、知識(shí)管理和知識(shí)使用中的可解釋性的角度介紹了現(xiàn)有的 KEPTM。

為了可視化知識(shí)注入方法與知識(shí)類型和知識(shí)參數(shù)化程度之間的關(guān)聯(lián)，我們?yōu)槊糠N類型的 KEPTM 繪制了示意圖。圖表的線條粗細(xì)表示數(shù)量。

Fearure 融合的 KEPTM

Fearure 融合的 KEPTM 專注于實(shí)體級(jí)別的知識(shí)，并通過(guò)注入實(shí)體特征和語(yǔ)言表示來(lái)注入知識(shí)。他們從 KG 中提取實(shí)體的任務(wù)所需特征，并將它們與預(yù)訓(xùn)練序列一起投射到嵌入中，這些特征適用于強(qiáng)調(diào)實(shí)體語(yǔ)義的任務(wù)，例如情感分析和詞義消歧。

SenseBERT [113]
將詞義信息注入到 BERT 的預(yù)訓(xùn)練信號(hào)中，增強(qiáng)了詞匯理解能力，從而解決了 BERT 無(wú)法很好地學(xué)習(xí)受重尾分布影響的稀有詞表示的問(wèn)題。遵循 BERT 架構(gòu)，與標(biāo)準(zhǔn) MLM 一起，SenseBERT 訓(xùn)練了一個(gè)語(yǔ)義級(jí)語(yǔ)言模型來(lái)預(yù)測(cè)缺失的單詞含義。 SenseBERT 將帶有掩碼單詞的序列作為輸入，并在將單詞信息及其超義投影到嵌入后將其饋送到 Transformer 塊中。之后，該模型在詞形和詞義任務(wù)中進(jìn)行了預(yù)訓(xùn)練。在不影響通用語(yǔ)言理解評(píng)估 (GLUE) [114] 的性能的情況下，SenseBERT 提高了單詞級(jí)別的語(yǔ)義意識(shí)，大大優(yōu)于普通 BERT 在 Supersense Disambiguation 任務(wù)中的表現(xiàn)，并在 Word in Context 任務(wù)中取得了最先進(jìn)的結(jié)果 [115]。

盡管 BERT 已被證明在簡(jiǎn)單的情感分類中是成功的，但將其直接應(yīng)用于細(xì)粒度的情感分析顯示出不太顯著的改進(jìn) [116]。因此，為了更好地解決上述問(wèn)題，SemtiLARE [94] 被提出通過(guò)標(biāo)簽感知 MLM 目標(biāo)為 BERT 注入情感極性及其詞性。以 RoBERTa 為骨干模型，SemtiLARE 首先獲取詞性標(biāo)簽，并通過(guò)上下文感知注意機(jī)制從 SentiWordNet 計(jì)算單詞情感極性。然后利用兩個(gè)預(yù)訓(xùn)練任務(wù)來(lái)捕捉句子級(jí)語(yǔ)言表示和單詞級(jí)語(yǔ)言知識(shí)之間的關(guān)系。 SentiLARE 刷新了語(yǔ)言表示模型在句子級(jí)和方面級(jí)情感分析任務(wù)上的最新性能，從而促進(jìn)了情感理解。

受限于分詞方法，預(yù)訓(xùn)練語(yǔ)言模型的詞匯表中的token通常不是一個(gè)語(yǔ)義單元，而是它的碎片。因此，它的跨度特征對(duì)語(yǔ)義學(xué)習(xí)有至關(guān)重要的影響。 ERNIE 1.0 [101] 采用實(shí)體和短語(yǔ)掩蔽策略來(lái)判斷語(yǔ)義單元的跨度，并通過(guò)上下文學(xué)習(xí)它們的嵌入。其改進(jìn)版本 ERNIE 2.0 [102] 引入了不同的預(yù)測(cè)或分類預(yù)訓(xùn)練任務(wù)，以同時(shí)捕獲詞匯、句法和語(yǔ)義信息。值得注意的是，ERNIE 2.0 采用持續(xù)的預(yù)訓(xùn)練框架來(lái)實(shí)現(xiàn)增量學(xué)習(xí)，這表明多任務(wù)學(xué)習(xí)技術(shù)可能是將多重知識(shí)集成到 PTM 中的解決方案。

當(dāng) PTM 學(xué)習(xí)不同的知識(shí)時(shí)，災(zāi)難性遺忘是一種普遍現(xiàn)象。為此，優(yōu)先考慮多任務(wù)學(xué)習(xí)技術(shù)，將多重知識(shí)整合到預(yù)訓(xùn)練模型中。 PLM 可以從正則化效果中受益，以減輕對(duì)特定任務(wù)的過(guò)度擬合，從而使學(xué)習(xí)到的表示在任務(wù)之間具有通用性。

Embedding Combined KEPTMs

盡管特征融合的 KEPTM 可以學(xué)習(xí)實(shí)體的豐富語(yǔ)義，但僅使用實(shí)體進(jìn)行推理具有挑戰(zhàn)性。為了捕獲各種知識(shí)，嵌入組合的 KEPTM 預(yù)先通過(guò) KRL 對(duì)其進(jìn)行編碼，并通過(guò)注意力機(jī)制的變體注入相應(yīng)的嵌入。它們利用更廣泛的知識(shí)，例如實(shí)體、語(yǔ)法樹和 KG，并以參數(shù)的形式保存知識(shí)。在裝備知識(shí)之后，嵌入組合的 KEPTM 被應(yīng)用于一般的自然語(yǔ)言理解、問(wèn)答和圖像分類任務(wù)。

跨度掩蔽策略流行用于注入實(shí)體的邊界特征。但是，它只能為每個(gè)對(duì)齊的令牌嵌入注入一個(gè)實(shí)體，并導(dǎo)致預(yù)訓(xùn)練和微調(diào)之間的不匹配。為了避免這些問(wèn)題并進(jìn)一步利用跨度內(nèi)的語(yǔ)義，Li 等人。 [93] 提出了一種多源詞對(duì)齊注意力（MWA），將顯式詞信息與預(yù)訓(xùn)練的字符嵌入相結(jié)合。具體來(lái)說(shuō)，他們使用分詞工具將輸入序列劃分為不重疊的跨度。然后根據(jù)混合池策略[117]計(jì)算跨度對(duì)齊的注意力矩陣。最后，增強(qiáng)的字符表示是由 word-aligned attention 產(chǎn)生的。與之前的模型不同，ZEN 使用外部編碼器學(xué)習(xí)實(shí)體表示，而不是重新分配實(shí)體的注意力分?jǐn)?shù)以強(qiáng)調(diào)實(shí)體信息。為了學(xué)習(xí)更大的粒度文本，ZEN 在預(yù)訓(xùn)練期間通過(guò)參加 n-gram 表示來(lái)考慮不同的字符組合。給定一個(gè)漢字序列，模型提取 n-gram 并用 n-gram 匹配矩陣記錄它們的位置。然后所有的 n-gram 都由 Transformer 表示并與相關(guān)字符組合。與采用掩蔽策略注入實(shí)體信息的模型相比，ZEN 和 MWA 可以合并嵌套實(shí)體，從而顯著提高實(shí)體集成的通用性，同時(shí)提供很少的訓(xùn)練成本。與上述模型不同，LUKE [106] 使用額外的詞匯表來(lái)記錄實(shí)體的嵌入。它將單詞和實(shí)體視為獨(dú)立的標(biāo)記，并使用 Transformer 計(jì)算所有標(biāo)記的表示。具體來(lái)說(shuō)，它使用了大量從維基百科獲得的實(shí)體注釋語(yǔ)料庫(kù)。考慮到巨大的成本和計(jì)算效率，作者計(jì)算實(shí)體嵌入，將它們分解為兩個(gè)小矩陣。此外，作者引入了一種實(shí)體感知的自我注意機(jī)制，該機(jī)制在計(jì)算注意分?jǐn)?shù)時(shí)考慮了標(biāo)記的類型。由于實(shí)體被視為令牌，LUKE 直接對(duì)實(shí)體之間的關(guān)系進(jìn)行建模，并在知識(shí)驅(qū)動(dòng)的 NLP 任務(wù)中實(shí)現(xiàn)了強(qiáng)大的經(jīng)驗(yàn)性能。

Boyond 實(shí)體、語(yǔ)法樹也可用于增強(qiáng)預(yù)訓(xùn)練的語(yǔ)言模型。句法偏差有助于涉及結(jié)構(gòu)化輸出空間的各種自然語(yǔ)言理解任務(wù)——包括語(yǔ)義角色標(biāo)記和共指解析等任務(wù)。 SyntaxBERT [96] 通過(guò)反映輸入的不同句法關(guān)系的稀疏掩碼矩陣對(duì)句法知識(shí)進(jìn)行建模，從而通過(guò)句法感知自注意機(jī)制將句法知識(shí)有效地整合到預(yù)訓(xùn)練的 Transformer 中。與啟發(fā)式實(shí)現(xiàn)不同，Sachan 等人。 [98]通過(guò)圖神經(jīng)網(wǎng)絡(luò)對(duì)輸入句子的依賴結(jié)構(gòu)進(jìn)行編碼。由于 BERT 將子詞作為輸入單元而不是語(yǔ)言標(biāo)記，因此該模型通過(guò)定義從標(biāo)記的第一個(gè)子詞到同一標(biāo)記的剩余子詞的新邊，在原始依賴樹中引入了額外的邊。

作為最常見(jiàn)的知識(shí)，KGs 提供了全面而豐富的實(shí)體和關(guān)系信息，并提出了不同的表示學(xué)習(xí)算法來(lái)實(shí)現(xiàn)其嵌入。 ERNIE [18] 使用知識(shí)表示學(xué)習(xí)算法（例如 TransE）對(duì)實(shí)體和關(guān)系進(jìn)行編碼，并通過(guò)自注意力機(jī)制基于對(duì)齊方式集成實(shí)體表示和令牌嵌入。同樣，KnowBERT [19] 也提前學(xué)習(xí)了 KG 的表示。它沒(méi)有使用現(xiàn)有的對(duì)齊數(shù)據(jù)，而是引入了一個(gè)輔助實(shí)體鏈接器來(lái)獲取更多的 KG 實(shí)體。在將 KG 的關(guān)系三元組集成到 BERT 中后，這兩個(gè)模型都展示了在關(guān)系提取、實(shí)體類型等知識(shí)驅(qū)動(dòng)任務(wù)中回憶事實(shí)的能力有所提高。然而，他們?cè)?KRL 過(guò)程中將三元組視為一個(gè)獨(dú)立的訓(xùn)練單元，忽略了實(shí)體的信息鄰居。 BRET-MK [105] 通過(guò)利用節(jié)點(diǎn)的上下文信息從 KG 中捕獲更豐富的三元組語(yǔ)義。從KG中提取實(shí)體的子圖并轉(zhuǎn)換成一個(gè)序列，如圖2所示?？紤]到實(shí)體和關(guān)系的相互影響，關(guān)系也被視為圖節(jié)點(diǎn)。然后將節(jié)點(diǎn)序列送入Transformer，進(jìn)一步對(duì)實(shí)體的上下文信息進(jìn)行編碼之后，同樣的知識(shí)

以往，并非所有知識(shí)都在 KEPTM 中發(fā)揮積極作用。當(dāng) KEPTM 獨(dú)立于文本上下文對(duì)子圖進(jìn)行編碼時(shí)，KG 中的冗余和模棱兩可的知識(shí)將被注入。為了達(dá)到目的，CokeBERT [118] 根據(jù)文本上下文動(dòng)態(tài)選擇上下文知識(shí)并嵌入知識(shí)上下文。

除了 NLP，KG 還為圖像分類提供對(duì)象的特征和它們之間的關(guān)系?？紤]到視覺(jué)概念空間的龐大、復(fù)雜和動(dòng)態(tài)，為每個(gè)概念構(gòu)建大型數(shù)據(jù)集是不可擴(kuò)展的。將知識(shí)與基于所學(xué)知識(shí)的推理相結(jié)合成為可能的答案。馬里諾等人。 [25] 引入圖搜索神經(jīng)網(wǎng)絡(luò)將大型知識(shí)圖合并到視覺(jué)分類管道中，其中特征向量由 VGG-16 [8] 和 Faster R-CNN [7] 確定。考慮到 KG 的大量節(jié)點(diǎn)，它根據(jù)我們的輸入從一些初始節(jié)點(diǎn)開始，只選擇對(duì)最終輸出有用的節(jié)點(diǎn)作為訓(xùn)練數(shù)據(jù)。該圖通過(guò)傳播已知節(jié)點(diǎn)的屬性和關(guān)系成功地對(duì)屬于長(zhǎng)尾分布的類別進(jìn)行分類。王等人。 [119] 進(jìn)一步推進(jìn)了對(duì)圖像分類任務(wù)的少量樣本學(xué)習(xí)的研究。他們提出了一種通過(guò)使用 GCN 對(duì)描述對(duì)象類別的 KG 進(jìn)行編碼來(lái)實(shí)現(xiàn)零樣本對(duì)象識(shí)別的方法，該方法將從熟悉的類中獲得的知識(shí)轉(zhuǎn)移到描述不熟悉的類中。具體來(lái)說(shuō)，GCN 將輸入作為用 GLoVE [41] 編碼的類別的語(yǔ)義嵌入，并根據(jù) VGGM [120] 提供的特征預(yù)測(cè)視覺(jué)分類器。然后學(xué)習(xí)到的視覺(jué)分類器識(shí)別出它以前從未見(jiàn)過(guò)的類別。在外部知識(shí)的幫助下，它將識(shí)別算法推廣到現(xiàn)實(shí)的開放世界。

總之，大多數(shù)實(shí)體組合的 KEPTM 必須經(jīng)歷兩個(gè)階段來(lái)整合知識(shí)：知識(shí)表示學(xué)習(xí)和對(duì)齊。但是，標(biāo)記和實(shí)體的對(duì)齊方式存在一些錯(cuò)誤。因此，賦予 KEPTM 識(shí)別和糾正對(duì)齊過(guò)程中的錯(cuò)誤至關(guān)重要。例如，要求 ERNIE 根據(jù)錯(cuò)誤的對(duì)齊方式預(yù)測(cè)正確的實(shí)體 10

特意介紹的。值得注意的是，傳統(tǒng)的知識(shí)表示學(xué)習(xí)方法獨(dú)立處理三元組，因此無(wú)法涵蓋三元組周圍的局部鄰域中固有的復(fù)雜信息。與之相比，GNN 更適合對(duì)結(jié)構(gòu)知識(shí)進(jìn)行編碼。本節(jié)我們介紹的知識(shí)注入方法適用于知識(shí)的大部分粒度。此外，嵌入組合的 KEPTM 是知識(shí)感知模型，通過(guò)將知識(shí)作為參數(shù)存儲(chǔ)在模型中，適用于不同的應(yīng)用場(chǎng)景。它的缺點(diǎn)是需要額外的計(jì)算開銷來(lái)學(xué)習(xí)知識(shí)的表示和整合異構(gòu)知識(shí)。此外，這種知識(shí)注入方法難以確保模型獲得特定知識(shí)，并阻止我們從模型中顯式更新或刪除知識(shí)。一旦刷新了關(guān)鍵信息，就需要重新訓(xùn)練嵌入組合的 KEPTM 以保持知識(shí)的正確性，從而導(dǎo)致知識(shí)管理效率低下。適配器模塊可能是減輕知識(shí)更新負(fù)擔(dān)的有前途的解決方案。它可以以少量可訓(xùn)練參數(shù)為代價(jià)保存每個(gè)適配器中的各種知識(shí)，并且可以添加新知識(shí)而無(wú)需重新訪問(wèn)以前的知識(shí)。原始 PTM 的參數(shù)保持固定，產(chǎn)生高度的參數(shù)共享。

數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM

為了適應(yīng)文本和 KG 的不同結(jié)構(gòu)，數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 將序列和知識(shí)轉(zhuǎn)換為統(tǒng)一的結(jié)構(gòu)，并使用相同的編碼器對(duì)嵌入進(jìn)行編碼，以避免異構(gòu)向量空間。這類模型主要通過(guò) KG 增強(qiáng) PTM，并通過(guò)學(xué)習(xí)相應(yīng)的參數(shù)來(lái)獲取知識(shí)。

K-BERT [24] 通過(guò)構(gòu)建知識(shí)豐富的句子樹將序列與相關(guān)三元組連接起來(lái)，實(shí)現(xiàn)知識(shí)注入。具體來(lái)說(shuō)，選擇句子中涉及的所有實(shí)體mention，在KGs中查詢相應(yīng)的三元組，然后K-BERT將三元組拼接到相應(yīng)的位置，生成如圖3所示的句子樹。

在不考慮結(jié)構(gòu)不一致的情況下，KBERT 通過(guò)對(duì)下游任務(wù)的微調(diào)來(lái)注入實(shí)體的關(guān)聯(lián)信息，并在特定領(lǐng)域任務(wù)中實(shí)現(xiàn) 1-2% 的 F 1 增益。值得一提的是，使用 CN-DBpedia [121] 微調(diào)的 K-BERT 在問(wèn)答和命名實(shí)體識(shí)別方面的表現(xiàn)優(yōu)于知網(wǎng) [122]，而后者在語(yǔ)義相似性任務(wù)中得到了進(jìn)一步的改進(jìn)，這表明了適合不同場(chǎng)景的KG。雖然 K-BERT 通過(guò)統(tǒng)一數(shù)據(jù)結(jié)構(gòu)注入了三元組和序列，但它把關(guān)系三元組視為獨(dú)立的單元，忽略了它們之間的關(guān)聯(lián)。為此，CoLAKE [104] 構(gòu)建了一個(gè)詞-知識(shí)圖，并通過(guò)預(yù)訓(xùn)練任務(wù)整合了上下文三元組。單詞知識(shí)圖是通過(guò)將由序列轉(zhuǎn)換的全連接圖中的提及替換為對(duì)齊的實(shí)體來(lái)構(gòu)建的。

然而，上述統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)依賴于啟發(fā)式實(shí)現(xiàn)，一些研究人員提出了一種更通用的方法。關(guān)等人。 [123] 和 COMET [124] 通過(guò)特定模板將 KG 的關(guān)系三元組轉(zhuǎn)換為有意義的序列，并將它們輸入 PTM 的編碼器。為了用常識(shí)知識(shí)生成合理的故事，Guan 等人。 [123] 使用基于模板的方法 [125] 將 ConceptNet 和 ATOMIC 中的常識(shí)三元組轉(zhuǎn)換為可讀的自然語(yǔ)言句子，并通過(guò) LM 目標(biāo)對(duì)這些句子進(jìn)行后期訓(xùn)練。

值得注意的是，丹尼爾等人。 [126] 發(fā)現(xiàn)由預(yù)訓(xùn)練語(yǔ)言模型生成的實(shí)體表示在歸納鏈接預(yù)測(cè)、實(shí)體分類和信息檢索任務(wù)中表現(xiàn)出很強(qiáng)的泛化性。例如，通過(guò)從深度預(yù)訓(xùn)練的語(yǔ)言模型中轉(zhuǎn)移隱性知識(shí)，COMET 學(xué)習(xí)生成與其主題和關(guān)系一致的新對(duì)象，并實(shí)現(xiàn)常識(shí)知識(shí)庫(kù)的自動(dòng)構(gòu)建。原因在于學(xué)習(xí)的表示同時(shí)捕獲了上下文信息和知識(shí)。盡管數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM 無(wú)需額外的工程就可以注入知識(shí)，但它們主要關(guān)注 KG，為了在統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)上讓步而丟棄了 KG 的結(jié)構(gòu)信息。

監(jiān)督的目標(biāo)包括實(shí)體和關(guān)系三元組。例如，T5+SSM [95] 經(jīng)過(guò)預(yù)訓(xùn)練，可以重建 BERT 從維基百科挖掘的命名實(shí)體和日期，并在開放域問(wèn)答基準(zhǔn)上獲得有競(jìng)爭(zhēng)力的結(jié)果。一些模型，如 WKLM [127]、LIBERT [128] 和 GLM [129]，不使用獨(dú)立實(shí)體，而是選擇存在特定實(shí)體 11

來(lái)自 KG 的關(guān)系作為輸入數(shù)據(jù)來(lái)指導(dǎo)模型捕獲它。為了直接從非結(jié)構(gòu)化文本中獲取真實(shí)世界的知識(shí)，WKLM 設(shè)計(jì)了弱監(jiān)督實(shí)體替換檢測(cè)訓(xùn)練目標(biāo)來(lái)強(qiáng)制模型學(xué)習(xí)實(shí)體之間的關(guān)系。與 MLM 目標(biāo)相比，實(shí)體替換任務(wù)引入了更強(qiáng)的實(shí)體級(jí)負(fù)信號(hào)，并保留了原句的語(yǔ)言正確性。 LIEBRT [128] 沒(méi)有使用單個(gè)實(shí)體，而是將滿足語(yǔ)義相似性約束的實(shí)體對(duì)作為訓(xùn)練實(shí)例，以使 BERT 能夠理解詞匯-語(yǔ)義關(guān)系。不限于特定關(guān)系，GLM [129] 驅(qū)動(dòng)預(yù)訓(xùn)練模型通過(guò) KG 的指導(dǎo)來(lái)捕獲相關(guān)實(shí)體之間原始文本的隱含關(guān)系。正如我們上面所討論的，由預(yù)先訓(xùn)練的語(yǔ)言模型生成的實(shí)體表示在鏈接預(yù)測(cè)中表現(xiàn)出很強(qiáng)的泛化性。為此，KEPLER [103] 將參數(shù)與知識(shí)和 MLM 目標(biāo)聯(lián)合優(yōu)化，以獲得適用于 KG 相關(guān)和自然語(yǔ)言理解任務(wù)的表示。核心步驟是 KEPLER 使用 RoBERTa 的文本描述而不是 KRL 來(lái)初始化知識(shí)嵌入。與 KEPLER 類似，KADAPTER [130] 也通過(guò)共同學(xué)習(xí)知識(shí)和語(yǔ)言信息來(lái)更新參數(shù)。不同之處在于，K-ADAPTER 設(shè)計(jì)了一個(gè)適配器來(lái)存儲(chǔ)每種注入的知識(shí)，以保持預(yù)訓(xùn)練模型的原始參數(shù)固定并隔離不同知識(shí)的交互，從而解決災(zāi)難性遺忘的問(wèn)題。

到目前為止，上述模型專注于利用編碼器的能力來(lái)捕獲給定實(shí)體的隱式關(guān)系。然而，復(fù)雜的推理需要直接對(duì)實(shí)體之間的關(guān)系進(jìn)行建模。實(shí)體可以通過(guò)維基百科超鏈接輕松標(biāo)注，并與KG中的實(shí)體對(duì)齊，作為知識(shí)注入的載體。然而，由于表達(dá)形式的多樣性，這并不適用于這種關(guān)系。為了直接建模實(shí)體之間的關(guān)系，ERICA [107] 將輸入序列與知識(shí)圖譜的關(guān)系連接起來(lái)，并通過(guò)判別預(yù)訓(xùn)練任務(wù)對(duì)實(shí)體之間的關(guān)系進(jìn)行建模。具體來(lái)說(shuō)，采用實(shí)體判別任務(wù)和關(guān)系判別任務(wù)。給定頭部實(shí)體和關(guān)系，前者旨在推斷尾部實(shí)體。后者旨在區(qū)分兩個(gè)關(guān)系在語(yǔ)義上是否接近。為了賦予句法解析的能力，LIMIT-BERT [97] 通過(guò)語(yǔ)言監(jiān)督掩碼策略學(xué)習(xí)語(yǔ)言表示。給定句子，它的句法或語(yǔ)義成分由預(yù)先訓(xùn)練的語(yǔ)言學(xué)模型預(yù)測(cè)，從而確定掩蔽跨度。為了解決 [mask] 令牌引起的不匹配問(wèn)題，LIMIT-BERT 采用生成器和判別器作為編碼器，如 ELECTRA [131]，并使用掩碼令牌預(yù)測(cè)和替換令牌檢測(cè)任務(wù)來(lái)訓(xùn)練模型。 SKEP [132] 為多個(gè)情緒分析任務(wù)提供統(tǒng)一的情緒表示。借助自動(dòng)挖掘的情感知識(shí)，它將單詞、極性和方面級(jí)別的情感信息嵌入到情感知識(shí)預(yù)測(cè)目標(biāo)的表示中。

除了預(yù)訓(xùn)練的語(yǔ)言模型，知識(shí)圖譜還可以被視為 CV 和交叉語(yǔ)言中的監(jiān)督信號(hào)。

模態(tài)場(chǎng)。 [100] 定義了一個(gè)基于條件隨機(jī)場(chǎng) (CRF) [133] 的分類模型，其中所有標(biāo)簽都是根據(jù)先驗(yàn)知識(shí)分配的。具體來(lái)說(shuō)，它首先定義了一個(gè)對(duì)層次結(jié)構(gòu)和排除關(guān)系進(jìn)行編碼的特定圖。然后分類分?jǐn)?shù)由 CRF 基于 CNN 導(dǎo)出的圖形和特征計(jì)算?？傊?，它通過(guò)利用任意兩個(gè)標(biāo)簽之間的語(yǔ)義關(guān)系來(lái)推廣圖像多類分類框架。盡管在 CV 的經(jīng)典任務(wù)中取得了成就，但預(yù)訓(xùn)練的 CV 模型無(wú)法僅通過(guò)圖片來(lái)理解對(duì)象之間的語(yǔ)義。 ERNIEViL [134] 基于從文本中解析的場(chǎng)景圖，實(shí)現(xiàn)了視覺(jué)和語(yǔ)言之間的詳細(xì)語(yǔ)義對(duì)齊。作為基本因素，場(chǎng)景圖為跨模態(tài)模型提供了細(xì)粒度的語(yǔ)義信息，例如作為掩蔽目標(biāo)的對(duì)象、屬性和對(duì)象之間的關(guān)系。借助這些監(jiān)督數(shù)據(jù)，ERNIEViL 在預(yù)訓(xùn)練期間通過(guò)預(yù)測(cè)場(chǎng)景圖中不同類型的節(jié)點(diǎn)來(lái)學(xué)習(xí)聯(lián)合表示。

知識(shí)監(jiān)督 KEPTM 的主要好處是無(wú)需額外的網(wǎng)絡(luò)架構(gòu)即可輕松實(shí)現(xiàn)。此外，可以通過(guò)在預(yù)訓(xùn)練或微調(diào)期間確定預(yù)測(cè)目標(biāo)來(lái)靈活地注入知識(shí)。例如，SKEP 通過(guò)將情感詞作為掩蔽目標(biāo)來(lái)實(shí)現(xiàn)有希望的各種情感任務(wù)。這是因?yàn)榍楦蟹治鲋饕蕾囉谇楦性~和詞極性，而不是整個(gè)文本。知識(shí)注入方法的另一個(gè)優(yōu)點(diǎn)是它可以利用對(duì)比學(xué)習(xí)技術(shù)來(lái)提高集成的有效性。對(duì)比學(xué)習(xí)最近在 NLP 和 CV 領(lǐng)域取得了最先進(jìn)的性能，通過(guò)區(qū)分方差提高了模型的魯棒性。 KG 可以提供特定的關(guān)系，例如反義詞和同義詞，適合作為比較學(xué)習(xí)的訓(xùn)練數(shù)據(jù)。例如，ERICA 通過(guò)利用實(shí)體和關(guān)系區(qū)分來(lái)更好地捕獲文本中的關(guān)系事實(shí)。

Retrieval-based KEPTMs
基于檢索的 KEPTM 不融合知識(shí)本身，而是學(xué)習(xí)檢索、選擇和編碼知識(shí)的能力。它側(cè)重于從外部資源中提取所需的知識(shí)，以滿足單個(gè)場(chǎng)景的需求，只需要很少的培訓(xùn)開銷。至關(guān)重要的是，由于不需要存儲(chǔ)大量知識(shí)，因此此類模型可以在面對(duì)知識(shí)的頻繁變化時(shí)更高效、更方便地進(jìn)行更新。
例如，參考關(guān)鍵信息來(lái)判斷而不是存儲(chǔ)所有可能相關(guān)的知識(shí)用于問(wèn)答和生成任務(wù)會(huì)更有效。 12

KT-NET [135] 采用注意力機(jī)制從 KG 中自適應(yīng)地選擇所需知識(shí)，然后融合所選知識(shí)以實(shí)現(xiàn)機(jī)器閱讀理解的知識(shí)和上下文感知預(yù)測(cè)。它通過(guò) KRL [75] 對(duì) KG 進(jìn)行編碼，并通過(guò)微調(diào)學(xué)習(xí)從 WordNet 和 NELL [136] 中檢索潛在相關(guān)實(shí)體。為了提供事實(shí)知識(shí)，KGLM [137] 被構(gòu)建為從本地 KG 中呈現(xiàn)信息，該本地 KG 通過(guò)根據(jù)來(lái)自外部 KG 的上下文選擇和復(fù)制事實(shí)來(lái)動(dòng)態(tài)構(gòu)建。

我們上面介紹的模型使用丟棄結(jié)構(gòu)信息的傳統(tǒng) KRL 方法對(duì) KG 進(jìn)行編碼。為了解決這個(gè)問(wèn)題，GNN 的各種變體被用來(lái)更好地建模 KG 的拓?fù)浣Y(jié)構(gòu)。呂等人。 [20] 設(shè)計(jì)了一個(gè)基于圖的模型，從檢索到的句子中提取關(guān)系三元組并為其構(gòu)建自定義圖。對(duì)于自定義圖，該模型采用圖卷積網(wǎng)絡(luò)（GCN）將鄰居信息編碼為節(jié)點(diǎn)的表示，并通過(guò)圖注意力機(jī)制聚合證據(jù)以預(yù)測(cè)最終答案。

除了問(wèn)答，KG 在生成任務(wù)上也大放異彩。為了賦予 GPT-2 推理能力，GRF [138] 引入了 ConceptNet 作為外部參考，并根據(jù)之前的上下文和知識(shí)圖譜生成一個(gè)結(jié)尾。該模型的核心在于動(dòng)態(tài)推理模塊，該模塊計(jì)算三元組和令牌嵌入之間的相關(guān)性以獲得生成的單詞。沒(méi)有上下文，劉等人。 [139] 提出了僅通過(guò)一組概念生成合理句子的 KG-BART。它首先通過(guò)考慮概念推理圖結(jié)構(gòu)來(lái)豐富令牌表示。之后，該模型捕獲了由概念擴(kuò)展圖提供的概念內(nèi)和概念間的內(nèi)在相關(guān)性。該模型通過(guò)混合 KG 和文本信息，即使在看不見(jiàn)的概念集中也可以生成高質(zhì)量的句子。作為結(jié)構(gòu)化知識(shí)的補(bǔ)充，純文本可以提供豐富且高覆蓋率的證據(jù)。 RAG [110] 通過(guò)基于預(yù)先訓(xùn)練的 seq2seq 模型檢索跨外部文本的相關(guān)跨度來(lái)生成答案。給定一個(gè)查詢，RAG 使用輸入序列來(lái)檢索前 K 個(gè)相關(guān)文本，并在這些潛在文檔和輸入上生成輸出條件。類似地，REALM [109] 通過(guò)從大型語(yǔ)料庫(kù)中檢索和處理文檔來(lái)增強(qiáng)語(yǔ)言模型，但是以更加模塊化和可解釋的方式。具體來(lái)說(shuō)，它由兩個(gè)關(guān)鍵組件組成：使用 BERT 框架實(shí)現(xiàn)的神經(jīng)知識(shí)檢索器，對(duì)輸入數(shù)據(jù)進(jìn)行編碼并檢索可能有用的文檔，以及使用 Transformer 實(shí)現(xiàn)的知識(shí)增強(qiáng)編碼器，用于在文檔中注入實(shí)體并預(yù)測(cè)單詞用于問(wèn)答。 TEK [108] 與檢索到的百科知識(shí)一起學(xué)習(xí)輸入文本的表示，以捕獲和保存與稀有實(shí)體相關(guān)的事實(shí)知識(shí)。給定查詢和上下文，TEK 從多個(gè)文檔中檢索相關(guān)句子列表以補(bǔ)充輸入，然后對(duì)輸入進(jìn)行 Transformer 編碼器操作?？紤]到預(yù)訓(xùn)練過(guò)程中看到的輸入類型與推理過(guò)程中的類型不匹配，研究人員對(duì)背景知識(shí)增強(qiáng)的輸入文本進(jìn)行了自我監(jiān)督的預(yù)訓(xùn)練。
除了有效利用知識(shí)外，基于檢索的模型的另一個(gè)優(yōu)勢(shì)在于知識(shí)使用的可解釋性。 FaE[112]設(shè)計(jì)了一個(gè)基于神經(jīng)語(yǔ)言模型的顯式接口，將符號(hào)可解釋的事實(shí)信息和語(yǔ)言表示連接起來(lái)，實(shí)現(xiàn)對(duì)知識(shí)的檢查和解釋。由于知識(shí)表示和語(yǔ)言表示的解耦，F(xiàn)aE 可以通過(guò)僅修改非參數(shù)三元組來(lái)改變語(yǔ)言模型的輸出，而無(wú)需任何額外的訓(xùn)練。

盡管應(yīng)用場(chǎng)景有限，但這種方法允許靈活地根據(jù)需要對(duì)知識(shí)進(jìn)行編碼。更重要的是，它可以在保留符號(hào)知識(shí)的情況下檢查知識(shí)的使用情況，從而增加可解釋性。例如，F(xiàn)aE 使用外部存儲(chǔ)器來(lái)保存事實(shí)知識(shí)并通過(guò)整合不同的知識(shí)來(lái)觀察相應(yīng)的預(yù)測(cè)。然而，基于檢索的 KEPTM 依賴于標(biāo)記數(shù)據(jù)來(lái)獲得通過(guò)微調(diào)的檢索能力?；谔崾镜哪Ｐ蛷?PTM 中檢索所需的知識(shí)，以通過(guò)少量樣本處理下游任務(wù)。盡管發(fā)展迅速，但考慮到缺乏關(guān)鍵知識(shí)，很難檢索模型所需的所有知識(shí)。在快速學(xué)習(xí)期間利用符號(hào)知識(shí)可以減輕參數(shù)學(xué)習(xí)的負(fù)擔(dān)。例如，PTR [140] 設(shè)計(jì)了一個(gè)由嵌入和實(shí)體組成的提示來(lái)實(shí)現(xiàn)高效的學(xué)習(xí)。快速學(xué)習(xí)與知識(shí)相結(jié)合，調(diào)和了少數(shù)樣本的學(xué)習(xí)和檢索能力。

規(guī)則引導(dǎo)的 KEPTM

如上所述，面向符號(hào)知識(shí)的表示學(xué)習(xí)，如 KG，是連接符號(hào)知識(shí)和預(yù)訓(xùn)練模型的解決方案。相比之下，一個(gè)突出的研究方向是將 PTM 學(xué)習(xí)到的表示轉(zhuǎn)化為概念，然后用符號(hào)知識(shí)進(jìn)行推理，保持對(duì) PTM 的有效學(xué)習(xí)和符號(hào)知識(shí)的可解釋性和問(wèn)責(zé)性，就像規(guī)則引導(dǎo)的 KEPTM 所做的那樣。規(guī)則引導(dǎo)的 KEPTM 主要關(guān)注基于規(guī)則的推理階段。這些模型中的知識(shí)以符號(hào)形式表示并以模塊化方式集成，而感知?jiǎng)t由 PTM 實(shí)現(xiàn)。它們的基本特征允許穩(wěn)健學(xué)習(xí)和有效推理的原則組合，以及符號(hào)系統(tǒng)提供的可解釋性。Gangopadhyay 等人。 [22] 提出了深度學(xué)習(xí)和符號(hào)推理的結(jié)構(gòu)化組合，用于解決模糊圖像分類。一種半詞匯語(yǔ)言，包括規(guī)則和字母表，是預(yù)先定義好的。然后半詞匯標(biāo)記的字符串被 SimpleNet [141] 識(shí)別為字母表的一個(gè)元素。最后，通過(guò)規(guī)則來(lái)決定那些模棱兩可的標(biāo)記，這提供了一個(gè)基于領(lǐng)域知識(shí)的推理框架來(lái)解釋復(fù)雜的場(chǎng)景。然而，上述模型 13

依賴于任務(wù)相關(guān)領(lǐng)域特定語(yǔ)言的啟發(fā)式實(shí)現(xiàn)。相比之下，Amizadeh 等人。 [23] 為視覺(jué)問(wèn)答提出了一種更通用的數(shù)學(xué)形式，它從一階邏輯概率派生。與計(jì)算機(jī)視覺(jué)的傳統(tǒng)任務(wù)相比，視覺(jué)問(wèn)答需要推理和關(guān)于圖像主題的特定知識(shí)，因此是一個(gè)明顯更復(fù)雜的問(wèn)題。提示調(diào)整 [142] 已被廣泛用于分類任務(wù)。然而，手動(dòng)設(shè)計(jì)語(yǔ)言提示是錯(cuò)誤的，而那些自動(dòng)生成的提示要驗(yàn)證它們的有效性是很耗時(shí)的。為此，PTR [140] 應(yīng)用邏輯規(guī)則來(lái)構(gòu)造帶有多個(gè)子提示的提示以進(jìn)行權(quán)衡。它使用 PTM 確定主題和對(duì)象實(shí)體類型，并使用邏輯規(guī)則聚合子提示以處理許多類分類任務(wù)。該模型將問(wèn)題轉(zhuǎn)化為一階邏輯公式，并通過(guò)函數(shù)程序進(jìn)行推理，以保證正確的推理過(guò)程，而圖像的檢測(cè)則使用 Faster-RCNN 實(shí)現(xiàn)

[7]。

除了一階邏輯，一些模型 [21]、[99] 還采用 KGs 來(lái)實(shí)現(xiàn)推理。他們將查詢圖像的概念與 KG 中的適當(dāng)信息聯(lián)系起來(lái)，以構(gòu)建局部圖并推理隨后的正確答案。本體將知識(shí)組織為邏輯語(yǔ)義表達(dá)，從而實(shí)現(xiàn)不同場(chǎng)景之間的共享和語(yǔ)義可解釋性。

[143] 引入了域本體，并使用 Mask R-CNN [32] 對(duì)它提供的對(duì)象和關(guān)系進(jìn)行分類，以識(shí)別建筑工地的潛在危險(xiǎn)。在感知 PTM 之后，提取的信息存儲(chǔ)在 Neo4j 中，用于推理和查詢。這些方法保留了符號(hào)知識(shí)的結(jié)構(gòu)，從而實(shí)現(xiàn)了從概念層面的語(yǔ)義推理和檢索。

這些模型的主要好處是它的可組合性，它涉及表示和推理過(guò)程，這引入了 KEPTM 工作原理的可解釋性。盡管有一些方法可以探索 PTM 的可解釋性，但它們側(cè)重于所學(xué)到的知識(shí)并依賴于瑣碎的探索技巧。相比之下，這種類型的模型通過(guò)指示模型如何得出答案來(lái)實(shí)現(xiàn)對(duì)知識(shí)使用的檢查和解釋。

我們?cè)诒?1 和表 2 中詳細(xì)說(shuō)明了所有引入的 KEPTM。

結(jié)論和未來(lái)方向

我們從知識(shí)的粒度、知識(shí)注入的方法、知識(shí)參數(shù)化的程度三個(gè)角度分析比較了現(xiàn)有的KEPTMs，并從第二個(gè)維度進(jìn)行了詳細(xì)討論。

大多數(shù) KEPTM 在預(yù)訓(xùn)練期間混合知識(shí)，而少數(shù)在微調(diào)期間這樣做。然而，與微調(diào)相比，預(yù)訓(xùn)練期間的集成成本要高得多。此外，使用 PTM 選擇一致的預(yù)訓(xùn)練范式可以緩解集成困難。例如，通過(guò)在生成預(yù)訓(xùn)練中屏蔽掉包含某些類型知識(shí)的單詞，模型

可以更善于記憶和完成這些知識(shí)。

特征融合的 KEPTM 利用實(shí)體信息而不引入額外的網(wǎng)絡(luò)和計(jì)算開銷，實(shí)現(xiàn)簡(jiǎn)單，適用于需要細(xì)粒度實(shí)體特征的任務(wù)。盡管付出了更多努力，但嵌入組合的 KEPTM 可以同時(shí)存儲(chǔ)實(shí)體和關(guān)系信息，并泛化知識(shí)驅(qū)動(dòng)的任務(wù)，如實(shí)體分類、關(guān)系提取和知識(shí)完成。知識(shí)監(jiān)督的 KEPTM 以最少的工作實(shí)現(xiàn)知識(shí)注入，這是通過(guò)設(shè)計(jì)適當(dāng)?shù)念A(yù)訓(xùn)練任務(wù)來(lái)實(shí)現(xiàn)的?；跈z索和規(guī)則引導(dǎo)的 KEPTM 幫助我們了解預(yù)訓(xùn)練模型如何利用知識(shí)來(lái)完成下游任務(wù)，并為更好地使用和進(jìn)一步改進(jìn)提供指南。

盡管 KEPTM 已經(jīng)證明了它們?cè)诟鞣N NLP 和 CV 任務(wù)中的強(qiáng)大能力，但由于知識(shí)和語(yǔ)言的復(fù)雜性以及不同模態(tài)的交互，挑戰(zhàn)仍然存在。我們建議遵循 KEPTM 的未來(lái)方向。

(1) 我們介紹的大多數(shù) KEPTM 都側(cè)重于注入事實(shí)或概念知識(shí)。還有其他類型的知識(shí)值得考慮。例如，程序和元認(rèn)知知識(shí)在開放世界的推理和判斷中也發(fā)揮著重要作用。因此，一個(gè)更有吸引力的方向是探索上述兩類知識(shí)的利用。

(2) 基于語(yǔ)義網(wǎng)絡(luò)表示，關(guān)系三元組已成為最流行的知識(shí)組織形式。然而，正如我們所討論的，由于原始訓(xùn)練數(shù)據(jù)和外部知識(shí)的表示方法不同而導(dǎo)致的異構(gòu)注入還需要做更多的工作。除了語(yǔ)義網(wǎng)絡(luò)表示之外，還有許多知識(shí)表示方法以不同的形式呈現(xiàn)知識(shí)的屬性。因此，為不同的知識(shí)搜索更一般的知識(shí)表示是有希望的。

(3) 盡管基于檢索和規(guī)則引導(dǎo)的 KEPTM 使決策過(guò)程透明化，但它們是為特定應(yīng)用而設(shè)計(jì)的。在不破壞符號(hào)知識(shí)檢查的情況下設(shè)計(jì)具有通用目的的 KEPTM 將顯著提高可解釋性。

(4)現(xiàn)有的KEPTMs幾乎沒(méi)有考慮知識(shí)的存儲(chǔ)和更新。在知識(shí)瞬息萬(wàn)變的環(huán)境中，將知識(shí)存儲(chǔ)在更小的空間中并有效地更新它是切實(shí)可行的?；谶m配器的方法為我們樹立了寶貴的榜樣。設(shè)計(jì)一種以即插即用方式利用知識(shí)的方法至關(guān)重要。

(5) 基于文本和圖像的多模態(tài)模型通過(guò)學(xué)習(xí)圖像-文本表示來(lái)捕獲圖像和相關(guān)文本中的豐富語(yǔ)義，并已應(yīng)用于字幕、視覺(jué)問(wèn)答和視覺(jué)推理任務(wù)。然而，學(xué)習(xí)到的圖像特征無(wú)法捕捉到圖像中描述的詳細(xì)語(yǔ)義。此外，多模態(tài)模型的預(yù)訓(xùn)練通常依賴于文本數(shù)據(jù)和圖像數(shù)據(jù)之間存在強(qiáng)相關(guān)性的假設(shè)。需要探索對(duì)多模態(tài)模型的組織良好的知識(shí)的利用，以打破這種假設(shè)的限制并提供豐富的圖像語(yǔ)義。

(6) 知識(shí)的提取通常采用多步處理。但是，誤差會(huì)在此過(guò)程中傳播，從而導(dǎo)致模型性能下降。因此，整合從原始數(shù)據(jù)中挖掘出來(lái)的知識(shí)，避免造成信息丟失是一個(gè)有價(jià)值的方向。

(7) 盡管在蘊(yùn)涵任務(wù)上表現(xiàn)出色，但預(yù)訓(xùn)練的語(yǔ)言模型無(wú)法執(zhí)行溯因推理[144]。以前的工作主要集中在形式邏輯過(guò)于僵化而無(wú)法概括為復(fù)雜的自然語(yǔ)言。將形式邏輯與預(yù)先訓(xùn)練的語(yǔ)言模型相結(jié)合，為未來(lái)的研究提供了一條有希望的途徑。

(8) 預(yù)訓(xùn)練的語(yǔ)言模型難以控制生成內(nèi)容的屬性或主題，尤其是結(jié)構(gòu)良好的內(nèi)容。以知識(shí)的形式表達(dá)某些文體的結(jié)構(gòu)并以此指導(dǎo)文本的生成是值得探索的。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

KE_PM

KE_PM

動(dòng)機(jī)

背景

預(yù)訓(xùn)練模型

預(yù)訓(xùn)練 CV 模型

Pre-trained Language Models

Token-based Pre-trained Models

Context-based Pre-trained Models

Knowledge Representation Learning

KEPM的分類

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的分類

知識(shí)粒度

知識(shí)注入方法法

知識(shí)參數(shù)化程度

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型概述

數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

KE_PM

動(dòng)機(jī)

背景

預(yù)訓(xùn)練模型

預(yù)訓(xùn)練 CV 模型

Pre-trained Language Models

Token-based Pre-trained Models

Context-based Pre-trained Models

Knowledge Representation Learning

KEPM的分類

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的分類

知識(shí)粒度

知識(shí)注入方法法

知識(shí)參數(shù)化程度

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型 概述

數(shù)據(jù)結(jié)構(gòu)統(tǒng)一的 KEPTM

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

知識(shí)增強(qiáng)預(yù)訓(xùn)練模型概述