UL2:統(tǒng)一語言學習范式

UL2: Unifying Language Learning Paradigms

https://arxiv.org/abs/2205.05131v3

Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Siamak Shakeri, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby, Donald Metzler

[Google Brain]


現(xiàn)有的預訓練模型通常針對特定類別的問題。到目前為止,對于正確的架構(gòu)和預訓練設置應該是什么,似乎還沒有達成共識。本文為預訓練模型提供了一個統(tǒng)一的框架,該框架在數(shù)據(jù)集和設置中普遍有效。我們首先將架構(gòu)原型與預訓練的目標——這兩個概念通常被混為一談。接下來,我們對NLP中的自監(jiān)督提出了一個普遍而統(tǒng)一的觀點,并展示了不同的預訓練目標如何相互投射,以及不同目標之間的插值如何有效。然后,我們提出了混合去噪器(MoD),這是一個將不同的預訓練范式結(jié)合在一起的預訓練目標。我們進一步引入了模式切換的概念,其中下游微調(diào)與特定的預訓練方案相關(guān)聯(lián)。我們進行了廣泛的消融實驗來比較多個預訓練目標,并發(fā)現(xiàn)我們的方法通過在多個不同的設置中優(yōu)于T5和/或GPT樣模型,推動了Pareto前沿。最后,通過將我們的模型擴展到20B參數(shù),我們在50個成熟的監(jiān)督NLP任務上實現(xiàn)了SOTA性能,這些任務包括語言生成(具有自動和人工評估)、語言理解、文本分類、問題回答、常識推理、長文本推理、結(jié)構(gòu)化知識基礎(chǔ)和信息檢索。我們的模型在上下文學習方面也取得了強大的結(jié)果,在零樣本SuperGLUE上優(yōu)于175B GPT-3(已發(fā)表的論文結(jié)果),在一次摘要上的性能提高了T5-XXL的三倍。在零樣本MMLU上,UL2 20B的性能優(yōu)于T0和T5型號。此外,我們還表明,UL2 20B在思維鏈提示和推理方面效果良好,這使其成為研究中小型20B參數(shù)推理的一個有吸引力的選擇。最后,我們將FLAN指令調(diào)優(yōu)應用于UL2 20B模型,實現(xiàn)了與FLAN PaLM 62B相比具有競爭力的MMLU和Big Bench分數(shù)。我們在https://github.com/google-research/google-research/tree/master/ul2.

1簡介

如今,NLP研究人員和從業(yè)者有各種各樣的預訓練模型選擇(Devlin等人,2018;Brown等人,2020;Raffel等人,2019;Radford等人,2019年;劉等人,2019,楊等人,2019);Thoppilan等人,2022;Fedus等人,2021;Du等人,2021年;Chowdhery等人,2022)。當面對一個人應該使用什么模型的問題時,答案往往是取決于任務,然后是什么任務?

回答這個問題可能是壓倒性的,包括許多細粒度的后續(xù)問題,如“僅編碼器還是編碼器-解碼器?”span損壞或語言模型?'。進一步追問,答案似乎總是取決于目標下游任務。本文對這一思維過程進行了質(zhì)疑和反思,特別回答了為什么預訓練的LM的選擇要取決于下游任務的問題?以及我們?nèi)绾晤A訓練在許多任務中普遍良好工作的模型?。

本文提出了一個步驟,使一個普遍適用的語言模型成為可能。我們提出了一個統(tǒng)一語言學習范式(簡稱UL2)的框架,該框架在一系列不同的任務和設置中始終有效。圖1顯示了一個UL2如何普遍良好地執(zhí)行的示例,這與其他經(jīng)常需要權(quán)衡的模型不同。

圖1:在僅解碼器和編碼器-解碼器設置中,與以前的方法相比,UL2在微調(diào)的判別任務和基于提示的1-shot開放式文本生成之間的性能平衡顯著提高。注意:Dec和EncDec是計算匹配的,但EncDec模型的參數(shù)是原來的兩倍。

通用模型的吸引力是顯而易見的,即這不僅允許集中精力改進和擴展單個模型,而不是在N個模型之間實現(xiàn)資源多樣化。此外,在資源受限的設置下,只有少數(shù)模型可以得到服務(例如,在設備上),最好是有一個單獨的預訓練模型,它可以在許多類型的任務上很好地執(zhí)行。

UL2的核心是新提出的混合去噪器(MoD),這是一個預訓練目標,可以在任務中實現(xiàn)強大的性能。MoD是幾個公認的去噪目標和新目標的混合體;即考慮極端跨度長度和破壞率的X去噪(極端去噪)、嚴格遵循序列順序的S去噪(順序去噪)和作為標準跨度破壞目標的R去噪(規(guī)則去噪)(Raffel et al.,2019)。我們表明,MoD在概念上很簡單,但對一系列不同的任務非常有效。

我們的方法利用了這樣一個認識,即大多數(shù)(如果不是全部的話)經(jīng)過充分研究的預訓練目標在模型所依賴的上下文類型上有所不同。例如,跨度損壞目標類似于調(diào)用前綴語言建模(PLM)的多個區(qū)域(Liu et al.,2018;Raffel et al.,2019),其中前綴是未損壞token的連續(xù)段,并且目標可以完全訪問所有PLM段的前綴??缍冉咏麄€序列長度的設置近似于一個以長程上下文為條件的語言建模目標。因此,我們能夠設計一個預訓練目標,平滑地插入這些不同的范式(跨度損壞與語言建模與前綴語言建模)。

也很容易看出,每個去噪器都有不同的困難。它們在外推(或插值)的性質(zhì)上也有所不同。例如,通過雙向上下文(或未來)(即跨度損壞)對模型進行綁定可以使任務變得更容易,更類似于事實完成。同時,PrefixLM/LM的目標通常更為“開放式”。通過監(jiān)測這些不同去噪目標的交叉熵損失,可以很容易地觀察到這些行為。

給定MoD公式,我們推測我們的模型不僅在預訓練期間區(qū)分不同的去噪器,而且在學習下游任務時自適應地切換模式是有益的。我們引入了模式切換,這是一個新概念,將預訓練任務與專用哨兵token相關(guān)聯(lián),并允許通過離散提示進行動態(tài)模式切換。我們的模型能夠在經(jīng)過預訓練后按需在R、S和X去噪器之間切換模式。

然后,我們將架構(gòu)從自監(jiān)督方案中分離出來。正如Raffel等人先前所指出的,預訓練模型的主干架構(gòu)(例如,僅解碼器與編碼器-解碼器)具有很強的特征,這可能是一種常見的誤解。(2019),我們發(fā)現(xiàn)去噪器的選擇具有更大的影響。MoD支持任何一種主干,類似于T5的跨度破壞可以用僅解碼器模型來訓練。因此,UL2對體系結(jié)構(gòu)是不可知的。我們認為,主干架構(gòu)的選擇主要是在不同的效率指標之間進行權(quán)衡。

我們對一套9種不同的任務進行了系統(tǒng)和消融實驗,旨在捕捉不同的問題公式(基于上下文few-shot學習的監(jiān)督和提示)。我們用SuperGLUE套件(Wang et al.,2019)和GEM基準的三項任務(Gehrmann et al.,2021)進行了實驗。此外,我們還評估了開放文本生成,以及所有任務的基于提示的一次性設置。在這種消融設置中,我們的實驗結(jié)果表明,UL2在所有9種設置中都優(yōu)于T5和GPT樣基線。平均而言,UL2的性能優(yōu)于T5基線+43.6%,語言模型的性能優(yōu)于+76.1%。在考慮的所有其他競爭性基線中,UL2是唯一在所有任務上都優(yōu)于T5和GPT類模型的方法。

我們將UL2擴展到大約20B(準確地說是19.5)參數(shù)的中等規(guī)模設置,并在50多項NLP任務中進行實驗,這些任務包括語言生成(具有自動和人工評估)、語言理解、文本分類、問題回答、常識推理、長文本推理、結(jié)構(gòu)化知識基礎(chǔ)和信息檢索。我們的結(jié)果表明,UL2在絕大多數(shù)任務和設置中都能實現(xiàn)SOTA。

最后,我們用UL2進行了零次/少次激發(fā)實驗,并表明UL2在零次激發(fā)SuperGLUE上優(yōu)于GPT-3 175B。與GLaM(Du et al.,2021)、PaLM(Chowdhery et al.,2022)和ST MoE(Zoph et al.,2020)等最新的最先進模型相比,UL2在計算匹配的設置中仍然具有競爭力,盡管只在C4語料庫上進行訓練,已知C4語料庫的有效性不如中使用的特別策劃的數(shù)據(jù)集(Du等人,2021;Chowdherry et al.,2018)。我們深入理解零樣本和微調(diào)性能之間的權(quán)衡,并表明UL2在兩種學習范式方面都是帕雷托效率的。在一次性總結(jié)中,UL2將LM適應的T5 XXL模型的性能提高了三倍,并且在相同的計算成本下與PaLM和LaMDA競爭(或優(yōu)于)。我們發(fā)布了基于T5X的Flax-chec

2.1預訓練的語言模型

學習預訓練的語言表征是現(xiàn)代NLP研究的一個意義深遠的支柱,可以追溯到(Mikolov等人,2013;Pennington等人,2014;Neumann等人,2018;戴和樂,2015;霍華德和魯?shù)拢?018)。第一個預訓練的Transformer GPT由(Radford et al.,2019)提出,并被訓練為因果語言模型。隨后,BERT(Devlin等人,2018)證明了雙向建模對許多下游任務的重要性。BERT引入了掩碼語言建模(MLM),這是一種使用雙向感受野重建輸入的去噪目標。XLNet Yang等人(2019)引入了置換語言建模來解釋訓練過程中屏蔽token之間的依賴關(guān)系。許多其他論文(例如,RoBERTA(Liu et al.,2019)、SpanBERT(Joshi et al.,2020))建議對預訓練過程進行進一步改進。

與此同時,T5(Raffel et al.,2019)等兩棧編碼器-解碼器架構(gòu)因其在分類和序列到序列(“seq2seq”)任務上的性能提高而廣受歡迎。然而,到目前為止,這些模型在開放文本生成和基于提示的推理(即,在上下文學習中)方面表現(xiàn)出有限的性能,這促使使用僅針對解碼器的模型,這些模型是用不同的目標訓練的(例如,GPT-3(Brown et al.,2020)、GLaM(Du et al.,2021)、LaMDa(Thoppilan et al.,2022)和PaLM(Chowdhery等人,2022))。在這項工作中,我們的目標是通過適合兩種架構(gòu)的通用訓練范式來彌合兩者之間的性能差距。

僅解碼器與僅編碼器

僅解碼器和僅編碼器架構(gòu)的關(guān)鍵相似之處在于,如果使用CausalLM而不是使用PrefixLM,則僅解碼器架構(gòu)使用輸入到目標范式或僅目標范式進行操作。對于這兩種架構(gòu),目標始終是預測下一個token(LM),因此都是自回歸模型。值得注意的是,這與位置掩碼LM去噪(有時稱為自動編碼)不同,后者已由僅編碼器的BERT風格模型推廣。這類模型的生成能力非常有限。除此之外,特定任務的分類頭通常也用于下游任務。由于特定任務分類頭的復雜性,我們強烈不建議使用此類自動編碼模型,并認為它們有些過時。注意事項確實適用。例如,回歸可能是增加特定任務負責人的唯一原因(Lees et al.,2022),或者從消除完整詞匯中擠出一些效率收益。無論哪種方式,都可以從編碼器-解碼器開始,然后砍掉解碼器,因此沒有充分的理由使用僅編碼器模型。因此,這里唯一真正客觀的考慮是在僅解碼器和編碼器-解碼器架構(gòu)之間。

僅解碼器與編碼器解碼器

僅解碼器和編碼器-解碼器模型之間的界限不太清楚。PrefixLM模型幾乎是具有共享參數(shù)的編碼器-解碼器模型(但不完全是)。從歸納偏差的角度來看,存在多種差異。編碼器-解碼器模型使用不同的參數(shù)集獨立處理輸入和目標。這是一種稀疏性形式,其中不同的參數(shù)集用于不同的token。編碼器-解碼器模型還具有將輸入token連接到目標token的交叉關(guān)注組件。同時,僅解碼器模型通過連接輸入和目標來處理它們。因此,當輸入/目標在網(wǎng)絡上傳播時,輸入和目標的表示同時逐層構(gòu)建。相反,編碼器-解碼器模型中的解碼器通常只查看完全處理的編碼器輸入??偟膩碚f,僅PrefixLM解碼器模型和編碼器-解碼器模型的電感偏差可能非常相似,?;松鲜黾毼⒌牟町?。不同的特性是,當計算匹配時,編碼器-解碼器模型通常是僅解碼器模型的大約2x參數(shù)。

稀疏模型

另一方面,稀疏預訓練模型也出現(xiàn)了一種新趨勢,可以實現(xiàn)最先進的性能。稀疏混合的專家模型,如開關(guān)Transformer(Fedus等人,2021)、GLaM(Du et al.,2021)和/或GShard(Lepikhin等人,2020)也顯示出了很大的前景。雖然與預訓練目標的主題正交,但與密集模型相比,稀疏模型實現(xiàn)了非常不同的每參數(shù)觸發(fā)率——這是圍繞編碼器-解碼器模型與僅解碼器模型的爭論中反復出現(xiàn)的核心主題。

2.2大型語言模型的預訓練目標

雖然最近的研究證明了大型監(jiān)督多任務預訓練的潛力(Aribandi等人,2021;Sanh等人,2021年;Wang等人,2022a),但大多數(shù)預訓練目標都依賴于無監(jiān)督數(shù)據(jù)的大量可用性,并使用自訓練技術(shù)。如上所述,不同的體系結(jié)構(gòu)通常利用不同的目標。僅解碼器模型通常使用因果語言模型目標進行訓練,以模擬自回歸生成(Radford等人,2019)。Raffel等人(2019)探討了編碼器-解碼器模型的許多目標,并發(fā)現(xiàn)跨度破壞是有效的。(Wang et al.,2022a)結(jié)合三種不同的預訓練目標(因果LM、前綴LM和跨度破壞),對不同的體系結(jié)構(gòu)進行了系統(tǒng)研究,并分析了它們對零樣本泛化的影響。與我們提出的X去噪器有關(guān),(Wettig等人,2022)研究了BERT風格的掩碼語言建模中損壞率的影響,并假設這提高了樣本效率,同時有利于更大的模型。值得注意的是,正如(Raffel et al.,2019)所指出的,損壞率上升作為一種獨立的去噪器的好處仍然不清楚,在我們自己的研究中也很明顯。預訓練(或去噪)通常應用于子詞級別(Raffel等人,2019;Devlin等人,2018),但值得注意的是,它也應用于字符或字節(jié)級別(Xue等人,2021;Tay等人,2021c)。在這些設置中,損壞的跨度通常比基于子詞的去噪大得多。

2.3統(tǒng)一的預訓練建議書

UniLM(Dong et al.,2019)提出使用單個Transformer模型對多個語言建模目標進行訓練。具體而言,UniLM在單向LM、雙向LM和seq2seq LM上進行訓練。這與將自回歸LM與BERT和前綴LM模型相結(jié)合非常相似。值得注意的是,UniLM使用完形填空型公式進行訓練,該公式將顯式掩碼標記添加到輸入中。然后,通過預測token和目標token的差值以位置方式計算損失。除了預訓練的統(tǒng)一外,最近還出現(xiàn)了主題統(tǒng)一的趨勢,即將常見任務統(tǒng)一到一個模型中。這些例子包括用于常識推理的UNICORN(Lourie et al.,2021)、用于問答的UnifiedQA(Khashabi et al.,202022)和用于結(jié)構(gòu)化知識基礎(chǔ)的UnifiedSKG(Xie et al.,2022)。

3統(tǒng)一語言學習范式(UL2)

本節(jié)介紹了UL2框架和擬議的預訓練目標,我們將在論文的剩余部分進行研究。

3.1預訓練

本節(jié)討論擬議的預訓練目標。

3.1.1預訓練任務的統(tǒng)一視角

許多預訓練任務可以簡單地公式化為“目標輸入”任務,其中輸入指的是模型所依賴的任何形式的記憶或上下文,目標是模型的預期輸出。語言模型使用所有以前的時間步驟作為模型的輸入來預測下一個token,即目標。在跨度損壞中,該模型利用過去和未來所有未損壞的token作為預測損壞跨度(目標)的輸入。前綴LM是使用過去的token作為輸入,但雙向消耗輸入的LM:這比普通LM中的輸入單向編碼提供了更多的建模能力。

從這個角度來看,我們可以大致將一個預訓練目標減少到另一個。例如,在跨度損壞目標中,當損壞的跨度(即目標)等于整個序列時,該問題有效地變?yōu)?語言建模問題??紤]到這一點,使用跨度損壞,通過將跨度長度設置為較大,我們可以在局部區(qū)域中有效地模擬LM目標。

我們定義了一個符號,涵蓋了我們在本文中使用的所有不同的去噪任務。去噪任務的輸入和目標由SpanCorrupt函數(shù)生成,該函數(shù)由三個值(μ,r,n)參數(shù)化,其中μ是平均跨度長度,r是損壞率,n是損壞跨度的數(shù)量。請注意,n可能是輸入長度L和跨度長度μ的函數(shù),例如L/μ,但在某些情況下,我們使用固定值n。給定輸入文本,SpanCorpt會對從平均值為μ的(正態(tài)或均勻)分布中提取的長度跨度進行破壞。在損壞之后,輸入文本然后被饋送到去噪任務,并且損壞的跨度被用作要恢復的目標。

例如,要使用該公式構(gòu)建類似于因果語言建模的目標,只需設置(μ=L,r=1.0,n=1),即跨度長度等于序列長度的單個跨度。為了表達類似于前綴LM目標的目標,可以設置(μ=L?P,r=1.0?P/L,n=1),其中P是前綴的長度,附加的約束條件是單個損壞的跨度總是到達序列的末尾。

我們注意到,這種目標輸入公式可以應用于編碼器-解碼器模型和單堆棧變換器模型(例如,解碼器模型)。我們選擇預測下一個目標token的模型,而不是那些原地預測的模型(例如,預測BERT中的當前掩碼token),因為下一個對象公式更通用,可以包含更多任務,而不是使用特殊的“CLS”token和任務特定的投影頭。

3.1.2去噪器混合物

我們推測,在預訓練過程中,一個強大的通用模型必須暴露于解決各種各樣的問題。鑒于預訓練是使用自監(jiān)督進行的,我們認為應該將這種多樣性注入模型的目標中,否則模型可能會缺乏一定的能力,比如長時間連貫的文本生成。

受此啟發(fā),以及當前類別的目標函數(shù),我們定義了預培訓期間使用的三個主要范式:

?R-去噪器-常規(guī)去噪是Raffel等人(2019)中引入的標準跨度破壞,使用2到5個token作為跨度長度,這屏蔽了約15%的輸入token。這些跨度很短,可能有助于獲得知識,而不是學習生成流暢的文本。

?S-去噪器-去噪的一種特殊情況,在這種情況下,我們在構(gòu)建目標任務的輸入時,觀察到嚴格的順序,即前綴語言建模。為此,我們只需將輸入序列劃分為兩個子token序列,作為上下文和目標,這樣目標就不依賴于未來的信息。這與標準跨度損壞不同,標準跨度損壞可能存在位置早于上下文標記的目標標記。請注意,與前綴LM設置類似,上下文(前綴)保留雙向感受野。我們注意到,記憶非常短或沒有記憶的S-去噪與標準因果語言建模具有相似的精神。

?X-Denoiser-一種極端的去噪版本,在這種情況下,模型必須恢復輸入的大部分,給定輸入的小到中等部分。這模擬了模型需要從信息相對有限的存儲器中生成長目標的情況。為此,我們選擇包括具有積極去噪的示例,其中大約50%的輸入序列被屏蔽。這是通過增加跨度長度和/或損壞率實現(xiàn)的。如果預訓練任務的跨度很長(例如,≥12個token)或損壞率很大(例如,≤30%),我們認為它是極端的。X去噪的動機是在規(guī)則跨度損壞和類似語言模型的目標之間進行插值。

這組去噪器與以前使用的目標函數(shù)有很強的聯(lián)系:R-去噪是T5跨度損壞目標,S-去噪與類似GPT的因果語言模型相連,X-去噪可以將模型暴露于T5和因果LM的目標組合。值得注意的是,X去噪器也被連接以提高樣本效率,因為以類似于LMs的精神,在每個樣本中學習到更多的token被預測。我們建議以統(tǒng)一的方式混合所有這些任務,并具有混合自監(jiān)督目標。最終目標是7個去噪器的混合物,其配置如下:

對于X和R去噪器,跨度長度是從平均值為μ的正態(tài)分布中采樣的。對于S Denoisers,我們使用均勻分布,將損壞跨度的數(shù)量固定為1,并有一個額外的約束,即損壞跨度應在原始輸入文本的末尾結(jié)束,即損壞部分之后不應出現(xiàn)未裁剪的標記。這大致相當于seq2seq去噪或Prefix LM預訓練目標。

由于LM是前綴LM的特殊情況,我們發(fā)現(xiàn)沒有必要將臨時LM任務包含在混合物中。所有任務在混合中的參與程度大致相等。我們還探索了一種替代方案,將S-去噪器的數(shù)量增加到混合物中去噪器數(shù)量的50%,所有其他去噪器占據(jù)剩余部分。我們將在后面的章節(jié)中介紹各種設計選擇的詳細消融研究。最后,混合在混合的詆毀是什么使它普遍強大。單獨來看,某些去噪器類型的性能并不好。例如,最初的T5論文探索了一個損壞率為50%的選項(X去噪),發(fā)現(xiàn)效果不佳。

使用類似seqio2的庫,UL2的混合去噪器的實現(xiàn)簡單且易于實現(xiàn)(Roberts等人,2022)。有關(guān)實施的更多詳細信息,請參閱附錄。

3.1.3模式切換

我們引入了通過模式轉(zhuǎn)換實現(xiàn)范式轉(zhuǎn)換的概念。在預訓練期間,我們向模型提供一個額外的范式標記,即{[R]、[S]、[X]},幫助模型切換并在更適合給定任務的模式下操作。對于微調(diào)和下游少量學習,為了觸發(fā)模型學習更好的解決方案,我們還添加了關(guān)于下游任務的設置和要求的范式標記。事實上,模式轉(zhuǎn)換將下游行為與我們在上游訓練中使用的模式之一綁定在一起。

3.2模型架構(gòu)

UL2采用了一種與體系結(jié)構(gòu)無關(guān)的哲學。我們認為,在兩種架構(gòu)(僅編碼器-解碼器與解碼器)之間的選擇更像是一種效率權(quán)衡,架構(gòu)選擇不應與預訓練目標混為一談。因此,我們有一個UL2解碼器和UL2編碼器解碼器,其精神與每個模型有多個大小相似。我們在實驗部分詳細討論了這種效率權(quán)衡。UL2采用了一種非常標準的香草T5Transformer,經(jīng)過改進,經(jīng)受住了時間的考驗,即GLU層(Shazeer,2020)和T5風格的相對關(guān)注。為了不進一步將架構(gòu)修改與預訓練貢獻混為一談,模型的主干與T5類模型保持相似。這也是根據(jù)(Narang等人,2021)等結(jié)果得出的。

4消融實驗

本節(jié)描述了我們的消融實驗設置(例如,基線、數(shù)據(jù)集、實施細節(jié))和結(jié)果。我們的總體發(fā)現(xiàn)表明,UL2在9項任務中有9項優(yōu)于T5類和GPT類模型。

4.1基線

對于預訓練目標,我們將其與以下預訓練基線進行比較:

?因果語言模型(CLM)-這是標準的從左到右自回歸語言模型預訓練,用于許多標準的預訓練模型,如GPT(Radford等人,2019;Brown等人,2020)。在我們的實驗中,我們將這個模型稱為類似GPT的模型。

?前綴LM(PLM)-這是因果LM的一個輕微變化,其中M具有雙向感受野,在中引入(Liu等人,2018;Raffel等人,2019)。我們對M的長度進行均勻采樣,并且只計算自回歸目標處的損失。

?跨度損壞(SC)-這是T5中提出的標準去噪目標(Raffel等人,2019)。其想法是清空某些文本部分,并用sentinel標記替換它們。用sentinel標記替換的文本隨后被復制到目標,并由模型自動回歸生成。在默認T5設置之后,我們使用3的平均跨度和15%的去噪率。

?Span Corruption+LM(SCLM)-我們以相等的混合比例對CLM和Span Corrumption進行混合訓練。對于該目標的SC分量,我們對SC使用相同的超參數(shù)。

?UniLM(ULM)-這是Dong等人(2019)提出的目標。與最初的UniLM類似,我們混合了因果語言建模、前綴LM(序列到序列LM)和雙向i.i.d去噪。我們選擇生成掩碼標記,而不是用完形填空或BERT風格訓練UniLM。這允許該目標僅適用于解碼器和編碼器-解碼器架構(gòu),并且消除了對用于微調(diào)的任務專用線性頭的需要。

對于所有目標,我們探索單堆棧和編碼器-解碼器架構(gòu)。所有架構(gòu)都是在編碼器-解碼器或僅解碼器模型結(jié)構(gòu)中實現(xiàn)的目標的輸入,因為我們認為BERT風格的掩碼語言建模預訓練已經(jīng)被這種風格的預訓練有效地包含在內(nèi),正如(Raffel等人,2019)中的經(jīng)驗所表明的那樣。也不建議使用特定任務的分類頭,因為它們顯然違背了通用模型的原則(而且非常繁瑣)。

4.2實驗設置

我們在一組不同的監(jiān)督和基于提示的few-shot學習任務上進行實驗。

4.2.1數(shù)據(jù)集和任務

我們使用的數(shù)據(jù)集是SuperGLUE(Wang et al.,2019),由8個子任務組成。我們還在GEM基準(Gehrmann et al.,2021)的3個數(shù)據(jù)集上進行了實驗,重點研究語言生成問題。我們從GEM基準中任意選擇XSUM(摘要)、ToTTo(表到文本生成)(Parikh等人,2020)和模式引導對話框(SGD)(Rastogi等人,2019)。對于所有這些任務,我們評估了監(jiān)督微調(diào)和基于提示的一次性學習。最后,我們還使用C4驗證集上的困惑分數(shù)比較了我們的模型在文本生成方面的一般能力。我們相信,我們的一套任務可以很好地涵蓋文獻中的許多設置,包括監(jiān)督和有條件的few-shot學習。

4.2.2指標和整體評價

對于SuperGLUE,我們會在適當?shù)臅r候報告完善的指標,如準確性、F1或精確匹配。對于GEM基準,我們使用Rouge-L度量。對于語言建模,我們報告了負對數(shù)困惑。模型的普遍性,即它們在所有任務范圍內(nèi)的集體表現(xiàn),是這里的主要評估標準。為了能夠從這個角度對模型進行比較,我們需要一個綜合性能分數(shù)。然而,我們所包含的不同任務的指標在本質(zhì)上有很大的不同——例如F1和困惑。為了解決這一問題,我們選擇報告并使用相對于基線的歸一化相對增益作為總體指標。為此,我們使用標準語言模型(僅解碼器)(類似GPT)和標準跨度去噪編碼器-解碼器(T5)作為主要基線,并報告所有方法相對于這些公認候選者的相對性能。我們認為這是比較這些模型的最合適方法,因為很容易推斷出一個新模型通常比流行設置(例如GPT或T5類)好多少。我們還強調(diào)了一個事實,即總體收益是標準化的,因此這變得更難利用或容易受到基準彩票效應的影響(Dehghani等人,2021b)。

4.2.3實施細節(jié)

我們的實驗都是在JAX/Flex(Bradbury等人,2018)中使用開源T5X3框架(Roberts等人,2022)和Flaxformer4進行的。我們使用C4語料庫為500K個步驟預訓練所有模型,批量大小為128,序列長度為512個輸入和512個目標。在預訓練期間看到的近似token總數(shù)約為320億個token。每次預訓練跑步通常使用64到128個TPU4芯片進行訓練(Jouppi等人,2020)。我們使用Adafactor(Shazeer&Stern,2018)優(yōu)化器以平方根學習率的倒數(shù)來優(yōu)化我們的模型。為了理解不同骨干架構(gòu)的權(quán)衡,我們使用僅解碼器架構(gòu)和編碼器-解碼器架構(gòu)運行所有基線預訓練目標。我們報告了使用解碼器模型的大約167M個參數(shù)和編碼器-解碼器模型的335M個參數(shù)的基本架構(gòu)的關(guān)鍵實驗結(jié)果。所有型號都使用標準Transformer,該Transformer使用SwiGLU層,如(Shazeer,2020)所述。我們對所有型號都使用默認的T5英語32K句子。在僅解碼器模型的背景下,除了在因果LM上訓練的解碼器模型的情況外,我們的實驗總是僅在其輸入段使用雙向感受野,并在目標段使用自回歸解碼。這本質(zhì)上是PrefixLM類型的架構(gòu)5(Raffel等人,2019),我們發(fā)現(xiàn)它始終比完全因果解碼器模型更好。

表4:與標準解碼器因果語言模型(類似GPT)相比的相對性能。本表中的結(jié)果以相對于基線的相對百分比改善表示。模型與?表示主要比較基線。總體得分列被標準化,以便在任務之間平均加權(quán)。

4.3消融實驗結(jié)果概述

表2報告了所有基準任務和數(shù)據(jù)集的原始結(jié)果。為了便于在設置之間進行更容易的比較,我們還報告了與T5和GPT模型等公認基線的相對比較。這分別在表3和表4中報告。

4.3.1解碼器與編碼器解碼器

在我們深入研究這一部分的結(jié)果之前,我們想提醒讀者,將純解碼器模型與編碼器-解碼器模型進行比較是不容易的。簡言之,我們可以用計算匹配的設置或參數(shù)匹配的方式對它們進行比較。因此,這些結(jié)果集合中的編碼器-解碼器模型具有大約解碼器模型的兩倍數(shù)量的參數(shù),但具有相似的速度。

我們注意到,這可能稍微有利于編碼器-解碼器,因為這可以被解釋為模型稀疏性的形式?;氐浇Y(jié)果,當使用T5作為參考基線時,我們注意到,除了UL2解碼器之外,沒有一個預訓練的解碼器模型優(yōu)于T5。此外,整體相對性能會降低10%至30%。這里最好的解碼器基線模型是前綴LM解碼器模型,其比T5基線差大約10%。從這些結(jié)果中可以清楚地看出,當且僅當不關(guān)心存儲時,編碼器-解碼器模型應優(yōu)于僅解碼器模型,即,參數(shù)計數(shù)通常不如實際吞吐量重要(詳細討論見(Dehghani等人,2021a))。

當存在參數(shù)約束時,前綴LM解碼器做出合適的替代方案。最后,一個有趣的數(shù)據(jù)點是,我們?nèi)绾瓮苿覷L2解碼器比T5編碼器-解碼器設置好+14.6%。也就是說,這個UL2解碼器并不比我們的UL2編碼器-解碼器好。然而,這強化了我們的觀點,即自監(jiān)督目標本質(zhì)上可能比骨干架構(gòu)更重要,而協(xié)商架構(gòu)選擇主要是關(guān)于可以獨立研究的效率權(quán)衡。

4.3.2 GPT和/或T5是最佳設置嗎?

基于與類GPT(因果LM+解碼器)和類T5(跨度損壞+編碼器-解碼器)設置的相對比較,我們能夠容易地確定已建立的設置是否確實是最優(yōu)的或已經(jīng)接近最優(yōu)。首先,因果LM(類似GPT)設置似乎是更糟糕的配置,因為它的性能被我們所有的基線超過了。因此,我們直接建議盡可能至少使用前綴LM或UniLM進行訓練。最好的僅解碼器模型(UL2除外)是前綴LM預訓練,它為語言模型保留了一個內(nèi)存前綴。關(guān)于前綴LM預培訓,有趣的是,前綴LM實際上比T5跨度損壞設置好+16.7%。前綴LM編碼器-解碼器模型確實不如SuperGLUE上的默認T5模型有效,但總體而言,更強,尤其是當涉及到一次性或開放文本生成時??偟膩碚f,在前綴LM和跨度損壞編碼器-解碼器模型(T5)之間,不清楚哪一個是普遍優(yōu)越的模型,因為在不同的子任務之間存在給予和接受,盡管值得注意的是,前綴LM EncDec模型只犧牲了某些任務中的微小退化,而犧牲了其他任務中的巨大數(shù)倍增長。

4.3.3關(guān)于UniLM和SCLM的性能

在編碼器-解碼器設置上,UniLM和SCLM目標在聚合和歸一化總增益方面都比標準跨度損壞目標表現(xiàn)更好。這表明,總的來說,混合預訓練的目標是有幫助的。在解碼器設置上,與基線因果LM相比,UniLM和SCLM的總增益分別為+9.4%和+16.1%。就單個任務而言,UniLM和SCLM在9項任務中的6項都優(yōu)于T5。同樣值得注意的是,SCLM在第一代(SGD和TOTTO)上的表現(xiàn)是所有型號中最好的。

4.3.4關(guān)于擬議UL2的性能

最后,我們注意到,與類似GPT的模型和類似T5的模型相比,UL2表現(xiàn)最好??傮w而言,與類似GPT的CLM解碼器模型相比,UL2的性能分別提高了T5+43.4%和+76.2%。與所有其他備選方案相比,這是最高的相對(總體)增益。我們還注意到,在所有單獨的任務中,UL2在9個考慮的任務中的9個任務中都優(yōu)于T5。因此,與跨度損壞T5模型相比,UL2是一個普遍更好的選擇。雖然UL2在所有單個任務上并不總是優(yōu)于所有基線,但UL2是非常一致的。即使在一項任務中輸給了另一種方法,損失也相對較?。ɡ纾淮蜹OTTO的損失為6.5比7.3)。相反,當UL2優(yōu)于T5這樣的基線時,增益可以大到+363%。UL2仍然是最強的方法。持續(xù)的改進還表明,它可以作為T5和GPT類模型的更一致的替代品。

4.4模式切換消融

為了確定我們的模式切換能力具有有效的性能,我們進行了消融實驗。我們在一次性XSum和一次性SuperGLUE上進行了實驗。表5報告了將范例提示更改為模型的結(jié)果。首先,我們觀察到提示對模型性能有相當大的影響——即,使用正確或錯誤的提示可能會導致48%的性能差距(在XSum、Rouge-1上)。另一方面,SuperGLUE對提示不那么敏感。在SuperGLUE上,在一次性評估中使用提示幾乎總是比不使用提示好。然而,對于XSum來說,正確的提示似乎對良好的性能至關(guān)重要。

4.5去噪器混合物

我們進行了廣泛的實驗來驗證MoD目標中各個目標的有效性。表6報告了這些消融的結(jié)果。我們報告了改變平均跨度和損壞率的結(jié)果,以及使用的S-去噪百分比(用%SD表示)。請注意,混合物中去噪器的總數(shù)為kSpank×kCorrupt_Ratek+1。我們將這些配置標記為從Var-A到Var-J,以方便參考。

X去噪是互補有效的,但作為一個獨立的去噪是不夠的

我們觀察到混合極端去噪是有效的。大多數(shù)全面的最佳結(jié)果來自于具有長跨度的混合物(例如,32或64)。與沒有長跨度的變體(Var-D與Var-C)相比,我們發(fā)現(xiàn)Var-D絕對更好。我們還提請讀者注意Var-H,它是一種只使用長跨度的變體。一般來說,Var-H表現(xiàn)不佳,這表明極端去噪補充了常規(guī)去噪,但單獨去噪還不夠。這也證實了Raffel等人的結(jié)果。(2019)表明,50%的損壞率表現(xiàn)不佳。這與(Wettig et al.,2022)的發(fā)現(xiàn)略有沖突,盡管我們的體系結(jié)構(gòu)使用輸入到目標形式的預訓練,而不是BERT風格的掩碼語言建模。

優(yōu)選少量S-去噪器

我們探索了一種設置,在該設置中,我們將S-去噪器縮放到整個MoD混合物的50%。我們發(fā)現(xiàn)這通常會影響性能。因此,我們得出結(jié)論,S-去噪器是必要的,但只有少量的S-去噪劑(≈20%)是優(yōu)選的。Var-K和Var-L還探討了根本不存在S-去噪的情況。雖然一項任務的性能顯著提高(SuperGLUE),但另一項任務性能顯著下降(一次性XSUM)。同時,對于與Var-F相同(但沒有S-去噪)的Var-L,總體上表現(xiàn)得更差。因此,我們證明了S-去噪是至關(guān)重要的。

4.6適度縮放模型大小和預訓練數(shù)據(jù)

我們通過擴大1)模型大小和2)預訓練數(shù)據(jù)集大小來進行額外的實驗。具體來說,我們將UL2編碼器-解碼器模型擴展到大約1B個參數(shù),并將預訓練token的數(shù)量增加到0.5萬億個token。我們的動機是對所提出的公式在不同的模型規(guī)模下也有效進行健全性檢查,并觀察在更大的規(guī)模下運行是否存在差異和影響。此外,推導比例定律也已成為語言模型研究的主要內(nèi)容(Kaplan等人,2020;Tay等人,2021b)。表7報告了這種縮放設置的結(jié)果。在大規(guī)模應用中,我們發(fā)現(xiàn)所提出的UL2編解碼器模型仍然具有競爭力?,F(xiàn)在的一個關(guān)鍵區(qū)別是UL2在與T5(1B)的比賽中放棄了SuperGLUE套件。然而,這不僅通過在8項任務中的7項任務中表現(xiàn)不佳來彌補,而且還通過一次性評估將性能提高2-4倍來彌補。監(jiān)督微調(diào)的收益較小,但在XSUM、SGD和TOT上仍然明顯。表7:根據(jù)模型計算(例如,EncDec為1B,解碼器為0.5B)和數(shù)據(jù)集大小(0.5Ttoken),適度放大模型的實驗。

5縮放到20B參數(shù)

我們也有興趣在擴大規(guī)模的環(huán)境中評估UL2。根據(jù)我們從消融實驗中獲得的見解,我們在這次運行中使用了編碼器-解碼器架構(gòu)。雖然UL2與體系結(jié)構(gòu)無關(guān),但由于固有的稀疏性,我們在這里的軟建議可能是默認使用編碼器-解碼器體系結(jié)構(gòu)。

我們以大約20B總參數(shù)的規(guī)模來訓練UL2。與真正的大型語言模型相比(Du et al.,2021;Chowdhery et al.,2022),20B代表了一個中等規(guī)模的模型,我們將其訓練為概念驗證,類似于UL2在比我們的消融實驗相對更大的規(guī)模上可以做什么的暗示。誠然,我們對這個模型的確切參數(shù)計數(shù)沒有太多考慮,也就是說,我們已經(jīng)訓練了一段時間的20B模型,并決定讓它收斂。此外,我們注意到,在擴展模型時,由于潛在的一系列原因(數(shù)據(jù)損壞、搶占等間歇性硬件問題),峰值和不穩(wěn)定性很常見。在這次運行中,我們沒有具體控制或?qū)嵤┤魏尉徑獠呗?,例如偶爾重新啟動,因為我們沒有認真監(jiān)控工作。因此,我們在這個20B模型的訓練中偶爾會發(fā)現(xiàn)損失峰值。然而,由于許多使用這些檢查點的微調(diào)實驗仍然經(jīng)常會導致sota性能,我們現(xiàn)在就順其自然,并為未來的工作留下適當?shù)谋O(jiān)控運行。盡管在50多個NLP基準上獲得了sota性能,但我們預計目前呈現(xiàn)的結(jié)果仍然低估了模型的真正潛力。我們將適當擴展UL2到真正的大規(guī)模,以供未來工作使用。

5.1預訓練和模型配置

我們遵循早期實驗中的相同訓練協(xié)議,在C4語料庫上進行預訓練,但也通過縮放模型在預訓練期間看到的token數(shù)量。我們使用批量大小為1024和512的TPU4芯片對該模型進行預訓練。該模型在C4上總共訓練了1萬億個token(200萬步)。對于輸入和目標,序列長度設置為512/512。在預訓練期間,Dropout設置為0。大約1萬億個token的預培訓花費了大約一個多月的時間。我們使用與前面部分相同的去噪器混合物。該模型有32個編碼器層和32個解碼器層,dmodel為4096,dff為16384。對于總共16個頭部,每個頭部的尺寸為256。我們的模型使用了8的模型并行度。我們保留了與T5相同的32k人聲大小的句子片段標記器。因此,UL20B可以被解釋為一個與T5非常相似的模型,但使用不同的目標和略有不同的縮放旋鈕進行訓練。與早期的實驗類似,UL20B使用Jax和T5X基礎(chǔ)設施進行訓練。我們發(fā)布并開源了這個20B模型的基于T5X的模型檢查點。

5.2 20B規(guī)模的實驗

本節(jié)介紹了UL20B實驗的實驗設置。

5.2.1設置和實施細節(jié)

我們對微調(diào)和上下文學習進行了實驗。對于監(jiān)督微調(diào),我們的模型在N個預訓練步驟后不斷微調(diào),其中N通常從50k到100k。換句話說,在預訓練的每個Nk步驟之后,我們對每個下游任務進行微調(diào)并記錄其結(jié)果。這通常是以手動方式完成的。雖然由于模型仍在預訓練,一些任務在早期預訓練的檢查點上進行了微調(diào),但許多任務在我們發(fā)布的更接近收斂的檢查點進行了微調(diào)。當我們不斷地微調(diào)時,一旦任務到達sota,我們就停止對其進行微調(diào)以節(jié)省計算。微調(diào)通常是在每個任務的基礎(chǔ)上進行的,而不是聯(lián)合訓練。執(zhí)行聯(lián)合培訓的任務詳情見附錄。我們將大規(guī)模多任務訓練(Aribandi et al.,2021)和UL2的組合留給未來的工作。

對于監(jiān)督微調(diào),我們通常使用Adafactor優(yōu)化器采用在{5×10?5,1×10?51×10?4}范圍內(nèi)的學習率。一般的方法是,我們重置Adafactor優(yōu)化器狀態(tài)和/或采用基于真實目標token數(shù)量的損失歸一化。這讓人想起了PaLM微調(diào)設置(Chowdhery等人,2022)。批量大小通常在32到128之間,盡管我們沒有發(fā)現(xiàn)批量大小對微調(diào)性能的影響太大。許多評估的任務都沒有進行太多調(diào)整,在執(zhí)行排行榜提交之前,我們只運行了一兩次。

5.2.2監(jiān)督微調(diào)的數(shù)據(jù)集

為了證明該方法的普遍性,我們總共考慮了近50多項NLP任務。我們在下面列出了我們的任務分類。請注意,任務的分類通常本質(zhì)上是軟的,一些任務可能會跨越不同的分類邊界。

?語言生成-我們考慮摘要和數(shù)據(jù)到文本的生成任務。我們使用CNN/Dailymail(Hermann et al.,2015)、XSUM(Narayan et al.,2018)、MultiNews(Fabbri et al.,2019)、SAMSum(Gliwa et al.,2017)、WebNLG(Castro Ferreira et al.,2020)(英語)、E2E(Du?ek et al.,2016)和CommonGen(Lin et al.。,2020)來評估我們的模型。對于WebNLG、E2E和CommonGen,我們使用GEM基準測試的版本(Gehrmann等人,2021)。

?使用人工評估的語言生成-我們通過GENIE排行榜使用人工評估對各種文本生成任務進行評估(Khashabi等人,2021)。這些任務包括aNLG(Bhagavatula等人,2019)、ARC-DA(Clark等人,2018)、WMT19(基金會)和XSUM(Narayan等人,2018年)。

?語言理解、分類和問答-我們使用閱讀理解、問答、文本分類和自然語言推理數(shù)據(jù)集。具體而言,我們使用RACE(閱讀理解)(Lai et al.,2017)、QASC(Khot et al.,2020)、OpenBookQA(Mihaylov et al.,2018)、TweetQA(Xiong et al.,2019)、QuAIL(Rogers et al.,20 20 20)、IMDB(Maas et al.,2011)、Agnews(Zhang et al.,2015)、DocNLI(Yin et al.,2021)、對抗性NLI(Nie et al.,19)、VitaminC(Schuster et al.,21),Civil Comments和維基百科毒性檢測數(shù)據(jù)集(Borkan等人,2019)。我們還使用了標準的SuperGLUE(Wang等人,2019)和GLUE(王等人,2018)數(shù)據(jù)集。

?常識推理-我們使用HellaSwag(Zellers等人,2019)、SocialIQA/SIQA(Sap等人,2019。

?長期推理-我們使用Scrolls基準(Shaham等人,2022),該基準由七個組成任務組成,包括GovReport(Huang等人,2021)、SumScr(Chen等人,2021。

?結(jié)構(gòu)化知識基礎(chǔ)-我們使用了UnifiedSKG(Xie et al.,2022)的幾個組件任務,即WikiTQ(Pasupat&Liang,2015)、CompWQ(Talmor&Berant,2018)、FetaQA(Nan et al.,2021)、HybridQA(Chen et al.,2020)、WikiSQL(Zhong et al.,2017)、TabFat(Chen et al.,2019)、Feverous(Aly et al.,2019),SQA(Iyyer et al.,2018),MTOP(Li et al.,2016)和DART(Nan等人,2020)。我們選擇相對方便進行評估的數(shù)據(jù)集,并使用主流指標,如準確性或精確匹配,而不是模糊的數(shù)據(jù)集或需要重要的特定領(lǐng)域后處理的數(shù)據(jù)集。

?信息檢索-IR是在給定查詢的情況下檢索相關(guān)文檔的任務。我們使用最新的下一代IR范式的設置,即可微搜索索引(Tay et al.,2022)進行實驗。我們在DSI論文中使用了相同的NQ(Kwiatkowski et al.,2019)拆分。

對于每個數(shù)據(jù)集,我們報告以前最好的sota結(jié)果。對于生成任務,我們通常按照(Gehrmann等人,2022)的建議報告ROUGE-2。對于其余數(shù)據(jù)集,我們報告了先前工作中報告的主要指標。對于BLEU分數(shù),我們使用sacrebleu。對于常識性推理任務,我們不與使用外部知識庫的方法進行比較,因為它們是正交的,超出了本文的范圍。在大多數(shù)情況下,GLUE通常被認為是飽和的,在GLUE排行榜上有許多未發(fā)表的結(jié)果。因此,我們做出了一個非常合理的決定,認為(Raffel等人,2019)是最先進的,因為我們認為自T5模型(Raffer等人,2019年)以來,GLUE基準沒有任何真正的進步。GLUE的結(jié)果,考慮到它已經(jīng)飽和的程度,作為參考,應該謹慎對待。

一般來說,我們會盡最大努力向任何排行榜(未公布的測試集)提交分數(shù),但在提交此類分數(shù)的人力成本過高的情況下,尤其是當現(xiàn)有的最先進方法已經(jīng)提供了他們的開發(fā)分數(shù)時,或者當報告此特定數(shù)據(jù)集只是為了完整性時(例如,GLUE),我們會避免這樣做。我們建議讀者不要過度思考dev/test的差異,因為(1)在大多數(shù)學術(shù)排行榜中,dev/test不僅與我們自己的經(jīng)驗一致,而且可以通過經(jīng)驗觀察到,因為(2)真正的測試無論如何都是生產(chǎn)。每當在排行榜上報道時,我們都會將表現(xiàn)最好的已發(fā)表作品視為SOTA,并在結(jié)果中使用#符號表示可能有一些匿名提交的作品得分更高。為此,我們認為具有上述合理質(zhì)量的arxiv預印本可以算作已發(fā)表的作品。截至2022年4月15日,這些結(jié)果和比較是準確的,當時我們停止了實驗,專注于拋光這篇論文。我們后來意識到,在準備將這篇論文發(fā)表在arxiv上時,使用16k序列長度的模型(Guo et al.,2021)在Scrolls基準上有了新的結(jié)果,而我們的模型(2k)在獲得sota后將其保持在2k。預計將長度增加到UL2將大大提高我們的分數(shù),可能會超過目前的索塔,但出于后勤和時間表的考慮,我們將這一點留給未來的工作。

5.2.3監(jiān)督微調(diào)結(jié)果匯總

本節(jié)介紹了我們實驗的總體結(jié)果。

表8:UL20B結(jié)果與現(xiàn)有技術(shù)的對比匯總。(l) 表示提交排行榜。(])表示我們能在排行榜上找到的最好的出版物。(e) 表示SOTA采用了整體方法。因為我們評估了SuperGLUE的微調(diào)和上下文權(quán)衡,所以SuperGLUE分數(shù)在下面有自己的專用部分。

5.2.4監(jiān)督微調(diào)結(jié)果

我們的實驗結(jié)果表明,UL2在大約50多個NLP任務和設置上實現(xiàn)了最先進的性能。對許多人來說,利潤率相當大,而對于那些UL2沒有實現(xiàn)SOTA的人來說,UL2的性能通常相當有競爭力。值得注意的是,在每個基準上獲得sota的困難程度有很大不同。對一些人來說,sota模型是一個32B密度的等價物(Zoph等人,2022)。對其他一些人來說,這是一個基礎(chǔ)模型。還值得注意的是,許多基準都有一個強大的相對較大的模型,例如3B或11B T5、UnifiedQA(Khashabi et al.,2020)或Unicorn(Lourie et al.,2021),因為現(xiàn)有的SOTA模型的性能優(yōu)于這些模型也不是最容易做的事??偟膩碚f,我們敦促讀者自己判斷這些SOTA結(jié)果的價值。最后,我們注意到UL2 20B在GENIE任務的人工評估方面做得很好,在幾個指標上優(yōu)于sota。這確定了UL2的生成質(zhì)量是相當可靠的。

5.2.5微調(diào)和基于提示的零樣本學習(SuperGLUE)之間的權(quán)衡

在本節(jié)中,我們將探討SuperGLUE基準測試的微調(diào)和上下文學習權(quán)衡。我們用UL20B對SuperGLUE進行了實驗。雖然UL20B在該基準上沒有實現(xiàn)SOTA,但我們注意到,UL20B至少保持競爭力,并優(yōu)于T5-11B。本節(jié)保證UL2確實在SuperGLUE上擴展和匹配/略優(yōu)于T5-11B(而在許多其他上下文任務上則大大優(yōu)于T5-XXL)。由于兩個主要原因,UL20B仍然落后于SOTA型號ST-MoE-32B。首先,ST-MoE-32B具有200B+個參數(shù),成本相當于32B密集模型。其次,ST-MoE-32B使用編碼器-解碼器架構(gòu)僅針對跨度損壞進行訓練,已知該架構(gòu)在NLU微調(diào)方面非常有利。

表9:SuperGLUE開發(fā)集的結(jié)果。我們與T5-11B(Raffel et al.,2019)、ST-MoE-32B(Zoph et al.,2022)和PaLM-8B、PaLM-62B和PaLM-540B(Chowdhery et al.,2021)進行了比較。報告的分數(shù)是每個任務的峰值驗證分數(shù)。

5.2.6生成few-shot:XSUM摘要

最后,我們使用XSum數(shù)據(jù)集進行了額外的few-shot上下文1-shot學習。我們將我們的模型與基線T5-XXL、T5-XXL與LM自適應(Lester et al.,2021)、LaMDA 137B(Thoppilan et al.,2022)和PaLM(8B,62B,540B)(Chowdhery et al.,2020)進行了比較。我們在相同的實驗設置中運行T5-XXL,但報告了其他模型的結(jié)果(Chowdhery等人,2022)。

表10:SuperGLUE數(shù)據(jù)集上零樣本學習的結(jié)果。我們與GPT-3、GLaM和PaLM進行了比較(Chowdhery等人,2022)。我們還包括與UL20B相對計算匹配的模型,如具有LM自適應的T5-XXL(Lester et al.,2021)、GPT-3 13B和GLaM-8B密集型。值得注意的是,UL20B在平均得分上優(yōu)于GPT-3175B和類似計算類中的所有其他模型。

表11報告了單次匯總的結(jié)果。我們的結(jié)果表明,UL2 20B的性能大約是LM適應的T5 XXL型號性能的3倍。此外,UL2 20B的性能優(yōu)于LaMDA 137B,并且與與UL2近似計算匹配的PaLM 8B相比具有更好的性能。然而,最好的結(jié)果仍然是更大的540B和62B PaLM型號。

5.2.7思想鏈提示的UL2

最近的研究表明,大規(guī)模的語言模型可以通過思維鏈提示執(zhí)行多步驟推理任務,如數(shù)學單詞問題或常識推理,這會促使模型在給出最終答案之前生成一條循序漸進的推理路徑(Wei et al.,2022b)。值得注意的是,思想鏈(CoT)提示不需要對模型進行任何額外的微調(diào)。

CoT提示的一個關(guān)鍵考慮因素是,它是一種突發(fā)的規(guī)模能力(Wei et al.,2022a)——它需要一個足夠大的語言模型來提高性能,而實際上會損害小型語言模型的性能。因此,思維鏈提示的成功用例使用了LaMDA 137B(Thoppilan et al.,2022)、PaLM 540B(Chowdhery et al.,2021)或OpenAI模型(Brown et al.,2020;歐陽等人,2022)。然而,這些模型是計算密集型的,不能用作公共檢查點。

在這里,我們證明了UL2 20B是第一個公開可用的預訓練模型(沒有任何微調(diào)),可以成功地利用CoT提示來解決多步驟算術(shù)和常識任務。我們使用與Wei等人相同的基準任務和提示。(2022b)。在下面的表12中,我們看到,在五個算術(shù)推理數(shù)據(jù)集上,對于UL2 20B,CoT提示優(yōu)于標準提示(無需思考鏈即可直接輸出答案)。與Wei等人類似。(2022b),我們還表明,可以通過使用外部計算器(“calc.”)僅執(zhí)行算術(shù)計算(+,?,×,/)來增強CoT提示,以進一步大幅提高性能。此外,我們在CoT提示的基礎(chǔ)上增加了自一致性(Wang et al.,2022b)(表示為“SC”),并在所有基準中觀察到持續(xù)的顯著提高,與標準提示相比平均提高了22.5%。表12:五個算術(shù)推理基準點的思維鏈提示和自洽性(SC)結(jié)果。GSM8K:(Cobbe等人,2021)。SVAMP:(Patel等人,2021)。ASDiv:(Miao等人,2020)。AQuA:(Ling et al.,2017)。MAWPS:(Koncel Kedziorski等人,2016)。

除了算術(shù)推理之外,表13還顯示了在五個常識性推理基準上,使用UL2 20B的CoT提示與標準提示相比的性能。CoT提示加自一致性在五個基準中的四個方面優(yōu)于標準提示,平均改善14.4%。

表13:五個常識性推理基準的思維鏈提示和自洽性(SC)結(jié)果。CSQA:(Talmor等人,2019)。StrategyQA:(Geva等人,2021)。日期理解和運動理解:(Srivastava等人,2022)。ARC輕松/挑戰(zhàn):(Clark等人,2018)。

總體而言,我們已經(jīng)表明,盡管先前的CoT工作需要大型預訓練模型,如PaLM 540B,但UL2 20B是一個相對較小的模型,也可以執(zhí)行多步驟推理。我們假設去噪因子的混合物可能有助于UL2在20B參數(shù)下利用CoT提示的能力,盡管我們將如何解鎖突發(fā)思維鏈推理的進一步研究留給未來的工作。

5.2.8大規(guī)模多任務語言理解

大規(guī)模多任務語言理解(MMLU)(Hendrycks et al.,2021)是一個由57個任務組成的集合,涵蓋了廣泛的主題(人文、社會科學、硬科學等)。在MMLU上取得優(yōu)異成績需要廣泛的世界知識和解決問題的技能。

對于MMLU,我們與T5模型變體進行了比較,包括語言模型自適應變體Lester等人(2021)和T0(Sanh等人,2019)。對于后者,我們使用“T0草莓”和“T0香草”,因為這些是推薦用于研究目的的模型。我們報告了0次注射的性能。T0模型專門針對0次注射進行了微調(diào),因此我們認為這是測試UL2療效的保守設置。表14顯示,LM適配的T5-XXL模型幾乎沒有給出以上的隨機性能(25%)。UL2的性能優(yōu)于T0和T5型號。

5.3帶FLAN的指令調(diào)諧UL2 20B

受Chung等人的啟發(fā)7。(2022),我們在UL2 20B檢查點上應用了Flan指令調(diào)優(yōu)。我們幾乎使用了與Flan2論文相同的設置和Flan混合物(Chung et al.,2022)。由于flan混合物沒有模式切換提示,我們選擇在沒有模式token的情況下再訓練UL2 100K步。這次我們將長度增加到1024/1024,以適應更大的上下文長度。側(cè)方訓練的長度為2048/512。我們發(fā)現(xiàn)原始UL2檢查點的“模式切換凈化”是有用的,盡管更優(yōu)化的方法是向FLAN任務添加模式token。由于我們懶得這么做,我們只是選擇再次繼續(xù)訓練UL2,以獲得更多的步驟。我們在與原始UL2檢查點相同的url上發(fā)布了此Flan-UL2 20B檢查點。

5.3.1 UL2側(cè)身訓練后的少桿MMLU和大板凳成績

表15報告了MMLU和BBH的結(jié)果(Suzgun等人,2022)。一般來說,F(xiàn)LAN UL2 20B的性能非常有競爭力,在測試集上優(yōu)于FLAN-T5 XXL+1.8%,在MMLU開發(fā)上優(yōu)于4.7%。Big Bench的硬得分仍然具有競爭力,最佳檢查點略微優(yōu)于FLAN-T7 XXL。值得注意的是,F(xiàn)LAN-UL2的最佳開發(fā)分數(shù)幾乎達到了FLAN PaLM 62B在MMLU和BBH上的性能,這表明結(jié)果相當可靠。

5.3.2使用思維鏈與直接提示的比較

我們比較了Flan模型在直接和思想鏈設置上的差異。我們使用與T5-XXL完全相同的協(xié)議對Flan-UL2進行微調(diào),并根據(jù)所有四種設置(具有直接和CoT的MMLU/BBH)中最強的平均值8選擇最佳分數(shù)。我們發(fā)現(xiàn)Flan-UL2在所有四項任務上都優(yōu)于Flan-T5-XXL。值得注意的是,CoT任務有更大的增益,例如,特別是MMLU CoT,其中增益相對為+7.4%。通常,這些任務的CoT變體仍然比直接任務表現(xiàn)更差,這也可以在PaLM 62B模型中觀察到。這似乎也適用于Flan PaLM 62B??傮w而言,在所有設置中,側(cè)面-UL2的平均值接近Flan PaLM 62B(49.1對49.9)。然而,它仍然被Flan PaLM 540B的強勁表現(xiàn)所超越。

我們還嘗試了一些自一致性(Wang et al.,2022b)實驗與CoT相結(jié)合。從簡短的實驗中,CoT得分從53.9提高到57.1(當相應的直接得分為55.4時)。這表明,在20B量表中,CoT+自一致性可以優(yōu)于直接提示。我們沒有進行進一步的實驗,因為這會增加搜索空間,使其比我們想要的(或喜歡的)更耗時。我們把未來的任何實驗留給讀者練習。

6結(jié)論

我們提出了一種訓練普遍有效模型的新范式。UL2有兩個關(guān)鍵思想。首先,我們提出了一種新的混合去噪器(MoD)預訓練,該預訓練將多個預訓練任務框定為跨度損壞,將其多樣化,然后混合。其次,我們引入了模式切換,這是一種將下游任務行為與上游預訓練相關(guān)聯(lián)的方法。廣泛的燒蝕實驗表明,UL2在各種監(jiān)督和少量射擊任務中始終優(yōu)于GPT和T5模型,在9項任務中的9項任務上優(yōu)于T5,歸一化總增益為+76.1%。最后,我們將UL2參數(shù)擴展到20B,并在50到60個NLP任務和設置的不同套件上進行實驗。UL2在其中50臺上實現(xiàn)了sota性能。UL2和側(cè)面-UL2 20B的預訓練檢查站于https://github.com/google-research/google-research/tree/master/ul2.

9附錄

9.1型號發(fā)布

作為這項工作的一部分,我們發(fā)布了20B檢查點的權(quán)重。模型的權(quán)重可以在這個GCP bucket中找到(gs://scenture-backet/ul2)。這些檢查站使用T5X(Roberts等人,2022)進行訓練https://github.com/google-research/t5x并在JAX/Flex中實現(xiàn)。由于我們的持續(xù)微調(diào)設置,微調(diào)結(jié)果通常不是來自單個檢查點,因此我們發(fā)布了三個不同的檢查點(1.87M、2.05M、2.65M),我們發(fā)現(xiàn)它們一直都很好。

一個輕微的免責聲明是,我們在內(nèi)部系統(tǒng)的TPU4芯片上對該模型進行了微調(diào)和訓練。即便如此,微調(diào)有時也會導致nan,這可能需要一些護理和手動調(diào)整才能解決。因此,如果將檢查點移植到另一個系統(tǒng),我們不能保證這些檢查點也能正常工作。我們總體上是樂觀的,但我們不能通過外部硬件和GPU等加速器來保證其穩(wěn)定性。

對于這個特定的檢查點,請注意,我們使用的模式標簽是[NLG](X-去噪器)、[NLU](R-去噪器,R-denoiser)和[S2S](S-去噪器。所以在你的例子輸入的開頭加上這個。

9.2實施細節(jié)和UL2代碼

本節(jié)旨在深入了解UL2預訓練是如何實現(xiàn)的。我們的實現(xiàn)實際上非常簡單。這只是seqio9中實現(xiàn)的不同預訓練目標的混合。我們的大多數(shù)實驗都是通過簡單地將不同的seqio任務與seqio的混合注冊表混合來進行的。然而,也可以使用以下函數(shù)來實現(xiàn)廣義UL2目標,該函數(shù)可能更干凈

9.3監(jiān)督微調(diào)SOTA運行的詳細信息

我們大多數(shù)受監(jiān)督的微調(diào)運行都是作為單個任務進行微調(diào)的。唯一的例外是:

?我們通過比例采樣將GLUE微調(diào)為單一混合物。這已經(jīng)成為標準和事實上的設置(Raffel等人,2019;He等人,2022;Tay等人,2020221b)。

?我們將SuperGLUE微調(diào)為單一混合物,這也是目前的標準設置(Fedus等人,2021;Raffel等人,2019;Chowdhery等人,2022)。

?在彩虹基準下,SIQA、PIQA、AbdectiveLI、Winogrande XL和CosmosQA在類似于(Lourie等人,2021)的比例混合物中共同訓練。

?對于CSQA,CSQA2。OBQA和ARC-DA,我們與彩虹混合物共同訓練,以在這三個數(shù)據(jù)集上獲得結(jié)果。

?所有其他任務都是經(jīng)過微調(diào)的單個任務。

9.4少發(fā)和零樣本提示的詳細信息

我們報道了零樣本SuperGLUE實驗的最佳提示。



蘇老師關(guān)于這篇論文的討論

為什么現(xiàn)在的LLM都是Decoder-only的架構(gòu)?https://spaces.ac.cn/archives/9529

《為什么現(xiàn)在的LLM都是Decoder-only的架構(gòu)?》FAQ https://spaces.ac.cn/archives/9547

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容