Transformer XL

《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》

1.Transformer處理長(zhǎng)文本的問(wèn)題

Transformer處理長(zhǎng)文本

訓(xùn)練時(shí):
1)segments之間獨(dú)立訓(xùn)練,最長(zhǎng)依賴(lài)取決于segment的長(zhǎng)度;
2)劃分時(shí)未考慮句子的自然邊界,導(dǎo)致分割出來(lái)的segments在語(yǔ)義上是不完整的。
預(yù)測(cè)時(shí):
每次向右平移一個(gè)單元,效率較低,推理速度慢。

2.Segment-Level Recurrence循環(huán)機(jī)制,增加了最長(zhǎng)依賴(lài)關(guān)系

Transformer-XL仍然是使用分段的方式進(jìn)行建模,但不同的是,在對(duì)當(dāng)前segment進(jìn)行處理的時(shí)候,緩存并利用上一個(gè)segment中所有l(wèi)ayer的隱向量序列,而且上一個(gè)segment的所有隱向量序列只參與前向計(jì)算,不再進(jìn)行反向傳播。

也就是說(shuō)在計(jì)算t+1片段第n層的transform輸入q,k,v時(shí),要用到t+1片段第n-1層的hidden state和t片段第n-1層的hidden state。因?yàn)橛蠰的限制,所以是第n層的每個(gè)隱向量的計(jì)算,都是利用下一層中包括當(dāng)前位置在內(nèi)的,連續(xù)前L個(gè)長(zhǎng)度的隱向量。
因此,Transformer-XL的最長(zhǎng)依賴(lài)關(guān)系長(zhǎng)度是N(L-1)。每層每個(gè)點(diǎn)不包括自己是L-1,L-1個(gè)連接分別發(fā)出去L-1,去除重復(fù)的,每層增加依賴(lài)長(zhǎng)度還是L-1,所以N層,就是N(L-1)。L比N一般大很多,近似為NL。
在訓(xùn)練的時(shí)候,只緩存一個(gè)segment,在預(yù)測(cè)的時(shí)候,會(huì)緩存多個(gè)segments。

3.Relative Position Encodings

Trm-XL放棄使用絕對(duì)位置編碼,而是采用相對(duì)位置編碼,在計(jì)算當(dāng)前位置隱向量的時(shí)候,考慮與之依賴(lài)token的相對(duì)位置關(guān)系。
具體操作是,在算attention score的時(shí)候,只考慮query向量與key向量的相對(duì)位置關(guān)系,并且將這種相對(duì)位置關(guān)系,加入到每一層Trm的attention的計(jì)算中。
相對(duì)位置關(guān)系用一個(gè)位置編碼矩陣R來(lái)表示,第i行表示相對(duì)位置間隔為i的位置向量。論文中強(qiáng)調(diào)R采用正弦函數(shù)生成,而不是通過(guò)學(xué)習(xí)得到的,好處是預(yù)測(cè)時(shí)可以使用比訓(xùn)練距離更長(zhǎng)的位置向量

a. 基于內(nèi)容的“尋址”,即沒(méi)有添加原始位置編碼的原始分?jǐn)?shù)。
b. 基于內(nèi)容的位置偏置,即相對(duì)于當(dāng)前內(nèi)容的位置偏差。
c. 全局的內(nèi)容偏置,用于衡量key的重要性。
d. 全局的位置偏置,根據(jù)query和key之間的距離調(diào)整重要性。

4.總結(jié)

Trm-XL為解決長(zhǎng)序列的問(wèn)題,對(duì)上一個(gè)segment做了緩存,可供當(dāng)前segment使用,但是也帶來(lái)了位置關(guān)系問(wèn)題,為了解決位置問(wèn)題,又引入了相對(duì)位置編碼。
特點(diǎn):引入循環(huán)機(jī)制和相對(duì)位置編碼
優(yōu)點(diǎn):1、循環(huán)機(jī)制和注意力機(jī)制,允許模型學(xué)習(xí)長(zhǎng)期依賴(lài)性;Trm的L到Trm-XL的NL;2、在inference階段非??欤萒ransformer快300~1800倍。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容