一、Transformer
(一)更改連接方式
How Does Selective Mechanism Improve Self-Attention Networks?
哈工大劉挺組
選擇機制如何改善自我注意網(wǎng)絡?
- 背景:
這是一篇解釋性的文章。 - 動機:
近年來,在自注意力網(wǎng)絡引入選擇機制使得模型關注其中重要的輸入元素已經(jīng)取得很好的效果。但是,對于選擇機制取得這樣結果的原因尚不清楚。本文提出一個通用的基于選擇機制的自注意力網(wǎng)絡。傳統(tǒng)的自注意力網(wǎng)絡在順序編碼以及結構信息建模能力存在一些不足,而本文針對其提出相應的假設,并在實驗中驗證假設的正確性。 - 模型:
選擇性的自注意力網(wǎng)絡:增加一個選擇器,篩選出真正對當前詞很重要的詞,然后做Self-Attention。(這個思想和Reformer的出發(fā)點有點像-去關注真正值得關注的東西)

- 結果:
作者設計了幾個實驗,來探究SAN和SSAN的區(qū)別。
實驗分析發(fā)現(xiàn),將選擇機制引入自注意力網(wǎng)絡的好處在于:
(1) 其更多關注周圍詞的信息,從而對周圍詞序的變化比較敏感,使得其更好對順序進行編碼;
(2)其對于樹結構重要成分關注度更高,從而其擁有更強的捕捉結構信息的能力。


Highway Transformer: Self-Gating Enhanced Self-Attentive Networks
中科院
- 動機:
Self-Attention更關注任意兩個詞之間的注意力分布,而忽略了單個詞特征信息的基本重要性。想法類似于把LSTM中的控制門引入到Transformer結構中,以補充個體表示的多維潛在空間中的內(nèi)部語義重要性。加入的SDU門允許通過跳過連接的調(diào)控潛在嵌入的信息流,讓模型包含更多詞本身的信息。并且作者分析了這樣做可以讓梯度下降算法具有更明顯的收斂速度。 - 模型:
SDU(Self-Dependency Units):該組件中的門通常設為tanh函數(shù),類似于LSTM中的調(diào)控門保留多少信息留下多少信息傳遞下去。
SDU-augmented Transformer:SDU可以被視作為一種具有動態(tài)適應能力的自依賴非線性激活函數(shù)。

- 結果:
和Transformer、R-Transformer、Transformer-XL做了比較,在一些任務上均有一定提升。
Improving Transformer Models by Reordering their Sublayers
Allen AI與Facebook團隊
通過子層重新排序改進Transformer
- 動機:
考慮的角度有些獨特,Transformer中包含兩個子層:Self-Attention層(s)和前饋網(wǎng)絡層(f),本文考慮將這兩個子層調(diào)換順序后性能是否有提升。作者隨機生成不同子層排列順序的Transformer,然后發(fā)現(xiàn)底部有更多自注意力層和頂部有更多前饋網(wǎng)絡層的模型具有更好的效果,于是設計了三明治結構的Transformer。

- 模型:
實驗中作者探討了兩點:一個是s和f層的數(shù)量比例的問題,實驗中發(fā)現(xiàn)二者數(shù)量均衡的效果要更好一些;另一個是s和f層排列先后的問題,實驗中發(fā)現(xiàn)s越在底層f越在頂層效果越好。
雖然作者沒法解釋這一原因,但是針對這些現(xiàn)象設計了表現(xiàn)更好的三明治Transformer。底層和頂層部分是純s和f,中間s和f交錯排列成為三明治夾心,這種結構的效果最好。 - 結果:
作者根據(jù)不同任務進行了實驗,每個任務表現(xiàn)最好的結構不固定,但是這種調(diào)整子層的思想可以在設計模型的時候不額外增加參數(shù)而獲得一定提升。
(二)更改位置編碼
FLAT: Chinese NER Using Flat-Lattice Transformer
復旦邱錫鵬組
平面格結構的Transformer
- 背景:漢字格(Lattice)結構被證明是一種有效的中文命名實體識別方法,格子結構被證明對利用詞信息和避免分詞的錯誤傳播有很大的好處。我們可以將一個句子與一個詞典進行匹配,得到其中的潛詞,獲得一個類似Lattice的結構:不僅考慮句子中的單個字,還考慮每個字可能組成的詞組。Lattice是一個有向無環(huán)圖,詞匯的開始和結束字符決定了其位置。

Lattice LSTM是中文NER的開山之作,融合了詞匯信息到原生的LSTM中:

動機:
(1)Lattice-LSTM和LR-CNN采取的RNN和CNN結構無法捕捉長距離依賴,而動態(tài)的Lattice結構也不能充分進行GPU并行。
(2)而CGN和LGN采取的圖網(wǎng)絡雖然可以捕捉對于NER任務至關重要的順序結構,但這兩者之間的gap是不可忽略的。其次,這類圖網(wǎng)絡通常需要RNN作為底層編碼器來捕捉順序性,通常需要復雜的模型結構。模型:
FLAT設計了一種巧妙position encoding來融合Lattice 結構。對于每一個字符和詞匯都構建兩個head position encoding 和 tail position encoding,可以證明,這種方式可以重構原有的Lattice結構。也正是由于此,F(xiàn)LAT可以直接建模字符與所有匹配的詞匯信息間的交互,例如,字符 [藥] 可以匹配詞匯 [人和藥店] 和 [藥店]。因此,我們可以將Lattice結構展平,將其從一個有向無環(huán)圖展平為一個平面的Flat-Lattice Transformer結構,由多個span構成:每個字符的head和tail是相同的,每個詞匯的head和tail是skipped的。

同時作者提到,絕對位置編碼并不適用于NER任務,采用了XLNet中的相對位置編碼計算attention score,論文提出四種相對距離表示xi和xj之間的關系,同時也考慮字符和詞匯之間的關系:

- 結果:
該模型能夠并行化在GPU上訓練,訓練效率大大高于原有模型。

Self-Attention with Cross-Lingual Position Representation
悉尼大學+騰訊
融入跨語言位置表示的Self-Attention

- 動機:由于原始的Self-Attention確實刻畫序列先后次序的信息,因此位置編碼(PE)對Self-Attention很重要。然而目前無論是絕對位置編碼(APE,Transformer中提出的)還是相對位置編碼(RPE),對源語言和目標語言都是獨立建模的并且是固定的。由于不同語言中的詞序差異,建立跨語言位置關系可能有助于SANs更好的學習到跨語言的信息。
- 模型:
(1)不同語言的詞序如何對應起來?作者使用了基于BTG的重排序模型,根據(jù)對應目標句的詞序生成一個重排序的源句,然后得到重排序后的單詞索引PE_XL。
(2)融入重排后的單詞索引PE_XL。作者提出了兩種融入方法。一種在輸出層融入-與絕對位置編碼結合作為新的位置編碼;一種在自注意力層中的Head中融入-不同的Head輸入包含不同的位置編碼。
(三)根據(jù)不同任務增加組件
Hooks in the Headline: Learning to Generate Headlines with Controlled Styles
MIT、Amazon等
生成指定風格的標題
- 動機:
目前的摘要系統(tǒng)只產(chǎn)生簡單、真實的標題,但不能滿足創(chuàng)建令人難忘的標題以增加曝光率的實際需要。我們提出了一個新的任務,文本標題生成(SHG),以豐富三種風格(幽默,浪漫和點擊誘餌)的標題,以吸引更多的讀者。

- 模型:
數(shù)據(jù)集S(包含新聞文本A和對應標題H),T(帶有風格的文本T,不一定是標題,因為帶有風格的標題數(shù)據(jù)集很昂貴)
模型整體為一個Transformer結構,分為encoder和decoder。采用了多任務學習的框架,同時進行:文本總結(在S上,根據(jù)新聞文本A生成對應標題,有監(jiān)督學習);帶有風格的文本重構(在T上,輸入為亂序和mask的句子,目標是還原生成原句t)
由于兩部分數(shù)據(jù)集和任務都是獨立的,為了將二者融合,達到在總結文本的時候帶有風格的目標,作者設計了參數(shù)共享的策略:模型黃色的部分全部參數(shù)貢獻,紅色和綠色的部分不參數(shù)貢獻。共享部分很好理解,就是在總結文本信息時將風格融入;不共享的地方,旨在得到不同風格的層歸一化后的輸入和查詢

- 結果:
模型生成標題的吸引力得分超過了最新的摘要模型的9.68%,甚至超過了人工編寫的reference。

二、BERT
(一)應用
增加隱變量
PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable
百度
包含離散隱變量的預訓練對話生成模型
視頻講解:https://mp.weixin.qq.com/s/w1oMnYDql09EVBbmIV6cSg
- 背景:
隱變量較為普遍地在VAE、CVAE等技術中使用,但在論文中,作者們首次提出將離散的隱變量結合Transformer結構,應用到通用的對話領域。通過引入離散隱變量,可以對上文與回復之間的“一對多”關系進行有效建模。 - 動機:
本文研究開放領域的對話機器人。目前存在兩個比較大的挑戰(zhàn):一是大規(guī)模開放域多輪對話數(shù)據(jù)匱乏; 二是對話中涉及常識、領域知識和上下文,因此在對話回復時,存在“一對多”問題。例如,當人說“外面正在下雪”,回答“去堆雪人怎么樣?”或者“太冷了,好想念夏天?!痹诓煌瑘鼍跋露际呛侠淼摹R簿褪钦f:一個對話的上文(Context),往往可以對應多個不同回復(Response)的方向。這些不同的回復隨著不同的人,不同的背景和環(huán)境可能有所不同,但都是合理的回復。經(jīng)典的深度學習模型目前都能比較好解決一對一的問題,例如Seq2Seq。
為了解決這2個問題,本文通過大規(guī)模數(shù)據(jù)進行預訓練,然后首次在Transformer結構中引入離散隱變量,對上文與回復之間的“一對多”關系進行有效建模。

- 模型:
在PLATO中,離散隱變量可以有K個取值,它的每個取值,是與一個回復中的意圖相對應的,或者可以理解為多樣化的對話的動作(Action)。
在PLATO的訓練中,有2個任務同步進行-回復生成(Response Generation)和隱變量識別(Latent Act Recognition)?;貜蜕扇蝿罩校ɑ疑^):給定上文和離散隱變量的取值(即確定了回復中的意圖,向量中綠色的點),盡可能生成綠色那句的話。識別任務(藍色箭頭)盡量估計給定上文和目標回復對應的隱變量取值。顯然,隱變量的準確識別,可以進一步提升回復生成的質(zhì)量。
模型網(wǎng)絡架構由Transformer Blocks組成,整個模型對兩個任務是共享參數(shù)的。在回復生成任務中,PLATO借鑒UniLM使用了靈活的注意力機制:對上文進行了雙向編碼,充分利用和理解上文信息;對回復進行了單向解碼,適應回復生成的Autoregressive特性。在隱變量識別任務中,PLATO使用特殊符號[M]作為隱變量的輸入,對上文和回復進行雙向編碼,盡可能收集更多的信息,更準確估計回復意圖(即離散隱變量的取值)。
針對多輪對話的輸入的表示方法,PLATO也進行了獨特的設計,每個token的Input Embedding是由對應的token、role、turn和position embedding相加得到。

- 結果:
在三個公開對話數(shù)據(jù)集上的評測,PLATO 都取得了新的最優(yōu)效果。

A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
吉林大學
一種用于關系三元組抽取的級聯(lián)二進制標記框架
參考:https://www.zhihu.com/question/385259014/answer/1141621197
- 背景:
關系三元組抽取(Relational Triple Extraction, RTE),也叫實體-關系聯(lián)合抽取,是信息抽取領域中的一個經(jīng)典任務,旨在從文本中抽取出結構化的關系三元組(Subject, Relation, Object)用以構建知識圖譜。 - 動機:
隨著NLP領域的不斷發(fā)展,在簡單語境下(例如,一個句子僅包含一個關系三元組)進行關系三元組抽取已經(jīng)能夠達到不錯的效果。但在復雜語境下(一個句子中包含多個關系三元組,有時甚至多達五個以上),尤其當多個三元組有重疊的情況時(如下圖所示),現(xiàn)有SOTA模型的表現(xiàn)就顯得有些捉襟見肘了。
以往的方法大多將關系建模為實體対上的一個離散的標簽,這也是一種非常符合直覺的做法:首先通過命名實體識別(Named Entity Recognition, NER)確定出句子中所有的實體,然后學習一個關系分類器在所有的實體對上做RC,最終得到我們所需的關系三元組。然而這種Formulation在多個關系三元組有重疊的情況下會使得關系分類成為一個極其困難的不平衡多分類問題,導致最終抽取出的關系三元組不夠全面和準確。

-
模型:
CasRel框架最核心思想是,把關系(Relation)建模為將頭實體(Subject)映射到尾實體(Object)的函數(shù),而不是將其視為實體對上的標簽。具體來說,我們不學習關系分類器
在本文中我們提出了一個新的Formulation,以一種新的視角來重新審視經(jīng)典的關系三元組抽取問題,并在此基礎上實現(xiàn)了一個不受重疊三元組問題困擾的CasRel標注框架(Cascade Binary Tagging Framework)來解決RTE任務。
,而是學習關系特定的尾實體標注器,每個標注器都將在給定關系和頭實體的條件下識別出所有可能的尾實體。在這種框架下,關系三元組抽取問題就被分解為如下的兩步過程:
(1)確定出句子中所有可能的頭實體;
(2)針對每個頭實體,使用關系特定的標注器來同時識別出所有可能的關系和對應的尾實體。

- 結果:

(二)不同的預訓練任務
SPECTER: Document-level Representation Learning using Citation-informed Transformers
Allen AI
使用引文信息的Transformer進行文檔級表示學習
背景:
這篇文章是將論文引用信息融入到預訓練模型中去學習論文的表示。輸入為論文的title、abstract和citation information。動機:
現(xiàn)有語言模型多用來學習詞、句子級別的表示,這種通過文檔內(nèi)部的信號去建模整個文檔表示具有局限性,在很多下游任務如論文分類或論文推薦方面表現(xiàn)并不好。引用關系作為一種自然發(fā)生的、跨文檔的事件監(jiān)督信號,指示哪些文檔最相關,因此本文考慮融入這種文檔間的信息來學習更好的文檔表示。模型:
用SciBERT模型去預訓練文檔(論文的標題和摘要),然后用特殊標記CLS的表示作為最終的文檔輸出表示。
關鍵之處在于Loss的設計。這里用了對比學習的思想,設計了一種三元Loss:選取查詢論文引用的論文為正例,未引用的論文為負例。選取負例時也有一些技巧,作者并不是直接在未引用的論文中隨機選出負例,而是把這樣的論文作為負例:P1引用了P2,P2引用了P3,但是P1沒有引用P3,這時把P3作為hard negatives的候選。
本文的另一個貢獻是提出了論文表示預訓練的框架和七個預訓練任務,還公布了一個新的包含論文標題、摘要和引用關系的數(shù)據(jù)集。

- 結果:
SPECTER在七個任務上優(yōu)于其他基線。

(三)模型壓縮與加速
FastBERT: a Self-distilling BERT with Adaptive Inference Time
北大與騰訊
具有自適應推理時間的自蒸餾BERT
- 背景:
- 動機:
雖然BERT類的預訓練模型被證明非常有效,但它也存在模型大參數(shù)多等問題。本文提出一種蒸餾后的BERT模型,期望在減小模型本身的同時保持推理的精度。 - 模型:
模型的核心想法很簡單,就是在每層Transformer后都增加一個分類器,去預測樣本標簽,如果某樣本預測結果的置信度很高,就不用繼續(xù)計算了。(這個想法有點像ICLR 2019的Universal Transformer)
論文把這個邏輯稱為樣本自適應機制(Sample-wise adaptive mechanism),就是自適應調(diào)整每個樣本的計算量,容易的樣本通過一兩層就可以預測出來,較難的樣本則需要走完全程。

- 結果:
論文比較了增加分類器后的模型計算成本要遠小于增加Transformer層。

模型在6個數(shù)據(jù)集上的表現(xiàn)還是不錯的,已經(jīng)十分接近BERT的效果了。

(四)可解釋性
Finding Universal Grammatical Relations in Multilingual BERT
斯坦福Manning組
很有意思,但還沒完全看明白,后續(xù)更~

