Bert系列(1):從語言模型和Transformer開始

最近在工作中用bert做了不少NLP的算法任務(wù),但是對bert的前世今生總感覺了解不夠深入,通過開源社區(qū)的知識分享和原始論文的研讀,做了以下學(xué)習(xí)筆記,結(jié)合工作中遇到場景,爭取做到溫故知新:

博客來源:【1】http://jalammar.github.io/illustrated-transformer/

? ? ? ? ? ? ? ? ? 【2】https://zhuanlan.zhihu.com/p/48508221

? ? ? ? ? ? ? ? ? 【3】https://zhuanlan.zhihu.com/p/46833276

1. Language Model

語言模型來輔助NLP任務(wù)已經(jīng)得到了學(xué)術(shù)界較為廣泛的探討,通常有兩種方式:

1.1 Feature-based方法

Feature-based指利用語言模型的中間結(jié)果也就是LM embedding, 將其作為額外的特征,引入到原任務(wù)的模型中,例如在下圖中,采用了兩個單向RNN構(gòu)成的語言模型,將語言模型的中間結(jié)果

引入到序列標(biāo)注模型中,如下圖所示,其中左邊部分為序列標(biāo)注模型,也就是task-specific model,每個任務(wù)可能不同,右邊是前向LM(Left-to-right)和后向LM(Right-To-Left), 兩個LM的結(jié)果進行了合并,并將LM embedding與詞向量、第一層RNN輸出、第二層RNN輸出進行了concat操作。

Feature-based

1.2 Fine-tuning方法

Fine-tuning方式是指在已經(jīng)訓(xùn)練好的語言模型的基礎(chǔ)上,加入少量的task-specific parameters, 例如對于分類問題在語言模型基礎(chǔ)上加一層softmax網(wǎng)絡(luò),然后在新的語料上重新訓(xùn)練來進行fine-tune。

又比如,針對實體識別,fine-tuning的方式就是在語言模型的基礎(chǔ)上加一層CRF層,并在實體標(biāo)注的訓(xùn)練語料重新訓(xùn)練模型。

首先語言模型采用了Transformer Decoder的方法來進行訓(xùn)練,采用文本預(yù)測作為語言模型訓(xùn)練任務(wù),訓(xùn)練完畢之后,加一層Linear Project來完成分類/相似度計算等NLP任務(wù)。因此總結(jié)來說,LM + Fine-Tuning的方法工作包括兩步:(1)構(gòu)造語言模型,采用大的語料A來訓(xùn)練語言模型(2)在語言模型基礎(chǔ)上增加少量神經(jīng)網(wǎng)絡(luò)層來完成specific task例如序列標(biāo)注、分類等,然后采用有標(biāo)記的語料B來有監(jiān)督地訓(xùn)練模型,這個過程中語言模型的參數(shù)并不固定,依然是trainable variables.


2. Transformer

2.1 什么是Transformer

個人理解:一個解決長期依賴的,不依賴順序的,并行的特征抽取器。

Transformer中拋棄了傳統(tǒng)的CNN和RNN,整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由Attention機制組成。更準(zhǔn)確地講,Transformer由且僅由self-Attention和Feed Forward Neural Network組成。

采用Attention機制的原因是考慮到RNN(或者LSTM,GRU等)的計算限制為是順序的,也就是說RNN相關(guān)算法只能從左向右依次計算或者從右向左依次計算,這種機制帶來了兩個問題:(1)時間片 t的計算依賴 t-1時刻的計算結(jié)果,這樣限制了模型的并行能力;(2)順序計算的過程中信息會丟失,盡管LSTM等門機制的結(jié)構(gòu)一定程度上緩解了長期依賴的問題,但是對于特別長期的依賴現(xiàn)象,LSTM依舊無能為力。

首先它使用了Attention機制,將序列中的任意兩個位置之間的距離是縮小為一個常量;其次它不是類似RNN的順序結(jié)構(gòu),因此具有更好的并行性,符合現(xiàn)有的GPU框架。

Transformer的本質(zhì)上是一個Encoder-Decoder的結(jié)構(gòu),可以按下圖結(jié)構(gòu)進行理解:


Encoder-Decoder結(jié)構(gòu)

如論文中所設(shè)置的,編碼器由6個編碼block組成,同樣解碼器是6個解碼block組成。與所有的生成模型相同的是,編碼器的輸出會作為解碼器的輸入,如下圖所示:


encoder-decoder交互

在Transformer的encoder中,數(shù)據(jù)首先會經(jīng)過一個叫做‘self-attention’的模塊得到一個加權(quán)之后的特征向量 Z ,這個 Z 便是論文公式1中的 [公式1] :


特征向量z

得到 [公式1]之后,它會被送到encoder的下一個模塊,即Feed Forward Neural Network。這個全連接有兩層,第一層的激活函數(shù)是ReLU,第二層是一個線性激活函數(shù),可以表示為:

Feed Forward Neural Network

在最底層的block中,x將直接作為Transformer的輸入,而在其他層中,輸入則是上一個block的輸出。

x在第一層encoder直接作為輸入

Decoder的結(jié)構(gòu)如下圖所示,它和encoder的不同之處在于Decoder多了一個Encoder-Decoder Attention,兩個Attention分別用于計算輸入和輸出的權(quán)值:Self-Attention:當(dāng)前翻譯和已經(jīng)翻譯的前文之間的關(guān)系;Encoder-Decoder Attention:當(dāng)前翻譯和編碼的特征向量之間的關(guān)系。

2.2 Self-Attention

Self-Attention是Transformer最核心的內(nèi)容,其核心內(nèi)容是為輸入向量的每個單詞學(xué)習(xí)一個權(quán)重

權(quán)重學(xué)習(xí)示意圖

在self-attention中,每個單詞有3個不同的向量,它們分別是Query向量( Q),Key向量( K )和Value向量(V),長度均是64。它們是通過3個不同的權(quán)值矩陣由嵌入向量 [公式] 乘以三個不同的權(quán)值矩陣 W(q),W(k),W(v)得到,其中三個矩陣的尺寸也是相同的。均是 512*64。


具體步驟


self-attention單個Query計算流程


self-attention整體結(jié)構(gòu)

Multi-Head Attention:Multi-Head Attention相當(dāng)于h個不同的self-attention的集成(ensemble),在這里我們以h=8舉例說明。Multi-Head Attention的輸出分成3步:

將數(shù)據(jù)X分別輸入到圖13所示的8個self-attention中,得到8個加權(quán)后的特征矩陣:

特征矩陣

將8個Z(i)按列拼成一個大的特征矩陣;特征矩陣經(jīng)過一層全連接后得到輸出Z 。


Multi-Head Attention

2.3?Position Embedding

截止到已經(jīng)介紹的模塊,Transformer模型并還沒有具備捕捉順序序列的能力,也就是說無論句子的結(jié)構(gòu)怎么打亂,Transformer都會得到類似的結(jié)果。Transformer目前只是一個功能更強大的詞袋模型而已。

為了解決這個問題,論文中在編碼詞向量時引入了位置編碼(Position Embedding)的特征。具體地說,位置編碼會在詞向量中加入了單詞的位置信息,這樣Transformer就能區(qū)分不同位置的單詞了。通過下圖編碼公式進行位置編碼。

編碼公式

根據(jù)一下兩個正余弦公式原理? ,這為模型捕捉單詞之間的相對位置關(guān)系提供了保障。

正余弦公式原理

2.4 Summary


Transformer整體網(wǎng)絡(luò)結(jié)構(gòu)

decoder解碼之后,解碼的特征向量經(jīng)過一層激活函數(shù)為softmax的全連接層之后得到反映每個單詞概率的輸出向量。此時便可以通過CTC等損失函數(shù)訓(xùn)練模型了。

而一個完整可訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)便是encoder和decoder的堆疊,如左圖完整的Transformer的結(jié)構(gòu)。

Transformer本質(zhì)上也只是一個全連接(或者是一維卷積)加Attention的結(jié)合體。

Transformer的設(shè)計最大的帶來性能提升的關(guān)鍵是將任意兩個單詞的距離是1,這對解決NLP中棘手的長期依賴問題是非常有效的。

Transformer失去的位置信息其實在NLP中非常重要,且捕捉局部特征的能力比較缺失,而論文中在特征向量中加入Position Embedding也只是一個權(quán)宜之計。

Transformer是第一個用純attention搭建的模型(特征抽取器),不僅計算速度更快,在翻譯任務(wù)上獲得了更好的結(jié)果,也為后續(xù)的BERT模型做了鋪墊。

論文參考

Reference:

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[2] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

[3] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[5]Peters, Matthew, et al. "Semi-supervised sequence tagging with bidirectional language models."Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2017.

[6]Peters M, Neumann M, Iyyer M, et al. Deep Contextualized Word Representations[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018, 1: 2227-2237.

[7]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. URL?https://s3-us-west-2. amazonaws. com/openai-assets/research-covers/language-unsupervised/language_ understanding_paper. pdf, 2018.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[9]Pre-training of Deep Bidirectional Transformers for Language Understanding

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容