欧美久久在线,韩国久久中文字幕,久久久这里是精品

最近在工作中用bert做了不少NLP的算法任務(wù)，但是對bert的前世今生總感覺了解不夠深入，通過開源社區(qū)的知識分享和原始論文的研讀，做了以下學(xué)習(xí)筆記，結(jié)合工作中遇到場景，爭取做到溫故知新：

博客來源：【1】http://jalammar.github.io/illustrated-transformer/

? ? ? ? ? ? ? ? ? 【2】https://zhuanlan.zhihu.com/p/48508221

? ? ? ? ? ? ? ? ? 【3】https://zhuanlan.zhihu.com/p/46833276

1. Language Model

語言模型來輔助NLP任務(wù)已經(jīng)得到了學(xué)術(shù)界較為廣泛的探討，通常有兩種方式：

1.1 Feature-based方法

Feature-based指利用語言模型的中間結(jié)果也就是LM embedding, 將其作為額外的特征，引入到原任務(wù)的模型中，例如在下圖中，采用了兩個單向RNN構(gòu)成的語言模型，將語言模型的中間結(jié)果

引入到序列標(biāo)注模型中，如下圖所示，其中左邊部分為序列標(biāo)注模型，也就是task-specific model，每個任務(wù)可能不同，右邊是前向LM(Left-to-right)和后向LM(Right-To-Left), 兩個LM的結(jié)果進行了合并，并將LM embedding與詞向量、第一層RNN輸出、第二層RNN輸出進行了concat操作。

Feature-based

1.2 Fine-tuning方法

Fine-tuning方式是指在已經(jīng)訓(xùn)練好的語言模型的基礎(chǔ)上，加入少量的task-specific parameters, 例如對于分類問題在語言模型基礎(chǔ)上加一層softmax網(wǎng)絡(luò)，然后在新的語料上重新訓(xùn)練來進行fine-tune。

又比如，針對實體識別，fine-tuning的方式就是在語言模型的基礎(chǔ)上加一層CRF層，并在實體標(biāo)注的訓(xùn)練語料重新訓(xùn)練模型。

首先語言模型采用了Transformer Decoder的方法來進行訓(xùn)練，采用文本預(yù)測作為語言模型訓(xùn)練任務(wù)，訓(xùn)練完畢之后，加一層Linear Project來完成分類/相似度計算等NLP任務(wù)。因此總結(jié)來說，LM + Fine-Tuning的方法工作包括兩步：（1）構(gòu)造語言模型，采用大的語料A來訓(xùn)練語言模型（2）在語言模型基礎(chǔ)上增加少量神經(jīng)網(wǎng)絡(luò)層來完成specific task例如序列標(biāo)注、分類等，然后采用有標(biāo)記的語料B來有監(jiān)督地訓(xùn)練模型，這個過程中語言模型的參數(shù)并不固定，依然是trainable variables.

2. Transformer

2.1 什么是Transformer

個人理解：一個解決長期依賴的，不依賴順序的，并行的特征抽取器。

Transformer中拋棄了傳統(tǒng)的CNN和RNN，整個網(wǎng)絡(luò)結(jié)構(gòu)完全是由Attention機制組成。更準(zhǔn)確地講，Transformer由且僅由self-Attention和Feed Forward Neural Network組成。

采用Attention機制的原因是考慮到RNN（或者LSTM，GRU等）的計算限制為是順序的，也就是說RNN相關(guān)算法只能從左向右依次計算或者從右向左依次計算，這種機制帶來了兩個問題：（1）時間片 t的計算依賴 t-1時刻的計算結(jié)果，這樣限制了模型的并行能力；（2）順序計算的過程中信息會丟失，盡管LSTM等門機制的結(jié)構(gòu)一定程度上緩解了長期依賴的問題，但是對于特別長期的依賴現(xiàn)象,LSTM依舊無能為力。

首先它使用了Attention機制，將序列中的任意兩個位置之間的距離是縮小為一個常量；其次它不是類似RNN的順序結(jié)構(gòu)，因此具有更好的并行性，符合現(xiàn)有的GPU框架。

Transformer的本質(zhì)上是一個Encoder-Decoder的結(jié)構(gòu)，可以按下圖結(jié)構(gòu)進行理解：

Encoder-Decoder結(jié)構(gòu)

如論文中所設(shè)置的，編碼器由6個編碼block組成，同樣解碼器是6個解碼block組成。與所有的生成模型相同的是，編碼器的輸出會作為解碼器的輸入，如下圖所示：

encoder-decoder交互

在Transformer的encoder中，數(shù)據(jù)首先會經(jīng)過一個叫做‘self-attention’的模塊得到一個加權(quán)之后的特征向量 Z ，這個 Z 便是論文公式1中的 [公式1] ：

特征向量z

得到 [公式1]之后，它會被送到encoder的下一個模塊，即Feed Forward Neural Network。這個全連接有兩層，第一層的激活函數(shù)是ReLU，第二層是一個線性激活函數(shù)，可以表示為：

Feed Forward Neural Network

在最底層的block中，x將直接作為Transformer的輸入，而在其他層中，輸入則是上一個block的輸出。

x在第一層encoder直接作為輸入

Decoder的結(jié)構(gòu)如下圖所示，它和encoder的不同之處在于Decoder多了一個Encoder-Decoder Attention，兩個Attention分別用于計算輸入和輸出的權(quán)值：Self-Attention：當(dāng)前翻譯和已經(jīng)翻譯的前文之間的關(guān)系；Encoder-Decoder Attention：當(dāng)前翻譯和編碼的特征向量之間的關(guān)系。

2.2 Self-Attention

Self-Attention是Transformer最核心的內(nèi)容,其核心內(nèi)容是為輸入向量的每個單詞學(xué)習(xí)一個權(quán)重

權(quán)重學(xué)習(xí)示意圖

在self-attention中，每個單詞有3個不同的向量，它們分別是Query向量（ Q），Key向量（ K ）和Value向量（V），長度均是64。它們是通過3個不同的權(quán)值矩陣由嵌入向量 [公式] 乘以三個不同的權(quán)值矩陣 W(q),W(k),W(v)得到，其中三個矩陣的尺寸也是相同的。均是 512*64。

具體步驟

self-attention單個Query計算流程

self-attention整體結(jié)構(gòu)

Multi-Head Attention:Multi-Head Attention相當(dāng)于h個不同的self-attention的集成（ensemble），在這里我們以h=8舉例說明。Multi-Head Attention的輸出分成3步：

將數(shù)據(jù)X分別輸入到圖13所示的8個self-attention中，得到8個加權(quán)后的特征矩陣：

特征矩陣

將8個Z(i)按列拼成一個大的特征矩陣；特征矩陣經(jīng)過一層全連接后得到輸出Z 。

Multi-Head Attention

2.3?Position Embedding

截止到已經(jīng)介紹的模塊，Transformer模型并還沒有具備捕捉順序序列的能力，也就是說無論句子的結(jié)構(gòu)怎么打亂，Transformer都會得到類似的結(jié)果。Transformer目前只是一個功能更強大的詞袋模型而已。

為了解決這個問題，論文中在編碼詞向量時引入了位置編碼（Position Embedding）的特征。具體地說，位置編碼會在詞向量中加入了單詞的位置信息，這樣Transformer就能區(qū)分不同位置的單詞了。通過下圖編碼公式進行位置編碼。

編碼公式

根據(jù)一下兩個正余弦公式原理? ，這為模型捕捉單詞之間的相對位置關(guān)系提供了保障。

正余弦公式原理

2.4 Summary

Transformer整體網(wǎng)絡(luò)結(jié)構(gòu)

decoder解碼之后，解碼的特征向量經(jīng)過一層激活函數(shù)為softmax的全連接層之后得到反映每個單詞概率的輸出向量。此時便可以通過CTC等損失函數(shù)訓(xùn)練模型了。

而一個完整可訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)便是encoder和decoder的堆疊，如左圖完整的Transformer的結(jié)構(gòu)。

Transformer本質(zhì)上也只是一個全連接（或者是一維卷積）加Attention的結(jié)合體。

Transformer的設(shè)計最大的帶來性能提升的關(guān)鍵是將任意兩個單詞的距離是1，這對解決NLP中棘手的長期依賴問題是非常有效的。

Transformer失去的位置信息其實在NLP中非常重要，且捕捉局部特征的能力比較缺失，而論文中在特征向量中加入Position Embedding也只是一個權(quán)宜之計。

Transformer是第一個用純attention搭建的模型（特征抽取器），不僅計算速度更快，在翻譯任務(wù)上獲得了更好的結(jié)果，也為后續(xù)的BERT模型做了鋪墊。

論文參考

Reference：

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[2] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

[3] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[4] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[5]Peters, Matthew, et al. "Semi-supervised sequence tagging with bidirectional language models."Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2017.

[6]Peters M, Neumann M, Iyyer M, et al. Deep Contextualized Word Representations[C]//Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). 2018, 1: 2227-2237.

[7]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. URL?https://s3-us-west-2. amazonaws. com/openai-assets/research-covers/language-unsupervised/language_ understanding_paper. pdf, 2018.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008.

[9]Pre-training of Deep Bidirectional Transformers for Language Understanding

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Bert系列（1）：從語言模型和Transformer開始

Bert系列（1）：從語言模型和Transformer開始

1. Language Model

1.1 Feature-based方法

1.2 Fine-tuning方法

2. Transformer

2.1 什么是Transformer

2.2 Self-Attention

2.3?Position Embedding

2.4 Summary

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Bert系列（1）：從語言模型和Transformer開始

1. Language Model

1.1 Feature-based方法

1.2 Fine-tuning方法

2. Transformer

2.1 什么是Transformer

2.2 Self-Attention

2.3?Position Embedding

2.4 Summary

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av