論文解讀Adapting Sequence to Sequence models for Text Normalization in Social Media

文章是2019年AAAI錄用的。

介紹

不規(guī)范文本在現(xiàn)實(shí)中是大量存在的,尤其是在社交媒體上產(chǎn)生了大量的非標(biāo)準(zhǔn)語(yǔ)言表達(dá)內(nèi)容。不規(guī)范文本的類型大致分為:

1、誤拼寫(xiě)。例如 defenitely-definitely

2、語(yǔ)音替換 例如 2morrow-tomorrwo

3、縮短 例如 convo-conversation

4、首字母縮略詞 convo-conversation

5、 俚語(yǔ) 例如low key 字面意思是 低鑰匙,但實(shí)際沒(méi)人這么說(shuō),真正意思是 不起眼的、低調(diào)

6、 重點(diǎn)強(qiáng)調(diào) 對(duì)某些詞,全部大寫(xiě),或者元音伸長(zhǎng)? 例如 cooooool-cool

7、標(biāo)點(diǎn)符號(hào)問(wèn)題。比如 doesnt-doesn't?

文本規(guī)范比拼寫(xiě)糾錯(cuò)要難。早期文本規(guī)范依賴基于統(tǒng)計(jì)模型的Pipeline方式,比如字符串相似度匹配、拼寫(xiě)檢查、詞典等。然而語(yǔ)言空間的高維特性(詞可以構(gòu)成任意文本序列)導(dǎo)致了這種方法效率低。

近年來(lái)的工作主要集中在候選詞產(chǎn)生和排序上。但是當(dāng)前工作大多忽略了序列中的上下文信息,

需要人工額外地定義什么是對(duì)的候選詞。

? ? ? 受到神經(jīng)機(jī)器翻譯的啟發(fā),本文提出一種端到端的模型來(lái)解決以上問(wèn)題。為了解決NLP領(lǐng)域常見(jiàn)的OOV問(wèn)題,提出一種混合的端到端模型,考慮了上下文信息。

本文模型包括2個(gè)編碼-解碼模型。第一個(gè)是基于詞的seq2seq模型,用于將詞典里沒(méi)有的詞進(jìn)行轉(zhuǎn)化。然后利用第二個(gè)基于字符的seq2seq模型。

基于詞的seq2seq主模型

給定一個(gè)未被規(guī)范化的序列,X=[x_{1} ,x_{2},...x_{T}],模型最終輸出的是Y={y_{1},y_{2},...,y_{L} }。

編碼模型將序列X轉(zhuǎn)化為隱藏狀態(tài),采用雙向編碼模型。最后的隱藏狀態(tài)是兩個(gè)方向的隱藏狀態(tài)拼接而成。解碼模型根據(jù)前一個(gè)狀態(tài)、注意力向量、前一個(gè)詞進(jìn)行解碼。損失函數(shù)為對(duì)數(shù)損失函數(shù)。

基于字符的二級(jí)編碼-解碼模型來(lái)處理不認(rèn)識(shí)的詞

在文本規(guī)范化任務(wù)中,一個(gè)詞因?yàn)槠磳?xiě)錯(cuò)誤、鍵盤(pán)多敲了幾次,都會(huì)變成一個(gè)訓(xùn)練集中沒(méi)有的詞。有三種方法可以解決這個(gè)問(wèn)題。1、復(fù)制原詞;2、依賴完全基于字符信息訓(xùn)練的模型;3、設(shè)計(jì)基于詞和字符的混合模型。

復(fù)制原詞這種方法很容易想到,但是導(dǎo)致模型的覆蓋范圍會(huì)下降。另一個(gè)方式是提前學(xué)習(xí)子詞的表達(dá)方式,BPE編碼這時(shí)候排上用場(chǎng)。例如,showed可以被劃分為show,ed。然而B(niǎo)PE依賴于共現(xiàn)程度和字符的順序,在我們的場(chǎng)景中這是高噪音的。

基于字符的模型避免了詞典不足的瓶頸,也不需要提前處理,但是計(jì)算代價(jià)高,同時(shí)也收到數(shù)據(jù)稀疏性的影響。CHUNG[2016]、BELINKOW[2017]證明很難處理打字過(guò)程產(chǎn)生的拼寫(xiě)小錯(cuò)誤和噪音。

混合模型 由于有限的訓(xùn)練語(yǔ)料和非標(biāo)準(zhǔn)詞的長(zhǎng)尾性,只用來(lái)訓(xùn)練OOV的詞,效率不高。因此,對(duì)于在詞典里的詞,我們用詞級(jí)別的模型,對(duì)于OOV的詞,我們用字符級(jí)別的編碼-解碼模型,這里用的訓(xùn)練語(yǔ)料為詞對(duì),而非長(zhǎng)文本序列。

對(duì)抗訓(xùn)練增強(qiáng)噪音文本的魯棒性

利用合成的樣本進(jìn)行數(shù)據(jù)增強(qiáng)。對(duì)于所有的<源,目標(biāo)>推特評(píng)論對(duì),保持詞不變。在訓(xùn)練過(guò)程中,加入用6種常見(jiàn)錯(cuò)誤方式形成的噪音數(shù)據(jù)。

實(shí)驗(yàn)

采用的是LexNorm數(shù)據(jù)集、包含4917推特評(píng)論。基線模型為基于詞典的,注意力機(jī)制的詞級(jí)別編碼-解碼模型等幾個(gè)模型。優(yōu)化器為Adam,取得F1值為83.94。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容