亚欧美爱V在线,亚洲最大的色视频,长春免费熟女大片

文章是2019年AAAI錄用的。

介紹

不規(guī)范文本在現(xiàn)實(shí)中是大量存在的，尤其是在社交媒體上產(chǎn)生了大量的非標(biāo)準(zhǔn)語(yǔ)言表達(dá)內(nèi)容。不規(guī)范文本的類型大致分為：

1、誤拼寫(xiě)。例如 defenitely-definitely

2、語(yǔ)音替換例如 2morrow-tomorrwo

3、縮短例如 convo-conversation

4、首字母縮略詞 convo-conversation

5、俚語(yǔ) 例如low key 字面意思是低鑰匙，但實(shí)際沒(méi)人這么說(shuō)，真正意思是不起眼的、低調(diào)

6、重點(diǎn)強(qiáng)調(diào) 對(duì)某些詞，全部大寫(xiě)，或者元音伸長(zhǎng)? 例如 cooooool-cool

7、標(biāo)點(diǎn)符號(hào)問(wèn)題。比如 doesnt-doesn't?

文本規(guī)范比拼寫(xiě)糾錯(cuò)要難。早期文本規(guī)范依賴基于統(tǒng)計(jì)模型的Pipeline方式，比如字符串相似度匹配、拼寫(xiě)檢查、詞典等。然而語(yǔ)言空間的高維特性（詞可以構(gòu)成任意文本序列）導(dǎo)致了這種方法效率低。

近年來(lái)的工作主要集中在候選詞產(chǎn)生和排序上。但是當(dāng)前工作大多忽略了序列中的上下文信息，

需要人工額外地定義什么是對(duì)的候選詞。

? ? ? 受到神經(jīng)機(jī)器翻譯的啟發(fā)，本文提出一種端到端的模型來(lái)解決以上問(wèn)題。為了解決NLP領(lǐng)域常見(jiàn)的OOV問(wèn)題，提出一種混合的端到端模型，考慮了上下文信息。

本文模型包括2個(gè)編碼-解碼模型。第一個(gè)是基于詞的seq2seq模型，用于將詞典里沒(méi)有的詞進(jìn)行轉(zhuǎn)化。然后利用第二個(gè)基于字符的seq2seq模型。

基于詞的seq2seq主模型

給定一個(gè)未被規(guī)范化的序列，X=[ $x_{1} ，x_{2},...x_{T}$ ]，模型最終輸出的是Y={ $y_{1},y_{2},...,y_{L}$ }。

編碼模型將序列X轉(zhuǎn)化為隱藏狀態(tài)，采用雙向編碼模型。最后的隱藏狀態(tài)是兩個(gè)方向的隱藏狀態(tài)拼接而成。解碼模型根據(jù)前一個(gè)狀態(tài)、注意力向量、前一個(gè)詞進(jìn)行解碼。損失函數(shù)為對(duì)數(shù)損失函數(shù)。

基于字符的二級(jí)編碼-解碼模型來(lái)處理不認(rèn)識(shí)的詞

在文本規(guī)范化任務(wù)中，一個(gè)詞因?yàn)槠磳?xiě)錯(cuò)誤、鍵盤(pán)多敲了幾次，都會(huì)變成一個(gè)訓(xùn)練集中沒(méi)有的詞。有三種方法可以解決這個(gè)問(wèn)題。1、復(fù)制原詞；2、依賴完全基于字符信息訓(xùn)練的模型；3、設(shè)計(jì)基于詞和字符的混合模型。

復(fù)制原詞這種方法很容易想到，但是導(dǎo)致模型的覆蓋范圍會(huì)下降。另一個(gè)方式是提前學(xué)習(xí)子詞的表達(dá)方式，BPE編碼這時(shí)候排上用場(chǎng)。例如，showed可以被劃分為show,ed。然而B(niǎo)PE依賴于共現(xiàn)程度和字符的順序，在我們的場(chǎng)景中這是高噪音的。

基于字符的模型避免了詞典不足的瓶頸，也不需要提前處理，但是計(jì)算代價(jià)高，同時(shí)也收到數(shù)據(jù)稀疏性的影響。CHUNG[2016]、BELINKOW[2017]證明很難處理打字過(guò)程產(chǎn)生的拼寫(xiě)小錯(cuò)誤和噪音。

混合模型由于有限的訓(xùn)練語(yǔ)料和非標(biāo)準(zhǔn)詞的長(zhǎng)尾性，只用來(lái)訓(xùn)練OOV的詞，效率不高。因此，對(duì)于在詞典里的詞，我們用詞級(jí)別的模型，對(duì)于OOV的詞，我們用字符級(jí)別的編碼-解碼模型，這里用的訓(xùn)練語(yǔ)料為詞對(duì)，而非長(zhǎng)文本序列。

對(duì)抗訓(xùn)練增強(qiáng)噪音文本的魯棒性

利用合成的樣本進(jìn)行數(shù)據(jù)增強(qiáng)。對(duì)于所有的<源，目標(biāo)>推特評(píng)論對(duì)，保持詞不變。在訓(xùn)練過(guò)程中，加入用6種常見(jiàn)錯(cuò)誤方式形成的噪音數(shù)據(jù)。

實(shí)驗(yàn)

采用的是LexNorm數(shù)據(jù)集、包含4917推特評(píng)論。基線模型為基于詞典的，注意力機(jī)制的詞級(jí)別編碼-解碼模型等幾個(gè)模型。優(yōu)化器為Adam，取得F1值為83.94。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文解讀Adapting Sequence to Sequence models for Text Normalization in Social Media

論文解讀Adapting Sequence to Sequence models for Text Normalization in Social Media

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文解讀Adapting Sequence to Sequence models for Text Normalization in Social Media

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av