插插色欲网,日本三区二区,东京热日韩精品无码

點這里排版好

新年第一天更博顯得很有 儀式感（破音~） （雖然已經(jīng)斷更一個月了捂臉）
祝各位NLPer, 各位dalao 在新的一年里靈感爆棚投的offer全中萬肆如意新年玉快

新年第一天日常網(wǎng)上沖浪竟然發(fā)現(xiàn)MRFN終于被放出來了啊啊啊~~

這篇論文我從去年十月一直等到現(xiàn)在

在這期間中不乏有Bert這種神器爆出來

但并沒有打消我對這篇SOTA的期待

IMN 則是上個月中科院幾位博士在arXiv在線發(fā)表的一篇論文主要是被數(shù)據(jù)嚇壞了有、厲害??

粗粗看可能覺得這兩篇文章沒什么關(guān)系一個是多粒度fusion 一個是類似于Bert的深層次網(wǎng)絡(luò)處理

但仔細思考 IMN dot 之后的結(jié)構(gòu)與MRFN的FLS有異曲同工的作用 不負責的猜測 FLS的設(shè)計思路會成為今后一段時間follow的點

PS: 以上兩篇paper 都承諾開源code ~~(雖然repository里面都沒有code??)~~ 之后會跟一下code 看一下具體效果

概括一下 MRFN

在原來SMN DAM 兩粒度基礎(chǔ)上提出三粒度6種表示

提出多表示匹配-合并(Matching-Aggregation)的三種策略

使用大量實驗驗證各個表示的作用，驗證context輪次、平均對話長度變化時各個表示的作用情況

提出的多表示匹配-合并策略可推廣到其他模型并在SMN中進行試驗

比DAM快1.9x的訓練速度

IMN

EMbedding層加入character-EMbedding 解決OOV

EMbedding層后接類似ELMo思路的BiLSTM(paper中這個結(jié)構(gòu)最work)

dot之后做兩個粒度的分析

`MRFN`

MRFN = Multi-Representation Fusion Network

MRFN是嚴睿老師組里陶重陽博士，小冰組徐粲學長，武威dalao去年的工作論文發(fā)表在WSDM2019上

全文看下來包括Motivation，實驗設(shè)計都給我一種很舒服的感覺感覺一切都順理成章一氣呵成

事實上去年十月底在EMNLP2018的tutorial上嚴老師和武威dalao就已經(jīng)把MRFN的結(jié)果秀出來了

之后徐學長回來分享的時候也提到這篇論文但論文一直沒放出來

`Motivation`

這篇文章的Motivation是建立在最近幾年多輪檢索式對話基于的面向交互的思想

回想一下從Multi-view引入交互，到SMN完全基于交互，再到DAM多層交互

交互的粒度越多越work已經(jīng)是大家的共識了

但如何更好的設(shè)計各個粒度之間的層次關(guān)系減少不必要的性能浪費

作者提出把粒度劃分為word, short-term, long-term三個粒度6種表示

Word
- character EMbedding: 利用字符級別的CNN（n-gram）解決typos/OOV的問題
  - 思路和小夕dalao總結(jié)的調(diào)小fastText窗口大小解決OOV思路一致
- Word2Vec: 這里很簡單的用了word2Vec 很顯然用ELMo Bert等會有更好的效果當然效率上面就不太劃算
Contextual
- Sequential: 借用GRU的結(jié)構(gòu)實現(xiàn)句子中間子串信息的獲取
  - RNN能保留短距離詞之間的關(guān)系相對于sub-sequential
- Local: 利用CNN獲取N-gram的信息
  - CNN中卷積和池化相對于獲取中心詞周圍N-gram的信息
Attention-based
- self-Attention
- cross-Attention

`Model`

但怎么把這些粒度有效的融合在一起

回想一下SMN在CNN之后才將word和short-term兩個粒度的信息融合在一起

image

很自然的想到如果在之前/之后做fuse效果會怎么樣？

這個思路就很像NIPS14年那篇討論是應(yīng)該先dot還是應(yīng)該先做CNN的paper

作者就提出前中后三種fusion策略

image

其中左側(cè)是之前設(shè)計的6鐘表示

U->U*的過程是簡單的把多個矩陣拼接成一個矩陣

$U^*_i \in R^{d^* \times n_i}(d^*=\sum d_k)$

而fusion則是利用類似CNN的公式

$t_{i,j}=f(\hat{e_{i,j}},\bar{e_{i,j}})=ReLU(W_p[(\hat{e_{i,j}}-\bar{e_{i,j}}) \odot \hat{e_{i,j}}-\bar{e_{i,j}});\hat{e_{i,j}} \odot \bar{e_{i,j}}]+b_p)$