一起看論文:Stochastic Answer Networks for Natural Language Inference

論文鏈接:https://arxiv.org/abs/1804.07888

????????這篇論文提出了處理自然語言推理任務(wù)的SAN模型(隨機(jī)答案模型),在沒有用預(yù)訓(xùn)練模型構(gòu)造句子特征的情況下(也就是說沒有用ELMo、Bert、MT-DNN、XLNet這些開了掛的預(yù)訓(xùn)練模型的情況下),該模型是state-of-the-art的自然語言推理模型。當(dāng)然,Bert、MT-DNN、ALNet都陸續(xù)刷榜了各種自然語言處理任務(wù),包括自然語言推理。

????????首先說一下什么自然語言推理任務(wù)。簡單來說就是判斷兩個句子之間有什么關(guān)系,一般有三種關(guān)系:蘊(yùn)含、矛盾、中立。再解釋一下,就是給出一個前提句子(Premise),比如“John在睡覺”,然后判斷另一個句子(Hypothesis),如“他轉(zhuǎn)過頭發(fā)現(xiàn)John在睡覺”,是否對應(yīng)這個前提句子。那么結(jié)果可以有三種:對應(yīng)(蘊(yùn)含)、不對應(yīng)(相矛盾)、無關(guān)的(中立)。顯然在這個例子里,Hypothesis是支持Premise的。

????我們直接來看SAN是怎樣的:

自然語言推理的SAN模型

????????首先,是詞匯層面上對Hypothesis和Premise進(jìn)行編碼。把句子的詞向量和字符向量拼接在一起。由于此時每個單詞的向量維度不一樣,所以還要輸入基于位置的兩層全連接網(wǎng)絡(luò),這樣一來,每個單詞的向量維度就一致了。(這一點詳細(xì)可看Stochastic Answer Networks for Machine Reading Comprehension這篇論文。)

????????然后,輸入BiLSTM,把兩層LSTM隱藏層拼接得到與上下文有關(guān)的詞向量。除此之外,把它們輸入一層神經(jīng)網(wǎng)絡(luò),兩邊都得到一個句向量,然后利用這兩個句向量得到注意力矩陣,注意力機(jī)制采用像Transfomer一樣的點積注意力機(jī)制(Query、Key、Value)。

????????有了注意力矩陣,我們把剛才由BiLSTM隱藏層拼接得到的詞向量乘以注意力矩陣,輸出再與該詞向量拼接。這樣就把有用的信息都集合在一起。

????????記憶層是把上一層的向量輸入一個新的BiLSTM。在Premise這邊,還要輸入一層GRU,GRU的第一個狀態(tài)是用左邊Hypothesis的Memory隱藏層的加權(quán)求和來初始化,權(quán)重是可以學(xué)習(xí)的參數(shù)。每一個GRU狀態(tài)是由上一個GRU輸出和當(dāng)前Premise的Memory隱藏層加權(quán)求和向量決定的。

? ??????????????????????????????????s_{t} =GRU(s_{t-1},x_{t})

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??x_{t} =\sum\nolimits_{j}\beta _{j}M_{j}^P

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?\beta _{j} =softmax(s _{t-1}\theta  _{3}M^p )

????????其中\theta  _{3}是可以學(xué)習(xí)的參數(shù)。每一對s_tx_t都輸入一個分類器得到最后的三種關(guān)系的概率分布。

? ? ? ? ? ? ? ? ? ? ? ?P_t^r=softmax(\theta _4[s_t;x_t;|s_t-x_t|;s_t.x_t])

????????最后的分類答案取決于各個時刻的分類答案概率分布的平均值。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??P^r=avg([P_0^r,P_1^r,...,P_{T-1}^r])

? ? ? ? 你以為這就完了?不不不。所謂隨機(jī)答案模型,還要突出“隨機(jī)”這兩個字。就是隨機(jī)把某些時刻的答案丟棄掉再取概率分布的平均值。這就是自然語言推理的SAN。為什么強(qiáng)調(diào)這是自然語言推理呢?是因為SAN本來用于機(jī)器閱讀理解的,這里的SAN是機(jī)器閱讀理解的SAN變形,以適用于自然語言推理任務(wù)。

閱讀理解的SAN模型論文鏈接:https://arxiv.org/pdf/1712.03556.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容