周論文速讀(一)

一、QMUL-SDS at CheckThat! 2020: Determining COVID-19 Tweet Check-Worthiness Using an Enhanced CT-BERT with Numeric Expressions

這是一篇比賽分享類的論文,介紹了QMUL SDS隊參與CLEF 2020 任務(wù)1比賽的經(jīng)驗(yàn)。這項任務(wù)的目的是確定確定Covid-19的推文的真實(shí)性需要被核查的優(yōu)先級。該任務(wù)設(shè)立的目標(biāo)是為了保護(hù)公眾免受假新聞的侵害,并幫助人們獲取可靠的信息。論文使用了一種數(shù)字表達(dá)式增強(qiáng)的Covid Twitter-BERT(CT-BERT)的CNN,實(shí)驗(yàn)結(jié)果表明,該方法可以有效地提高基線結(jié)果的性能。

論文的任務(wù)其實(shí)就是一個推特發(fā)帖檢測是否是假新聞的一個二分類,論文的主體模型就是BERT+CNN,BERT在任務(wù)數(shù)據(jù)集上進(jìn)行了再次預(yù)訓(xùn)練

論文對他們在比賽中使用的各種trick和實(shí)際取得的效果進(jìn)行了介紹,主要使用了以下幾種操作:

  • 對特文中的賬號、標(biāo)簽、URLs和數(shù)字用特殊標(biāo)簽代替
  • 對一些詞進(jìn)行表達(dá)的歸一化
  • 引入外部數(shù)據(jù)集
論文中做了下面幾種實(shí)驗(yàn)
  • 驗(yàn)證集上的效果圖:
  • 測試集上的效果圖

其他思路沒什么好介紹的,主要是模型1、2和3的思路,模型1的思路各種trick都用,但是可以看出在驗(yàn)證集上效果好,測試集上差,作者認(rèn)為可能是泛化的原因。模型2是僅將數(shù)字進(jìn)行特殊標(biāo)簽化,其他直接從文本中刪除。

將數(shù)字特征符號化的有效性其實(shí)看模型6和模型8的對比更能看出來

最后模型3是將外部數(shù)據(jù)集中的負(fù)樣本引入,作者發(fā)現(xiàn)僅引入負(fù)樣本比全部數(shù)據(jù)引入效果更好,估計提升更多來自分布的平衡而不是數(shù)據(jù)本身

任務(wù)數(shù)據(jù)集CLEF和外部數(shù)據(jù)


二、 Embedding-based Retrieval Facebook Search

這篇各種公眾號上已經(jīng)看過了,所以基本就是掃了一下原文復(fù)習(xí)一下

相對于傳統(tǒng)的網(wǎng)頁搜索,社交網(wǎng)絡(luò)中的搜索問題不僅需要關(guān)注輸入 query 的信息,還需要考慮用戶的上下文信息,在 Facebook 搜索場景中用戶的社交圖網(wǎng)絡(luò)便是這種上下文信息中非常重要的一部分。

怎么把各式各樣的信息進(jìn)行融合呢?

雖然語義檢索技術(shù)(Embedding-based Retrieval,EBR)在傳統(tǒng)的搜索引擎中得到了廣泛應(yīng)用,但是 Facebook 搜索之前主要還是使用布爾匹配模型,本文就來談?wù)勅绾螌?Embedding 檢索技術(shù)應(yīng)用在 Facebook 搜索場景中。

文中共介紹了三方面的經(jīng)驗(yàn):

  1. 提出了一套統(tǒng)一的 embedding 框架用于建模個性化搜索中的語義
  2. 提出了基于經(jīng)典的倒排索引進(jìn)行在線 embedding 檢索的系統(tǒng)
  3. 討論了整個個性化搜索系統(tǒng)中很多端對端的優(yōu)化技巧,例如最近鄰搜索調(diào)參經(jīng)驗(yàn)、全鏈路優(yōu)化等

最后,在Facebook 垂直搜索場景下驗(yàn)證了本文方法的有效性,在線上 A/B 實(shí)驗(yàn)取得了顯著的收益。


三、MarkedBERT: Integrating Traditional IR Cues in Pre-trained Language Models for Passage Retrieval

如果看過Matching the Blanks: Distributional Similarity for Relation Learning和R-BERT論文的話,估計就覺得論文挺水的了,就是在原來做bert的基礎(chǔ)上,把query和Doc共現(xiàn)的term兩邊加上特殊符號。

  • 基礎(chǔ)的BERT做法:
  • MarkedBERT:
Training過程設(shè)置

BERT模型為12層的base模型,訓(xùn)練的batch_size為32,最大長度為512,使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)為3e?6,并且線性衰減,Dropout Rate為0.1,模型最終訓(xùn)練2個epoch。避免模型偏向于預(yù)測不相關(guān)的標(biāo)簽,對數(shù)據(jù)集進(jìn)行采樣,平衡相關(guān)與不相關(guān)的q-p pair對比例。

實(shí)驗(yàn)結(jié)果
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容