
今天給大家介紹的是阿里在WSDM21上發(fā)表的一篇文章,題目為《Multi-Interactive A ention Network for Fine-grained Feature Learning in CTR Prediction》,通過多交互注意力網(wǎng)絡,建模了用戶維度,上下文維度,行為序列維度等細粒度特征與候選物品的相關(guān)性,一起來看下。
1、背景
利用用戶歷史行為序列來挖掘用戶興趣,在CTR預估中是一種比較常用的方法,如阿里提出的DIN和DIEN。但過往的方法主要將重點放在建模用戶歷史行為序列中物品與候選物品之間的關(guān)系,對于用戶信息,上下文信息很少關(guān)注??赡艽嬖谝韵氯矫娴膯栴}:
1)大多數(shù)現(xiàn)有的方法主要從用戶歷史行為中挖掘用戶的興趣,但用戶經(jīng)常會有與過往行為不同的新的需求出現(xiàn);
2)部分用戶的歷史行為大都發(fā)生在很久以前,而近期行為較少,僅僅依賴于歷史行為建模容易推薦出與用戶當前興趣不符的“過時”的物品;
3)上下文因素同樣重要,如在夏天相較于冬天,T恤更容易被進行推薦。因此上下文因素和候選物品的特征交互同樣需要考慮。
上述所說的三點問題可以由下圖表示:

但幸運的是,在大多數(shù)推薦系統(tǒng)中,有眾多的用戶特征和上下文特征可以挖掘,使用這些特征可以有效緩解上述的問題,特別是當用戶歷史行為較少的情況下。如上圖中,如果候選物品是機械鍵盤,這與用戶當前的職業(yè)“程序員”可能較為匹配,但從用戶歷史行為中可能難以發(fā)現(xiàn)這一點。
基于上述問題和討論,論文提出了Multi-Interactive Attention Network (MIAN),一起來看一下。
2、MIAN模型介紹
2.1 整體框架

MIAN的整體架構(gòu)如下圖所示,主要包含三部分,分別是Embedding Layer、Multi-Interactive Layer和Prediction Layer,接下來將分別進行介紹。
2.2 Embedding Layer
模型的輸入特征主要包含四個方面,分別是候選物品特征、用戶歷史行為序列、用戶特征和上下文特征。原始輸入特征主要是離散特征,經(jīng)過Embedding layer轉(zhuǎn)換為對應的embedding。
經(jīng)過轉(zhuǎn)換后,候選物品特征、用戶歷史行為序列、用戶特征和上下文特征分別表示為ei,eb,eu,ec。其中,eb,eu,ec的具體表示如下:


上式中,T表示用戶歷史行為序列的長度,J和K分別表示用戶特征和上下文特征中field的個數(shù)。
2.3 Multi-Interactive Layer
這一層是論文的重點,也是主要的創(chuàng)新點所在。Multi-Interactive Layer包含四個單獨的模塊。
Item-Behaviors Interaction Module (IBIM)
這一模塊主要是建模候選物品與用戶歷史行為序列中物品的關(guān)系。其結(jié)構(gòu)如下:

IBIM模塊主要包含兩部分,首先是一層Pre-LN Transformer,將用戶歷史行為序列中的每個物品向量轉(zhuǎn)換為對應的hidden state(類似于DIEN中對于用戶興趣的提取,但是Transformer的并行計算可以在一定程度上降低計算耗時),Pre-LN Transformer的block與原始Transformer的block的區(qū)別主要在于將Layer Normalization的計算放在Multi-Head Self-Attention之前,具體的計算過程不再過多介紹。隨后是attention部分,用于計算每一個hidden state與候選物品之間的相關(guān)性,并進行加權(quán)求和得到IBIM模塊的輸出,計算過程如下:



Item-User Interaction Module (IUIM)
如果僅建模歷史行為序列和候選物品的關(guān)系,當用戶行為序列較為少時,難以獲得較為準確的推薦結(jié)果。因此論文近一步顯式建模了用戶特征中每一個field的特征與候選物品的關(guān)系。例如一個新來的用戶,如果是女性,則化妝品可能有更高的被推薦概率,如果是男性,則球鞋等有更高的被推薦可能性。這里個人感覺IUIM模塊與下述的ICIM模塊在一定程度上也能解決冷啟動的問題。
IUIM模塊的結(jié)構(gòu)如下:

IUIM模塊主要過程是計算候選物品與用戶每個field特征的相關(guān)性,最后再進行加權(quán)求和,計算過程如下:



Item-Context Interaction Module (ICIM)
ICIM模塊與IUIM模塊結(jié)構(gòu)相同,用于顯式建模上下文特征中每一個field的特征與候選物品的相關(guān)性,過程如下:

Global Interaction Module (GIM)
經(jīng)過上述三個模塊,已經(jīng)獲得了7部分的特征表示,分別是候選物品特征表示、用戶歷史行為序列特征表示、用戶特征表示和上下文特征表示,以及IBIM、IUIM和ICIM三個模塊輸出的特征表示。前四個可以看作是低階特征表示,后三個可以看作是高階特征表示。DCN論文中表明,顯式建模低階特征和高階特征的交互,可以有效提升CTR預估效果。因此借鑒此思想,論文近一步增加了GIM模塊,來顯式建模低階特征和高階特征的關(guān)系,結(jié)構(gòu)如下:

具體的計算如下:


其中,L是rg的特征總數(shù),并非是7。最終得到的Rg作為Prediction Layer的輸入。
2.4 Prediction Layer
Prediction Layer不用過多介紹,是多層全連接神經(jīng)網(wǎng)絡,最終的損失函數(shù)為logloss。

3、實驗結(jié)果
最后來簡單看下實驗結(jié)果,論文對比了MIAN和部分baseline模型在公開數(shù)據(jù)集和工業(yè)數(shù)據(jù)集上的離線效果,以及MIAN的線上效果,具體結(jié)果如下:


好了,論文就簡單介紹到這里,想要了解更多具體細節(jié)的同學,可以參考原文。下載地址為:https://arxiv.org/abs/2012.06968。