Deep Interest Network for Click-Through Rate Prediction
1. Motivation
本文是阿里媽媽發(fā)表在KDD18上的論文,最主要的貢獻表現(xiàn)在對于用戶的輸入行為序列與當前要打分的target item之前進行attention操作,對輸入行為序列進行加權(quán)求和得到user的個性化的向量表示。
Motivation就是作者注意到用固定的embedding來表示user,在面對不同的打分item時不夠靈活,表達能力不足;從而基于與attention類似的方式(與attention不完全相似,主體思想類似)學習user與item之間的顯式交互。
2. DIN

2.1 Attention
看上去很直接,現(xiàn)在基于attention建模用戶行為序列也稱為標配了。與傳統(tǒng)的attention不完全一致,輸出的時候不用softmax對所有item的權(quán)重歸一化。
2.2 Mini-batch Aware Regularization
作者認為傳統(tǒng)的L1或者L2正則化需要對全局的參數(shù)計算,可能涉及到參數(shù)量過大。
是embeding table,
是embedding的維度。作用于
的L2正則表示為,
Mini-batch L2正則表示為,
代表第
個mini-batch,
表示feature id
在全體樣本中出現(xiàn)的次數(shù)。只對每個mini-batch中出現(xiàn)(非零)的參數(shù)做正則化。
這屬于對于大規(guī)模embedding table的正則化工程層面的優(yōu)化實現(xiàn)。
2.3 Data Adaptive Activation Function
PReLU是,
是一個示性函數(shù)。
作者認為PReLU不能適應每一個layer的輸入的分布不同的情形,從而提出了Dice的激活函數(shù),
,
本質(zhì)上對每一個輸入都維護類似Batch LayerNormalization一樣需要記錄的均值與方差,在激活之前進行標準化。
3. Experiment

優(yōu)點:
(1)
現(xiàn)在對于用戶行為序列做attention或者self-attention已經(jīng)成為標配了,阿里媽媽團隊確實思考與行動非常超前。
思考:
(1)對于冷啟動item,或者用戶行為序列里并沒有的興趣、臨時可能迸發(fā)出來的興趣,除了探索(exploitaion),還有沒有更高效的方法?
4. References
[1] Zhou, Guorui, et al. "Deep interest network for click-through rate prediction." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.