論文:

論文題目:《An Input-aware Factorization Machine for Sparse Prediction》
論文地址:https://www.ijcai.org/proceedings/2019/0203.pdf
有很多工作是對FM進行改進,之前有過AFM,F(xiàn)FM以及各自對FM魔改對工作,但是沒有工作對樣本感知的FM進行探討,今天我們就來看一下這篇關(guān)于樣本感知的FM。
一 、背景
1.1 FM介紹
FM(Factorization Machine),因子分解機,在廣告和推薦領(lǐng)域都發(fā)揮著至關(guān)重要的作用,它可以顯式的構(gòu)建二階交叉的特征,F(xiàn)M的公式如下:

可以看到,F(xiàn)M通過內(nèi)積的方式計算每個feature pair的weight,通過優(yōu)化,fm可以改寫為:

據(jù)我所知,在某短視頻公司,推薦跟廣告業(yè)務(wù)線的排序模型都是lr+fm+dnn的類似結(jié)構(gòu),足見fm在整個推薦/廣告領(lǐng)域的重要性。
1.2 FM的缺陷
在FM的公式里,我們可以看到,不同特征pair之間計算weight的時候使用的是同一個v,也就是無論樣本如何變化,兩個特征之間計算內(nèi)積作為weight的v都是同一個,這種方式很簡單有效,但是我們知道簡單有效的東西總是伴隨著一些缺陷。
FM的一個缺陷在于沒辦法針對每一條樣本來構(gòu)建獨有的特征權(quán)值,舉個論文中的例子來看,如果有一條樣本長這樣:<年輕,女性,學(xué)生,喜歡粉色>,target item是連衣裙,那么這一條樣本都對整個target item具備比較大的作用,比如說女性整個特征,跟連衣裙交叉就應(yīng)該獲得比較大的權(quán)值。我們接著來看另一條樣本:<年輕,女性,學(xué)生,喜歡藍色>,target item是筆記本,這個時候女性這個特征對于筆記本這個item就不應(yīng)該賦予很大的權(quán)值。
通過上面的例子,我想你應(yīng)該大概知道了,每一條樣本中的每個特征都應(yīng)該具備自己對于target item所具備的權(quán)值,也就是通過不同特征組成的樣本對于FM中兩個向量計算內(nèi)積的weight不應(yīng)該相同。
所以IFM(Input-aware Factorization Machines)對于FM進行了改進,也就是讓FM變成了樣本感知的FM模型
二、IFM模型

我們先看一下IFM的公式:

可以看到在計算內(nèi)積和一階lr的時候多了個x這個東西,這就意味著每個樣本的v都是自己獨有的,盡管兩條樣本都具備相同的特征,比如之前說的女性這個特征,那么他們具備各自的權(quán)值,并且用這個權(quán)值的作用在原始的embedding v上面,具體而言是:

其中就是樣本x在特征i上的權(quán)值,這下我們就明白了,整個IFM都是圍繞著計算這個m去的。
Factor Estimating Network
我們觀察上面的網(wǎng)絡(luò),在結(jié)合下面的計算公式,相信你很快就能理解了:


其中Vx,就是把所有的非零的特征的embedding concat出來,然后送DNN,在送softmax就得到了最后的m,注意,這里用h(非零特征的總數(shù))來進行scale,也就是起到了放大的作用,這里公式應(yīng)該寫錯了,上面應(yīng)該是i不是d。
三、實驗結(jié)果


我對于該論文沒有啥特別覺得經(jīng)驗的地方,自我感覺IFM是在FM的修修補補,與其說是樣本感知的FM模型,不如說是特征組合方式的感知FM模型,不同的特征組合會導(dǎo)致不同的m,其實可以在這里用attention來做?