1. 思考兩個問題
目錄:
- 分析sgd為什么沒有提升
- 對照英豪的文檔,推論細(xì)節(jié)
1. 分析sgd為什么沒有提升
下面將從兩個方面來探討
- 首先傳統(tǒng)模型是有解釋性的,那么可以從這方面挖掘一下為什么沒有提升嗎?
- 那么是否數(shù)據(jù)集有影響呢?
先說結(jié)論:
- 矩陣分解解釋性并不強(qiáng),因此這條路不行
- 數(shù)據(jù)集可能有影響,但還未實驗驗證
-
首先傳統(tǒng)模型是有解釋性的,那么可以從這方面挖掘一下為什么沒有提升嗎?
參考文章,分別對應(yīng)下面的 1 , 2 , 3 點(diǎn):
- 那么是否數(shù)據(jù)集有影響呢?
-
可以嘗試其他數(shù)據(jù)集,如
- FilmTrust 是一個基于信任關(guān)系的電影推薦網(wǎng)站,用戶能夠依據(jù)自身偏好對電影做出評分,同時構(gòu)建單向信任關(guān)系
- Ciao 數(shù)據(jù)集(http://www.jiliang.xyz/trust.html)由 Tang 等人于物品評論網(wǎng)站 Ciao 收集所得
- Epinions 數(shù)據(jù)集(http:// www.trustlet.org/downloaded epinions.html)
- Douban 數(shù)據(jù)集(https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban)
-
數(shù)據(jù)集中,用戶們不同社交關(guān)系強(qiáng)度,具體驗證方式參考:融合社交信息的矩陣分解推薦方法研究綜述
-
數(shù)據(jù)集中,不同的用戶可以被用來進(jìn)一步提高推薦質(zhì)量嗎?
- 需要進(jìn)一步論證
2. 對照英豪的文檔,推論細(xì)節(jié)
看了之后,我在想我之前得出來的結(jié)果是否有細(xì)節(jié)含在其中呢,那么下面就是我的一些想法。
先說結(jié)論:
添加相似度后,模型的泛化能力進(jìn)一步提高,不容易過擬合。就是說長期收益增加了。
2.1 SGD的對比結(jié)果及總結(jié)想法
下面表格是對比結(jié)果,模型共兩個:baseline 和 添加相似度的 SGD
- 名詞解釋:
- Iteration:迭代次數(shù)
- train_mse:訓(xùn)練集訓(xùn)練時的 MSE
- test_mse:測試集測試時的 MSE
| 原SGD | Iteration | train_mse | test_mse | 加用戶相似度SGD | Iteration | train_mse | test_mse | train_mse 對比提升 | test_mse對比提升 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1.141784386 | 1.188415965 | 1 | 13.67562 | 14.20713 | -1097.74% | -1095.47% | ||
| 10 | 0.917914525 | 1.011238497 | 10 | 6.573647 | 9.61891 | -616.15% | -851.20% | ||
| 25 | 0.866157052 | 0.963646883 | 25 | 1.179691 | 1.99135 | -36.20% | -106.65% | ||
| 50 | 0.838677125 | 0.943052707 | 50 | 0.891645 | 1.107708 | -6.32% | -17.46% | ||
| 100 | 0.754480384 | 0.924777349 | 100 | 0.76197 | 0.948601 | -0.99% | -2.58% | ||
| 200 | 0.402944841 | 0.917382603 | 200 | 0.514333 | 0.898999 | -27.64% | 2.00% | ||
從表格中可以得到的信息是,在隨著訓(xùn)練迭代次數(shù)的增加,添加相似度的 SGD 算法與原本未加相似度的 SGD 算法的差距一直再減少,并最終在迭代次數(shù)為 200 時,test_mse 的結(jié)果比未加的提升了。
我想的是,這結(jié)果表明添加相似度后,模型的泛化能力進(jìn)一步提高,不容易過擬合。



