推薦系統(tǒng)的“前身”
2016年,騰訊以80億美元估值投資今日頭條,結(jié)果大家都知道,張一鳴拒絕了騰訊的投資,現(xiàn)在大家也知道,字節(jié)跳動估值750億美元,這一切,推薦系統(tǒng)功不可沒。
因?yàn)樗阉饕婧屯扑]系統(tǒng)太相似,相對來說也更簡單(盡管噴我就是不改),所以我們先來了解一下搜索引擎。至于搜素引擎是不是推薦系統(tǒng)的前身,我很懶,沒有考察。

如上圖,搜索引擎分成為離線部分和在線部分,每一部分有不同的使命。

簡單來說,搜索引擎的離線部分,專注于內(nèi)容的搜集和處理。搜索引擎通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)站上的原始內(nèi)容,并將內(nèi)容建立索引。這些內(nèi)容會根據(jù)搜索系統(tǒng)的不同要求建立不同的索引體系,比如新聞?lì)愋偷膬?nèi)容,會建立時(shí)效性的索引數(shù)據(jù)。

搜索引擎的在線部分,負(fù)責(zé)響應(yīng)用戶的搜索請求,完成內(nèi)容的篩選和排序,并將最終結(jié)果返回給用戶。我們舉一個(gè)例子來說明這個(gè)流程。
- 用戶在搜索引擎輸入一個(gè)關(guān)鍵詞NBA,搜索引擎搜索會對關(guān)鍵詞進(jìn)行分析、變換、擴(kuò)充和糾錯(cuò)等處理,比如發(fā)現(xiàn)美職籃與NBA是同義詞,就會將其擴(kuò)充。
- 接下來,搜索引擎會通過多種方式從不同索引數(shù)據(jù)獲得候選集,這個(gè)環(huán)節(jié)叫召回。
- 得到候選集后,搜索引擎通過更精細(xì)的計(jì)算模型對每一篇候選內(nèi)容進(jìn)行分值計(jì)算,對候選集的每一項(xiàng)進(jìn)行排序。
- 這個(gè)時(shí)候,還不能將結(jié)果展示給用戶,需要經(jīng)過規(guī)則干預(yù)這一過程。這個(gè)過程服務(wù)于特定的產(chǎn)品目的。假如有這樣一條“官方網(wǎng)站保護(hù)規(guī)則,確保所有品牌搜索詞都可以優(yōu)先返回官網(wǎng)”,則此時(shí)就會將官網(wǎng)插入并置頂,最后再將結(jié)果展示給用戶。
- 此時(shí),搜索引擎的工作還未結(jié)束。搜索引擎會根據(jù)用戶的點(diǎn)擊反饋去優(yōu)化排序模型。比如,大部分用戶都沒有點(diǎn)擊文章10,則文章10后續(xù)就不會獲得更靠前的展現(xiàn)位置。
對以上兩圖進(jìn)行總結(jié)就是下圖,就是想讓你們看的第一張圖

今日頭條的推薦系統(tǒng)
通過上“一”張圖,我們明白了搜索引擎的原理(無論怎樣我都會裝作你看懂了),而今日頭條的這張圖,就是比上圖上多了一筆,考慮到這兩張圖高度相似,我這么懶的人,當(dāng)然是不會去畫的了,你們發(fā)揮想象吧。

其實(shí),推薦系統(tǒng)也有離線部分和在線部分。上圖(那不是圖,是PNG)即是推薦系統(tǒng)的離線部分,與搜索引擎大同小異。
- 和搜索引擎一樣,推薦系統(tǒng)也需要獲取內(nèi)容。推薦系統(tǒng)通過數(shù)據(jù)庫導(dǎo)入、協(xié)議同步和用戶提交等方式獲取推薦內(nèi)容。區(qū)別于搜索引擎,推薦系統(tǒng)獲取內(nèi)容的方式較多,且內(nèi)容的結(jié)構(gòu)化程度要遠(yuǎn)勝于搜索引擎爬蟲抓取的內(nèi)容。
- 推薦系統(tǒng)也需要將待推薦的內(nèi)容進(jìn)行索引化處理,這一點(diǎn)與搜索引擎較為相似。推薦系統(tǒng)的維度會更多。

接下來,就是推薦系統(tǒng)的在線部分了。天啊,看到上圖,發(fā)現(xiàn)推薦系統(tǒng)真的和搜索引擎太像了,就多了一筆。
- 搜索引擎的輸入為用戶的搜索關(guān)鍵詞,推薦系統(tǒng)同樣需要輸入,只是這個(gè)過程用戶沒有感知,對推薦系統(tǒng)來說,它的輸入為場景信息,比如時(shí)間、地點(diǎn)和設(shè)備等。
- 搜索引擎獲得輸入后,會進(jìn)行關(guān)鍵詞處理,對于推薦系統(tǒng)來說,會進(jìn)行用戶畫像查詢。這個(gè)案例中,推薦系統(tǒng)了解到,該用戶在實(shí)體詞維度,對NBA感興趣,在分類維度,對體育和科技感興趣。
- 查詢到用戶畫像后,推薦系統(tǒng)就進(jìn)入召回環(huán)節(jié)。它通過多種方式,根據(jù)用戶畫像查詢結(jié)果“NBA、體育和科技”,從不同索引數(shù)據(jù)里獲得候選集合。
- 在召回完成后,和搜索引擎一樣,推薦系統(tǒng)按照預(yù)定預(yù)估目標(biāo)對候選集進(jìn)行排序。
- 同樣,推薦系統(tǒng)也需要經(jīng)過規(guī)則干預(yù)步驟后,才會將最終結(jié)果展示給用戶。
- 對于最后一步,用戶的各種動作行為,在搜索引擎里,會持續(xù)優(yōu)化排序模型,在推薦系統(tǒng)里,還會持續(xù)改進(jìn)自身的畫像。
對以上兩圖進(jìn)行總結(jié)就是下圖,就是想讓你們看的第二張PNG(圖)
image

推薦系統(tǒng)的本質(zhì)
通過對搜索引擎和推薦系統(tǒng)的兩張圖,我們大致明白了推薦系統(tǒng)是怎么個(gè)一回事。實(shí)際上,推薦系統(tǒng)是一個(gè)策略行為。對于策略,他有四要素,分別是
- 待解決問題
- 輸入(影響解決方案的因素)
- 計(jì)算邏輯(將輸入轉(zhuǎn)換成輸出的規(guī)則)
- 輸出(具體的解決方案)
對于今日頭條來說,
它待解決的問題是“從海量的內(nèi)容中,找到用戶喜歡的內(nèi)容”
他的輸入是“用戶畫像和內(nèi)容特征”
計(jì)算邏輯:將這些內(nèi)容特征按一定規(guī)則轉(zhuǎn)化為喜歡度
輸出:將內(nèi)容按喜歡度從高到低排序
由于我推薦系統(tǒng)的課程還未結(jié)束,先不展開這部分內(nèi)容了。后面博客會對上文進(jìn)行展開,有興趣的同學(xué),歡迎關(guān)注。
說明
以上內(nèi)容來源于個(gè)人閱讀和付費(fèi)課程的歸納整理,
相關(guān)書籍為今日頭條產(chǎn)品經(jīng)理閆澤華的《內(nèi)容算法——把內(nèi)容變成價(jià)值的效率系統(tǒng)》,
相關(guān)課程為三節(jié)課的《策略產(chǎn)品經(jīng)理的實(shí)戰(zhàn)修煉》。