廣義上搜索引擎的“相關(guān)推薦”包含這么幾個(gè)模塊:
1、suggest模塊:輸入query(關(guān)鍵詞)過程中出現(xiàn)在搜索框下方的智能推薦。
2、相關(guān)搜索模塊:就是搜索結(jié)果底部的那堆文字鏈模塊。
3、右側(cè)相關(guān)推薦模塊:出現(xiàn)在搜索結(jié)果右上角的圖文推薦模塊。
以上三個(gè)模塊所起到的作用各不相同,下面逐個(gè)拆解。
suggest模塊
與其它2個(gè)模塊不同,suggest是在搜索結(jié)果展示之前出現(xiàn),所以它起到的主要作用是在用戶完成輸入query之前命中用戶的搜索需求,從而減少用戶的輸入成本。
如用戶輸入“4”時(shí),推薦“4399小游戲”;輸入“明朝”時(shí),推薦“明朝那些事”;輸入“?;ā睍r(shí),推薦“?;ǖ馁N身高手”等等。
為了命中用戶需求的概率更高,suggest需要重點(diǎn)滿足幾個(gè)條件:
1、要相關(guān),符合用戶輸入習(xí)慣,這是最基本的。
2、要足夠熱門,同等情況下搜索量越高越好,這里的搜索量指的是較長一段時(shí)間內(nèi)的均值。
3、要足夠多樣化,集中于某個(gè)特定的主題,不如分散到多個(gè)主題。如搜索“明朝那些事”,全部出在線閱讀、txt下載、有聲閱讀這些下位需求,不如適當(dāng)穿插“明朝那些事2(3、4)”等。
4、適當(dāng)關(guān)注時(shí)效性。推薦的時(shí)候需要考慮近期搜索量增長很快的一些query,如搜索“劉曉慶”,前段時(shí)間劉曉慶吐槽機(jī)場面條貴那個(gè)事件就需要推薦。
5、如果技術(shù)允許,可以參考用戶的搜索日志做個(gè)性化推薦,這或許是目前各搜索引擎提升空間最大的地方,上面4個(gè)方面各主要搜索引擎都做的不錯(cuò)了。有機(jī)會(huì)可以針對(duì)suggest的個(gè)性化專門寫一篇文章來分析。
相關(guān)搜索模塊
該模塊的典型使用場景是用戶輸入query后在搜索結(jié)果中沒有發(fā)現(xiàn)自己需要的內(nèi)容,在拉到搜索結(jié)果底部時(shí)點(diǎn)擊相關(guān)搜索繼續(xù)尋找自己需要的內(nèi)容。
做好該模塊的要素大體上和suggest差不多,相關(guān)性、熱門度、多樣性、時(shí)效性等都挺重要。但因?yàn)?b>相關(guān)搜索模塊是在搜索結(jié)果顯示后才出現(xiàn)的,所以根據(jù)搜索結(jié)果對(duì)用戶需求的滿足程度不同,出現(xiàn)的相關(guān)搜索推薦也有所差異。
1、當(dāng)用戶需求滿足度較好時(shí),和query語義重復(fù)的推薦要做打壓,多推薦一些和query互補(bǔ)或者領(lǐng)域相關(guān)的內(nèi)容。如“花千骨”,主需求是在線觀看該電視劇,當(dāng)然搜索結(jié)果滿足的非常好。那么“花千骨全集”、“花千骨在線觀看”等語義重復(fù)的推薦就不要出了。這時(shí)適當(dāng)偏離主需求的推薦就可以推薦,如“花千骨2015”、“花千骨 優(yōu)酷”、“花千骨小說”以及類型相似的電視劇如“瑯琊榜”、“云中歌”等。
2、當(dāng)用戶需求滿足度較差時(shí),和query語義重復(fù)的推薦就不能盲目打壓。比如很典型的盜版電影需求,如目前網(wǎng)上還沒有免費(fèi)正版資源的煎餅俠。用戶搜索“煎餅俠免費(fèi)版”,如果用戶需求滿足度較差(這很可能發(fā)生),那么推薦“煎餅俠在線觀看”、“煎餅俠西瓜影音”等就很合適,因?yàn)閷?duì)這類需求,query稍微做一些更改搜索結(jié)果就會(huì)有很大的不同,滿足用戶需求的可能性就更高。此時(shí)就不能對(duì)原語義做太多的偏離,如弱需求“煎餅俠票房”、“煎餅俠演員表”等就不要做太多推薦,至少位置要盡可能靠后;同樣類型相似的影視“屌絲男士”、“港囧”等都需要做適當(dāng)打壓。
右側(cè)相關(guān)推薦
該模塊獨(dú)特的地方有兩個(gè)方面:
1、其它2個(gè)模塊都是純文本展示形式,該模塊是唯一使用圖文展現(xiàn)形式的模塊。
2、其它2個(gè)模塊著重于文本相關(guān),通俗點(diǎn)說就是和原query都有重復(fù)的文字;而該模塊更注重領(lǐng)域相關(guān),在文本上基本和原query無重復(fù)的地方,起到的更多的是發(fā)現(xiàn)探索的作用。
如果說搜索引擎目前還只是做到符合用戶預(yù)期,那么未來超出用戶預(yù)期的部分最有可能是通過這個(gè)模塊來提供。一個(gè)典型的場景是某個(gè)新人剛進(jìn)入互聯(lián)網(wǎng)行業(yè),某段時(shí)間對(duì)行業(yè)資訊非常感興趣,剛開始它只知道虎嗅網(wǎng),在搜索引擎中搜索“虎嗅網(wǎng)”的過程中,他發(fā)現(xiàn)了右側(cè)推薦的一堆相關(guān)的提供行業(yè)資訊的網(wǎng)站,雷鋒網(wǎng),36氪,pingwest,知乎,果殼等,這就是典型的超出用戶預(yù)期。
做好該模塊的難度較大,因?yàn)閿?shù)據(jù)的選擇范圍太廣,但最少需要做到以下幾點(diǎn):
1、最基本的是要基礎(chǔ)領(lǐng)域相關(guān),這個(gè)普通的用戶都可以感知到,技術(shù)難度也不大。
2、推薦的粒度要細(xì),不要太粗放。比如“科比”這個(gè)query,他的首要標(biāo)簽是NBA球星,其次才是籃球標(biāo)簽,所以推薦的時(shí)候要優(yōu)先推薦相關(guān)的NBA球星,如果一上來就推薦籃球相關(guān)的技術(shù)、相關(guān)籃球術(shù)語等,那么粒度就有些太過于粗放,點(diǎn)擊自然就不會(huì)太高。
3、做好基礎(chǔ)質(zhì)量,尤其是圖片質(zhì)量。圖片是吸引用戶點(diǎn)擊的最主要因素,所以圖片起碼要做到清晰相關(guān),目前各大搜索引擎做的都不是太好,相對(duì)而言百度要好一些。要做好這一點(diǎn)需要重點(diǎn)在數(shù)據(jù)源上下功夫。
但正如前面所說,做好這個(gè)模塊的難度很大,并且人工評(píng)判主觀性太強(qiáng),比較合理的策略是在做好基礎(chǔ)相關(guān)(各大引擎目前做的都還不錯(cuò))的情況下,不斷調(diào)整策略,根據(jù)點(diǎn)擊率的變化來評(píng)判一個(gè)策略的好壞。策略可以是針對(duì)所有query,也可以是針對(duì)某一類query,如“影視”、“人物”、“小說”等。
當(dāng)然,最終判定某個(gè)模塊是否優(yōu)秀,或者策略升級(jí)是否有效,最終還是要用數(shù)據(jù)說話。比如點(diǎn)擊率是否提升,從該模塊帶過去的搜索量占總搜索量的比例是否提高等等。