百度和谷歌的搜索和排序算法分析

簡(jiǎn)書里基本我所有的文章都是給自己看的,所以文章會(huì)有側(cè)重地寫肯定不全,不是寫給大家看的。



沒(méi)有看搜索引擎的自然語(yǔ)言處理,pagerank算法,相關(guān)度算法,相似度辨別算法,等有時(shí)間好好看吧。

僅從測(cè)試角度體驗(yàn)了下,分析可能有問(wèn)題。結(jié)果如下:

百度:

總體上:利用自然語(yǔ)言處理的分詞+定義相關(guān)關(guān)鍵詞字典+詞頻統(tǒng)計(jì)+添加bad case

百度是從首頁(yè)抓起,權(quán)重從首頁(yè)到內(nèi)頁(yè)依次降低。

單個(gè)網(wǎng)頁(yè),搜索先從標(biāo)題開始遍歷,再?gòu)膬?nèi)容分析。所以mata,h1,h2要維護(hù)好

排名算法:測(cè)試發(fā)現(xiàn)百度根據(jù)的網(wǎng)站內(nèi)容更新頻率,其他因素還沒(méi)有發(fā)現(xiàn)。然后再結(jié)合標(biāo)題和內(nèi)容出現(xiàn)的相關(guān)關(guān)鍵詞越多,且該網(wǎng)頁(yè)點(diǎn)擊率越高,則排名越高。

比如我的這篇原創(chuàng)《從社交動(dòng)機(jī),行為方式,關(guān)系鏈看社交產(chǎn)品》,發(fā)現(xiàn)排名最前面的不是我在簡(jiǎn)書上發(fā)的,而是一個(gè)營(yíng)銷網(wǎng)站“鳥哥筆記”。。。。。

因?yàn)橹袊?guó)大部分草根網(wǎng)民都是用的百度,知識(shí)深度不夠,所以百度的辦法是搜索時(shí)不需要考慮相關(guān)關(guān)鍵詞,百度已經(jīng)替你考慮好,搜索結(jié)果包含相關(guān)關(guān)鍵詞的數(shù)據(jù)。但是這樣的解決方案,會(huì)導(dǎo)致重復(fù)內(nèi)容很多,搜索效率很低。這個(gè)百度應(yīng)該著重考慮的。


谷歌:

利用與英文單次類似的詞組分析法+pagerank+內(nèi)容相關(guān)性+網(wǎng)站的PR值+外鏈

不是從標(biāo)題開始遍歷的,而是從內(nèi)容分析相關(guān)性,具體相關(guān)性算法不清楚,可以肯定的是也會(huì)利用詞頻+上下文。

排名算法:網(wǎng)站外鏈+網(wǎng)站地圖等

因?yàn)橛霉雀璧挠脩艋径际切枰瓑φ矣⑽臄?shù)據(jù),而這些用戶基本知識(shí)深度相對(duì)高,所以搜索時(shí)最好用專業(yè)術(shù)語(yǔ),學(xué)術(shù)術(shù)語(yǔ)等。

搜索時(shí)需要人為添加相關(guān)關(guān)鍵詞,而且關(guān)鍵詞之間相關(guān)性要強(qiáng),如果自己添加的關(guān)鍵詞比較偏,搜索結(jié)果質(zhì)量就會(huì)很差,但是好處是內(nèi)容重復(fù)性低。


分析最到位的是以下兩篇:

一、《谷歌背后的數(shù)字》?

二、論壇的文章?:Google 做分詞的話就是把問(wèn)題看成一個(gè)概率問(wèn)題:如果中文網(wǎng)頁(yè)中哪些字經(jīng)常一起出現(xiàn),那麼它們很有可能就是一個(gè)詞??茨男┰~后面會(huì)跟的地得,的地得后面有常跟哪些詞,語(yǔ)法結(jié)構(gòu)也就出來(lái)了。(具體的模型參見吳軍《數(shù)學(xué)之美》)。解題思路就是把所有抓到的中文網(wǎng)頁(yè)往 MapReduce 裡一丟,參數(shù)算出來(lái)就好了。評(píng)估分詞質(zhì)量的方法也很簡(jiǎn)單,就拿新模型放到網(wǎng)頁(yè)檢索的模型裡,做個(gè)實(shí)驗(yàn)看質(zhì)量有沒(méi)提升就行。這套方法結(jié)果之好,基本把中文分詞做成了一個(gè)沒(méi)有多少懸念的簡(jiǎn)單問(wèn)題,而且基本不需要中文語(yǔ)言專家的參與(自然也沒(méi)有誰(shuí)更懂中文的問(wèn)題)。同時(shí)這也就是 Google 做 Translate 的思路。這裡面基本方法其實(shí)非常簡(jiǎn)單,沒(méi)什麼祕(mì)密可言,但是你得先有這麼多的網(wǎng)頁(yè)數(shù)據(jù),還得有大機(jī)群,有分佈計(jì)算框架,還有可復(fù)用的模型……



等搜索原理看的差不多了,再更新把~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)載請(qǐng)注明:終小南 ? 中文分詞算法總結(jié) 什么是中文分詞眾所周知,英文是以 詞為單位的,詞和詞之間是靠空格隔開,而...
    kirai閱讀 10,128評(píng)論 3 24
  • 常用概念: 自然語(yǔ)言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識(shí)圖譜 信息檢索 文本分類 常用技術(shù): 詞級(jí)別...
    御風(fēng)之星閱讀 10,042評(píng)論 1 25
  • Android 自定義View的各種姿勢(shì)1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,366評(píng)論 25 708
  • 辛勤勞動(dòng)才是最有意義的事情 毫無(wú)疑問(wèn),全身沾滿汗水和泥土、堅(jiān)持勞作的“田間精進(jìn)”已經(jīng)潛移默化,扎根于內(nèi)心,陶冶了人...
    陽(yáng)光營(yíng)造閱讀 539評(píng)論 0 0
  • ———給自己的總結(jié) 又是一個(gè)月,時(shí)間的確是不會(huì)停下來(lái)等你的,感覺如水般滑過(guò)我的手指,輕柔又毫不猶豫的從我的指縫中流...
    一路向南007閱讀 308評(píng)論 2 0

友情鏈接更多精彩內(nèi)容