簡(jiǎn)書里基本我所有的文章都是給自己看的,所以文章會(huì)有側(cè)重地寫肯定不全,不是寫給大家看的。
沒(méi)有看搜索引擎的自然語(yǔ)言處理,pagerank算法,相關(guān)度算法,相似度辨別算法,等有時(shí)間好好看吧。
僅從測(cè)試角度體驗(yàn)了下,分析可能有問(wèn)題。結(jié)果如下:
百度:
總體上:利用自然語(yǔ)言處理的分詞+定義相關(guān)關(guān)鍵詞字典+詞頻統(tǒng)計(jì)+添加bad case
百度是從首頁(yè)抓起,權(quán)重從首頁(yè)到內(nèi)頁(yè)依次降低。
單個(gè)網(wǎng)頁(yè),搜索先從標(biāo)題開始遍歷,再?gòu)膬?nèi)容分析。所以mata,h1,h2要維護(hù)好
排名算法:測(cè)試發(fā)現(xiàn)百度根據(jù)的網(wǎng)站內(nèi)容更新頻率,其他因素還沒(méi)有發(fā)現(xiàn)。然后再結(jié)合標(biāo)題和內(nèi)容出現(xiàn)的相關(guān)關(guān)鍵詞越多,且該網(wǎng)頁(yè)點(diǎn)擊率越高,則排名越高。
比如我的這篇原創(chuàng)《從社交動(dòng)機(jī),行為方式,關(guān)系鏈看社交產(chǎn)品》,發(fā)現(xiàn)排名最前面的不是我在簡(jiǎn)書上發(fā)的,而是一個(gè)營(yíng)銷網(wǎng)站“鳥哥筆記”。。。。。
因?yàn)橹袊?guó)大部分草根網(wǎng)民都是用的百度,知識(shí)深度不夠,所以百度的辦法是搜索時(shí)不需要考慮相關(guān)關(guān)鍵詞,百度已經(jīng)替你考慮好,搜索結(jié)果包含相關(guān)關(guān)鍵詞的數(shù)據(jù)。但是這樣的解決方案,會(huì)導(dǎo)致重復(fù)內(nèi)容很多,搜索效率很低。這個(gè)百度應(yīng)該著重考慮的。
谷歌:
利用與英文單次類似的詞組分析法+pagerank+內(nèi)容相關(guān)性+網(wǎng)站的PR值+外鏈
不是從標(biāo)題開始遍歷的,而是從內(nèi)容分析相關(guān)性,具體相關(guān)性算法不清楚,可以肯定的是也會(huì)利用詞頻+上下文。
排名算法:網(wǎng)站外鏈+網(wǎng)站地圖等
因?yàn)橛霉雀璧挠脩艋径际切枰瓑φ矣⑽臄?shù)據(jù),而這些用戶基本知識(shí)深度相對(duì)高,所以搜索時(shí)最好用專業(yè)術(shù)語(yǔ),學(xué)術(shù)術(shù)語(yǔ)等。
搜索時(shí)需要人為添加相關(guān)關(guān)鍵詞,而且關(guān)鍵詞之間相關(guān)性要強(qiáng),如果自己添加的關(guān)鍵詞比較偏,搜索結(jié)果質(zhì)量就會(huì)很差,但是好處是內(nèi)容重復(fù)性低。
分析最到位的是以下兩篇:
二、論壇的文章?:Google 做分詞的話就是把問(wèn)題看成一個(gè)概率問(wèn)題:如果中文網(wǎng)頁(yè)中哪些字經(jīng)常一起出現(xiàn),那麼它們很有可能就是一個(gè)詞??茨男┰~后面會(huì)跟的地得,的地得后面有常跟哪些詞,語(yǔ)法結(jié)構(gòu)也就出來(lái)了。(具體的模型參見吳軍《數(shù)學(xué)之美》)。解題思路就是把所有抓到的中文網(wǎng)頁(yè)往 MapReduce 裡一丟,參數(shù)算出來(lái)就好了。評(píng)估分詞質(zhì)量的方法也很簡(jiǎn)單,就拿新模型放到網(wǎng)頁(yè)檢索的模型裡,做個(gè)實(shí)驗(yàn)看質(zhì)量有沒(méi)提升就行。這套方法結(jié)果之好,基本把中文分詞做成了一個(gè)沒(méi)有多少懸念的簡(jiǎn)單問(wèn)題,而且基本不需要中文語(yǔ)言專家的參與(自然也沒(méi)有誰(shuí)更懂中文的問(wèn)題)。同時(shí)這也就是 Google 做 Translate 的思路。這裡面基本方法其實(shí)非常簡(jiǎn)單,沒(méi)什麼祕(mì)密可言,但是你得先有這麼多的網(wǎng)頁(yè)數(shù)據(jù),還得有大機(jī)群,有分佈計(jì)算框架,還有可復(fù)用的模型……
等搜索原理看的差不多了,再更新把~~