你所不了解的搜索引擎

搜索引擎指的是蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量網(wǎng)頁(yè)內(nèi)容,存入數(shù)據(jù)庫(kù),經(jīng)過(guò)復(fù)雜的算法進(jìn)行預(yù)處理,建立網(wǎng)站索引目錄,當(dāng)用戶在搜索框輸入關(guān)鍵字之后,搜索引擎通過(guò)相關(guān)性的排序算法從索引庫(kù)中找到最符合用戶需求的頁(yè)面按照一定權(quán)重展示給用戶的過(guò)程。蜘蛛爬行、頁(yè)面收錄及排序都是自動(dòng)處理的。

搜索引擎面臨的問(wèn)題或瓶頸

1、用戶搜索內(nèi)容時(shí)必須反應(yīng)快而準(zhǔn)確。在天量的互聯(lián)網(wǎng)網(wǎng)頁(yè)世界里面,每天有無(wú)數(shù)的頁(yè)面被創(chuàng)建、更新、刪除、要返回最有用及最新的內(nèi)容是一個(gè)巨大而繁瑣的挑戰(zhàn),搜索引擎蜘蛛更新一次數(shù)據(jù)庫(kù)中的頁(yè)面需要花費(fèi)很長(zhǎng)的時(shí)間。因此為了提升用戶體驗(yàn),保證搜索質(zhì)量,搜索引擎從網(wǎng)站權(quán)重、是否官方認(rèn)證、歷史快照、搜索頻次等幾個(gè)方面做了預(yù)處理,因此無(wú)論多么優(yōu)秀的網(wǎng)站被搜索引擎收錄及展現(xiàn)在搜索結(jié)果中都需要一段時(shí)間的蜘蛛爬行過(guò)程。

2、海量的數(shù)據(jù)存儲(chǔ)。除了天量網(wǎng)頁(yè)需要蜘蛛爬行之外,網(wǎng)站的結(jié)構(gòu)也是需要蜘蛛記憶的,復(fù)雜冗余、邏輯纏繞的網(wǎng)站邏輯會(huì)降低蜘蛛的爬行效率,以及蜘蛛在數(shù)據(jù)庫(kù)建立索引等過(guò)程,引擎蜘蛛通過(guò)權(quán)重的分配、信任外鏈、網(wǎng)站目錄提交等方案,提高引擎蜘蛛的收錄效率。因此如果網(wǎng)站在很長(zhǎng)一段時(shí)間內(nèi)都沒(méi)有被搜索引擎收錄,需要seoer檢查是否因?yàn)榫W(wǎng)站內(nèi)鏈邏輯是否過(guò)于復(fù)雜,導(dǎo)致蜘蛛爬行過(guò)程漫長(zhǎng)。

3、索引處理快速有效,具有高度擴(kuò)展性。在引擎蜘蛛抓取和存儲(chǔ)后,要做復(fù)雜的算法篩選過(guò)濾,提取關(guān)鍵詞計(jì)算相關(guān)性,然后進(jìn)行樹(shù)狀存儲(chǔ),但是網(wǎng)站會(huì)隨時(shí)進(jìn)行更新,索引數(shù)據(jù)也需要響應(yīng)這些更新,并重新計(jì)算相關(guān)性和索引,因此對(duì)引擎服務(wù)器的性能提出了更高的挑戰(zhàn)。

4、判斷用戶意圖及人工智能。前面幾個(gè)可以通過(guò)一定的算法和硬件的發(fā)展進(jìn)行有效解決,智能識(shí)別用戶意圖還處在機(jī)器學(xué)習(xí)階段,這也是搜索引擎公司未來(lái)的發(fā)展方向,在大數(shù)據(jù)和區(qū)塊鏈技術(shù)的不斷完善下,搜索引擎會(huì)更懂你,那么如果網(wǎng)站更懂搜索引擎,間接的也會(huì)更懂用戶!

搜索結(jié)果展示

搜索結(jié)果頁(yè)面主體有兩部分,一部分是廣告,另一部分是自然搜索結(jié)果。廣告及推廣部分一般在頁(yè)面的右邊和前幾個(gè)搜索結(jié)果里,并且會(huì)在結(jié)果的末尾注明“廣告”或者“贊助商鏈接”。一般情況下右側(cè)廣告最多有8個(gè),上部廣告最多有3個(gè)。

搜索廣告在網(wǎng)絡(luò)營(yíng)銷行業(yè)經(jīng)常被稱為PPC,由廣告主針對(duì)某些關(guān)鍵詞進(jìn)行競(jìng)價(jià),通過(guò)點(diǎn)擊數(shù)進(jìn)行付費(fèi),具有精準(zhǔn)營(yíng)銷的思維。受到大多數(shù)公司的歡迎。

SEOer最關(guān)心是自然搜索結(jié)果。統(tǒng)計(jì)數(shù)據(jù)顯示,自然搜索結(jié)果總點(diǎn)擊訪問(wèn)量遠(yuǎn)大于廣告點(diǎn)擊數(shù),因此seo對(duì)于一個(gè)企業(yè)的網(wǎng)絡(luò)營(yíng)銷效果有不可忽視的作用。

搜索引擎會(huì)根據(jù)權(quán)重對(duì)站點(diǎn)的展現(xiàn)形式做一些調(diào)整,讓用戶可以直達(dá)目標(biāo)頁(yè),也為網(wǎng)站導(dǎo)入了巨大的流量資源,一般有標(biāo)題摘要、縮略圖標(biāo)題摘要、二級(jí)頁(yè)面縮進(jìn)列表、全站鏈接、迷你全站鏈接、獨(dú)立面板One-box、富摘要、面包屑導(dǎo)航等。

搜索引擎工作原理

搜索引擎的工作原理非常復(fù)雜,大體上可以分為三個(gè)階段:爬行和抓取、預(yù)處理、排名。

爬行和抓取

引擎蜘蛛通過(guò)跟蹤鏈接訪問(wèn)網(wǎng)頁(yè),獲得頁(yè)面HTML代碼存入數(shù)據(jù)庫(kù)。

搜索引擎用來(lái)爬行和訪問(wèn)頁(yè)面的程序被稱為蜘蛛(spider),也稱為機(jī)器人(bot)。

搜索引擎模擬用戶直接通過(guò)網(wǎng)站地址Get網(wǎng)站信息,得到信息后將代碼存入原始頁(yè)數(shù)據(jù)庫(kù),為了提高爬行數(shù)據(jù)和效率,會(huì)同時(shí)使用多個(gè)蜘蛛進(jìn)行分布式爬行。

在訪問(wèn)站點(diǎn)是會(huì)首先嗅探該站點(diǎn)根目錄下有沒(méi)有robots.txt文件。讀取該文件,蜘蛛根據(jù)該文件的協(xié)議訪問(wèn)整個(gè)站點(diǎn),如果沒(méi)有此文件,蜘蛛默認(rèn)訪問(wèn)整個(gè)站點(diǎn)。

搜索引擎會(huì)標(biāo)注自己的訪問(wèn)身份,可以再后臺(tái)的日志找到搜索引擎的爬行痕跡。

搜索引擎一般會(huì)采取兩種策略去爬行整個(gè)站點(diǎn):1. 深度優(yōu)先; 2. 廣度優(yōu)先;通常情況下是混合使用者兩種策略,可以照顧到不同類型的站點(diǎn)。

理論上蜘蛛可以爬行所有的頁(yè)面,但是實(shí)際上蜘蛛爬行會(huì)自己的邊界和規(guī)則,seoer的主要職責(zé)是適應(yīng)蜘蛛爬行規(guī)則,讓蜘蛛盡可能多的收錄自己的站點(diǎn)信息。

為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會(huì)建立一個(gè)地址庫(kù),記錄以及被發(fā)現(xiàn)還沒(méi)有被抓取的頁(yè)面,以及以及被抓取的頁(yè)面。地址庫(kù)中的URL的來(lái)源一般有這樣幾種情況:

1、人工錄入的種子站點(diǎn)。

2、通過(guò)爬行解析出來(lái)的網(wǎng)站外鏈,與地址庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì),如果地址庫(kù)沒(méi)有則是新的網(wǎng)址。

3、站長(zhǎng)通過(guò)搜索引擎網(wǎng)頁(yè)提交表格提交進(jìn)來(lái)的網(wǎng)址。

預(yù)處理

索引程序?qū)ψト?lái)的頁(yè)面數(shù)據(jù)進(jìn)行文字提取、中文分詞、網(wǎng)站層級(jí)分析、索引建立等處理。

Get到網(wǎng)站內(nèi)容后,蜘蛛會(huì)完成下面幾件事:

1、提取關(guān)鍵字,通過(guò)解析代碼,找到內(nèi)容塊,進(jìn)行分類分權(quán)重存儲(chǔ)。

2、中文分詞,分詞是中文搜索特有的步驟。搜索引擎存儲(chǔ)和處理頁(yè)面及用戶搜索都是以詞為基礎(chǔ)進(jìn)行的,英文天然以空格進(jìn)行分割,這樣才能有效的進(jìn)行意義識(shí)別。中文分詞一般有兩種方法:基礎(chǔ)詞典庫(kù)匹配和統(tǒng)計(jì)數(shù)據(jù)匹配。

3、去停止詞,無(wú)論是英文還是中文,頁(yè)面里面會(huì)出現(xiàn)一些頻率很高但是對(duì)內(nèi)容意義沒(méi)有任何影響的詞,如‘的’、‘地’之類的,英文里如‘the’、‘a(chǎn)’、‘a(chǎn)n’等詞語(yǔ)。這些詞語(yǔ)對(duì)用戶的意義識(shí)別沒(méi)有任何幫助,剔除之后也會(huì)降低服務(wù)器的檢索壓力。

4、消除噪音,有些內(nèi)容對(duì)網(wǎng)站的常規(guī)內(nèi)容,對(duì)網(wǎng)站的產(chǎn)品或主題沒(méi)有任何貢獻(xiàn),比如版權(quán)聲明文字、導(dǎo)航條、廣告等需要對(duì)這部分內(nèi)容進(jìn)行剔除。

5、去重,進(jìn)行分詞操作后,有些意義相近的詞語(yǔ)會(huì)在站點(diǎn)內(nèi)反復(fù)出現(xiàn),但是他們代表同樣的意義,所以需要對(duì)這些詞語(yǔ)進(jìn)行歸類去重。

6、正向索引,經(jīng)過(guò)文字層層過(guò)濾后搜索引擎得到獨(dú)特的、能反映頁(yè)面主體內(nèi)容、以詞為單位的內(nèi)容集合,按照詞頻提取關(guān)鍵字并配權(quán)重存儲(chǔ)在數(shù)據(jù)庫(kù),按照頁(yè)面的層級(jí)順序進(jìn)行建立的關(guān)鍵字索引庫(kù)就是正向索引。

7、倒排索引,通過(guò)關(guān)鍵詞對(duì)出現(xiàn)關(guān)鍵詞的文件進(jìn)行排練組合,形成文件索引列表,這叫做倒排索引,可以用于用戶搜索。

8、鏈接關(guān)系計(jì)算,這是預(yù)處理很重要的一環(huán)。現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁(yè)之間的鏈流動(dòng)信息,通過(guò)這些鏈信息進(jìn)行權(quán)重計(jì)算,Google PR值就是這種關(guān)系價(jià)值的一種體現(xiàn)。

9、特殊文件處理,對(duì)于除html文件外的文件類型,引擎蜘蛛現(xiàn)在沒(méi)沒(méi)有辦法識(shí)別,所以都會(huì)剔除掉。

排名

用戶輸入關(guān)鍵字之后,排名程序會(huì)計(jì)算相關(guān)性,獲取關(guān)鍵字矩陣,然后通過(guò)索引獲取站點(diǎn)信息,按照一定的格式生成搜索結(jié)果頁(yè)。

排名的過(guò)程是和用戶互動(dòng)的過(guò)程,引擎智能會(huì)根據(jù)歷史搜索和當(dāng)前搜索進(jìn)行聯(lián)想匹配得到一個(gè)最佳搜索結(jié)果呈現(xiàn)給用戶。

1、搜索詞處理,對(duì)搜索詞進(jìn)行處理①中文分詞②去停止詞③指令處理④拼寫(xiě)錯(cuò)誤糾正⑤整合搜索觸發(fā)。

2、文件匹配,經(jīng)過(guò)處理后,搜索引擎得到一些關(guān)鍵詞集合,通過(guò)索引找到包含關(guān)鍵詞的文件,并計(jì)算相關(guān)性進(jìn)行排序。

3、初始子集選擇,因?yàn)樗阉鹘Y(jié)果是巨量的文件,通常搜索結(jié)果頁(yè)面只展示前100個(gè),百度會(huì)返回將近1000條記錄,依靠權(quán)重找到最多1000條文件記錄,作為篩選初始子集。

4、相關(guān)性計(jì)算,計(jì)算相關(guān)性是排名過(guò)程中最重要的一步,也是seoer優(yōu)化的重點(diǎn)范圍。①關(guān)鍵詞常用程度,利用歷史搜索算出關(guān)鍵詞的熱度。②詞頻和密度,一般認(rèn)為文件中沒(méi)有關(guān)鍵詞堆砌的情況下關(guān)鍵詞出現(xiàn)的頻率越高說(shuō)明相關(guān)性也越高。③關(guān)鍵詞位置和形式,是否出現(xiàn)在頁(yè)面權(quán)重比較高的位置,比如title、H1、strong等,也是前端需要優(yōu)化的重點(diǎn)范疇。④關(guān)鍵詞距離,分詞計(jì)算后的關(guān)鍵詞完整匹配出現(xiàn),說(shuō)明最相關(guān),其次是分詞之后兩個(gè)詞的距離。⑤鏈接分析及頁(yè)面權(quán)重,除了頁(yè)面本身的因素外,頁(yè)面的外鏈也影響重大,外鏈權(quán)重高,關(guān)鍵詞價(jià)值越高,頁(yè)面有越多以搜索詞為錨文字的導(dǎo)入鏈接,說(shuō)明頁(yè)面的相關(guān)性越強(qiáng)。

5、排名過(guò)濾及調(diào)整,經(jīng)過(guò)相關(guān)性計(jì)算,大體排名已經(jīng)被確定,之后搜索引擎可能還要進(jìn)行一些過(guò)濾算法,對(duì)排名進(jìn)行輕微的調(diào)整,其中最主要的是對(duì)作弊站點(diǎn)施加懲罰。

6、排名顯示,排名確定后,排名程序會(huì)調(diào)用原始頁(yè)面的標(biāo)題標(biāo)簽、說(shuō)明標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁(yè)面上,有時(shí)也需要?jiǎng)討B(tài)生成頁(yè)面摘要。

7、搜索緩存,用戶的關(guān)鍵詞往往在一段時(shí)間內(nèi)是重復(fù)的,按照二八定律,長(zhǎng)尾理論,最常見(jiàn)的搜索詞沒(méi)有占到80%那么多,但是通常也有比較粗大的頭部,為了提高搜索效率,引擎會(huì)將熱詞進(jìn)行緩存,當(dāng)用戶搜索時(shí)可以直接從緩存數(shù)據(jù)中取出,不必再次進(jìn)行相關(guān)性計(jì)算,大大提高了搜索效率。

8、查詢及點(diǎn)擊日志,用戶的搜索行為都會(huì)形成日志進(jìn)行記錄,這些日志對(duì)于搜索結(jié)果的質(zhì)量起了重要的作用,引擎會(huì)自動(dòng)計(jì)算相關(guān)權(quán)重,并在下一次搜索里影響排名,所以好的網(wǎng)站是持續(xù)流量的基石。

鏈接在搜索中的算法原理

基于一個(gè)假設(shè):好的網(wǎng)站很少會(huì)鏈接到壞的網(wǎng)站,反之則不成立,很多垃圾網(wǎng)站會(huì)鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站,試圖提高自己的信任指數(shù)。用現(xiàn)代的話說(shuō)就是信用背書(shū),利用信用背書(shū)可以提高自己網(wǎng)站的權(quán)重值,獲得較好的排名。在排序算法中比重越來(lái)越高,seoer應(yīng)該重視外鏈在站點(diǎn)內(nèi)的布局,及自己的站點(diǎn)被外鏈引用的頻率。

高級(jí)搜索指令

1、把搜索詞放在雙引號(hào)里面,代表完全匹配不進(jìn)行分詞操作,連順序也必須完全匹配。百度和Google都支持這個(gè)指令。eg: "和平是我的夢(mèng)想"

2、減號(hào),減號(hào)(-)代表搜索不包含減號(hào)后面詞語(yǔ)的內(nèi)容,使用這個(gè)指令時(shí)減號(hào)前面必須是空格,減號(hào)后面沒(méi)有空格,緊跟需要排除的詞。Google和百度都支持這個(gè)指令。

3、星號(hào),星號(hào)(*)是常用的通配符,也可以用在搜索中。百度不支持星號(hào)匹配。

4、inurl,用于搜索查詢?cè)~出現(xiàn)在url中的頁(yè)面。百度和Google都支持inurl指令。

5、inanchor, 指令返回的結(jié)果是導(dǎo)入鏈接文字中包含搜索詞的頁(yè)面。百度不支持。

6、intitle, 指令返回的頁(yè)面中title標(biāo)簽包含的關(guān)鍵詞頁(yè)面。百度和Google和百度都支持該指令。

7、allintitle, 返回頁(yè)面title標(biāo)簽同時(shí)包含多個(gè)關(guān)鍵字的結(jié)果頁(yè)面,eg: allintitle:SEO 建站大全

8、allinurl, 返回地址中同時(shí)包含多個(gè)關(guān)鍵詞的結(jié)果頁(yè)面, eg:allinurl admin login。

9、filetype,該指令用于搜索特點(diǎn)格式的文件,Google和百度都支持,eg:filetype:doc 辣子雞丁,百度目前只支持pdf、doc、xls、ppt、rtf、all等格式,而Google則支持所有能索引的文件格式,包括html、php等。

10、site,這個(gè)指令是seoer最熟悉的高級(jí)搜索指令了,用來(lái)搜索某個(gè)域名下的所有文件,這個(gè)指令是查詢網(wǎng)站收錄頁(yè)面最有效直接的方法。不過(guò)site:指令并不準(zhǔn)確,尤其是Google中,返回的收錄頁(yè)面經(jīng)常有大的波動(dòng),只能作為參考。

11、link,利用這個(gè)指令可以搜索某個(gè)url的反向鏈接,既可以包括內(nèi)部鏈接,也可以包括外部鏈接。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 第1章 搜索引擎和搜索引擎優(yōu)化的同步發(fā)展 如何獲得來(lái)自搜索引擎的流量,就引入了搜索引擎營(yíng)銷這個(gè)話題 什么是搜索引擎...
    甲方爸爸肖運(yùn)華閱讀 1,016評(píng)論 3 13
  • 我要想想那些溫?zé)嵊珠W光的日子 當(dāng)美麗像一條熱乎滑溜的魚(yú) 鉆過(guò)我記憶柵欄透光的孔隙 悄悄溜走 我撫摸那些粗糙的木頭 ...
    先冷閱讀 175評(píng)論 1 0
  • 又逢Q日,一個(gè)15公里的間歇跑訓(xùn)練,5E+7×800Rw/3m10s+3E。 有風(fēng)阻,但也有順風(fēng)。 亞索800的一...
    有所為無(wú)所畏閱讀 346評(píng)論 0 0
  • 從夢(mèng)中醒來(lái),夢(mèng)里的世界瞬間消失。如同一只黑夜里陰溝里的狡猾老鼠,聞見(jiàn)人聲就匆忙逃離,無(wú)法捉住,但它存在過(guò)。夢(mèng)也是一...
    森木閱讀 576評(píng)論 0 2
  • JS的語(yǔ)法跟swift很像,以下代碼有幾個(gè)知識(shí)點(diǎn): 函數(shù)的定義 匿名函數(shù)的使用,作為參數(shù)/返回值,和OC的bloc...
    小如99閱讀 300評(píng)論 0 0

友情鏈接更多精彩內(nèi)容