午夜福利欧美日韩,亚洲免费观看一区,久操香蕉视频

搜索引擎指的是蜘蛛程序沿著鏈接爬行和抓取網(wǎng)上的大量網(wǎng)頁(yè)內(nèi)容，存入數(shù)據(jù)庫(kù)，經(jīng)過(guò)復(fù)雜的算法進(jìn)行預(yù)處理，建立網(wǎng)站索引目錄，當(dāng)用戶在搜索框輸入關(guān)鍵字之后，搜索引擎通過(guò)相關(guān)性的排序算法從索引庫(kù)中找到最符合用戶需求的頁(yè)面按照一定權(quán)重展示給用戶的過(guò)程。蜘蛛爬行、頁(yè)面收錄及排序都是自動(dòng)處理的。

搜索引擎面臨的問(wèn)題或瓶頸

1、用戶搜索內(nèi)容時(shí)必須反應(yīng)快而準(zhǔn)確。在天量的互聯(lián)網(wǎng)網(wǎng)頁(yè)世界里面，每天有無(wú)數(shù)的頁(yè)面被創(chuàng)建、更新、刪除、要返回最有用及最新的內(nèi)容是一個(gè)巨大而繁瑣的挑戰(zhàn)，搜索引擎蜘蛛更新一次數(shù)據(jù)庫(kù)中的頁(yè)面需要花費(fèi)很長(zhǎng)的時(shí)間。因此為了提升用戶體驗(yàn)，保證搜索質(zhì)量，搜索引擎從網(wǎng)站權(quán)重、是否官方認(rèn)證、歷史快照、搜索頻次等幾個(gè)方面做了預(yù)處理，因此無(wú)論多么優(yōu)秀的網(wǎng)站被搜索引擎收錄及展現(xiàn)在搜索結(jié)果中都需要一段時(shí)間的蜘蛛爬行過(guò)程。

2、海量的數(shù)據(jù)存儲(chǔ)。除了天量網(wǎng)頁(yè)需要蜘蛛爬行之外，網(wǎng)站的結(jié)構(gòu)也是需要蜘蛛記憶的，復(fù)雜冗余、邏輯纏繞的網(wǎng)站邏輯會(huì)降低蜘蛛的爬行效率，以及蜘蛛在數(shù)據(jù)庫(kù)建立索引等過(guò)程，引擎蜘蛛通過(guò)權(quán)重的分配、信任外鏈、網(wǎng)站目錄提交等方案，提高引擎蜘蛛的收錄效率。因此如果網(wǎng)站在很長(zhǎng)一段時(shí)間內(nèi)都沒(méi)有被搜索引擎收錄，需要seoer檢查是否因?yàn)榫W(wǎng)站內(nèi)鏈邏輯是否過(guò)于復(fù)雜，導(dǎo)致蜘蛛爬行過(guò)程漫長(zhǎng)。

3、索引處理快速有效，具有高度擴(kuò)展性。在引擎蜘蛛抓取和存儲(chǔ)后，要做復(fù)雜的算法篩選過(guò)濾，提取關(guān)鍵詞計(jì)算相關(guān)性，然后進(jìn)行樹(shù)狀存儲(chǔ)，但是網(wǎng)站會(huì)隨時(shí)進(jìn)行更新，索引數(shù)據(jù)也需要響應(yīng)這些更新，并重新計(jì)算相關(guān)性和索引，因此對(duì)引擎服務(wù)器的性能提出了更高的挑戰(zhàn)。

4、判斷用戶意圖及人工智能。前面幾個(gè)可以通過(guò)一定的算法和硬件的發(fā)展進(jìn)行有效解決，智能識(shí)別用戶意圖還處在機(jī)器學(xué)習(xí)階段，這也是搜索引擎公司未來(lái)的發(fā)展方向，在大數(shù)據(jù)和區(qū)塊鏈技術(shù)的不斷完善下，搜索引擎會(huì)更懂你，那么如果網(wǎng)站更懂搜索引擎，間接的也會(huì)更懂用戶！

搜索結(jié)果展示

搜索結(jié)果頁(yè)面主體有兩部分，一部分是廣告，另一部分是自然搜索結(jié)果。廣告及推廣部分一般在頁(yè)面的右邊和前幾個(gè)搜索結(jié)果里，并且會(huì)在結(jié)果的末尾注明“廣告”或者“贊助商鏈接”。一般情況下右側(cè)廣告最多有8個(gè)，上部廣告最多有3個(gè)。

搜索廣告在網(wǎng)絡(luò)營(yíng)銷行業(yè)經(jīng)常被稱為PPC，由廣告主針對(duì)某些關(guān)鍵詞進(jìn)行競(jìng)價(jià)，通過(guò)點(diǎn)擊數(shù)進(jìn)行付費(fèi)，具有精準(zhǔn)營(yíng)銷的思維。受到大多數(shù)公司的歡迎。

SEOer最關(guān)心是自然搜索結(jié)果。統(tǒng)計(jì)數(shù)據(jù)顯示，自然搜索結(jié)果總點(diǎn)擊訪問(wèn)量遠(yuǎn)大于廣告點(diǎn)擊數(shù)，因此seo對(duì)于一個(gè)企業(yè)的網(wǎng)絡(luò)營(yíng)銷效果有不可忽視的作用。

搜索引擎會(huì)根據(jù)權(quán)重對(duì)站點(diǎn)的展現(xiàn)形式做一些調(diào)整，讓用戶可以直達(dá)目標(biāo)頁(yè)，也為網(wǎng)站導(dǎo)入了巨大的流量資源，一般有標(biāo)題摘要、縮略圖標(biāo)題摘要、二級(jí)頁(yè)面縮進(jìn)列表、全站鏈接、迷你全站鏈接、獨(dú)立面板One-box、富摘要、面包屑導(dǎo)航等。

搜索引擎工作原理

搜索引擎的工作原理非常復(fù)雜，大體上可以分為三個(gè)階段：爬行和抓取、預(yù)處理、排名。

爬行和抓取

引擎蜘蛛通過(guò)跟蹤鏈接訪問(wèn)網(wǎng)頁(yè)，獲得頁(yè)面HTML代碼存入數(shù)據(jù)庫(kù)。

搜索引擎用來(lái)爬行和訪問(wèn)頁(yè)面的程序被稱為蜘蛛（spider），也稱為機(jī)器人(bot)。

搜索引擎模擬用戶直接通過(guò)網(wǎng)站地址Get網(wǎng)站信息，得到信息后將代碼存入原始頁(yè)數(shù)據(jù)庫(kù)，為了提高爬行數(shù)據(jù)和效率，會(huì)同時(shí)使用多個(gè)蜘蛛進(jìn)行分布式爬行。

在訪問(wèn)站點(diǎn)是會(huì)首先嗅探該站點(diǎn)根目錄下有沒(méi)有robots.txt文件。讀取該文件，蜘蛛根據(jù)該文件的協(xié)議訪問(wèn)整個(gè)站點(diǎn)，如果沒(méi)有此文件，蜘蛛默認(rèn)訪問(wèn)整個(gè)站點(diǎn)。

搜索引擎會(huì)標(biāo)注自己的訪問(wèn)身份，可以再后臺(tái)的日志找到搜索引擎的爬行痕跡。

搜索引擎一般會(huì)采取兩種策略去爬行整個(gè)站點(diǎn)：1. 深度優(yōu)先； 2. 廣度優(yōu)先；通常情況下是混合使用者兩種策略，可以照顧到不同類型的站點(diǎn)。

理論上蜘蛛可以爬行所有的頁(yè)面，但是實(shí)際上蜘蛛爬行會(huì)自己的邊界和規(guī)則，seoer的主要職責(zé)是適應(yīng)蜘蛛爬行規(guī)則，讓蜘蛛盡可能多的收錄自己的站點(diǎn)信息。

為了避免重復(fù)爬行和抓取網(wǎng)址，搜索引擎會(huì)建立一個(gè)地址庫(kù)，記錄以及被發(fā)現(xiàn)還沒(méi)有被抓取的頁(yè)面，以及以及被抓取的頁(yè)面。地址庫(kù)中的URL的來(lái)源一般有這樣幾種情況：

1、人工錄入的種子站點(diǎn)。

2、通過(guò)爬行解析出來(lái)的網(wǎng)站外鏈，與地址庫(kù)中的數(shù)據(jù)進(jìn)行比對(duì)，如果地址庫(kù)沒(méi)有則是新的網(wǎng)址。

3、站長(zhǎng)通過(guò)搜索引擎網(wǎng)頁(yè)提交表格提交進(jìn)來(lái)的網(wǎng)址。

預(yù)處理

索引程序?qū)ψト?lái)的頁(yè)面數(shù)據(jù)進(jìn)行文字提取、中文分詞、網(wǎng)站層級(jí)分析、索引建立等處理。

Get到網(wǎng)站內(nèi)容后，蜘蛛會(huì)完成下面幾件事：

1、提取關(guān)鍵字，通過(guò)解析代碼，找到內(nèi)容塊，進(jìn)行分類分權(quán)重存儲(chǔ)。

2、中文分詞，分詞是中文搜索特有的步驟。搜索引擎存儲(chǔ)和處理頁(yè)面及用戶搜索都是以詞為基礎(chǔ)進(jìn)行的，英文天然以空格進(jìn)行分割，這樣才能有效的進(jìn)行意義識(shí)別。中文分詞一般有兩種方法：基礎(chǔ)詞典庫(kù)匹配和統(tǒng)計(jì)數(shù)據(jù)匹配。

3、去停止詞，無(wú)論是英文還是中文，頁(yè)面里面會(huì)出現(xiàn)一些頻率很高但是對(duì)內(nèi)容意義沒(méi)有任何影響的詞，如‘的’、‘地’之類的，英文里如‘the’、‘a(chǎn)’、‘a(chǎn)n’等詞語(yǔ)。這些詞語(yǔ)對(duì)用戶的意義識(shí)別沒(méi)有任何幫助，剔除之后也會(huì)降低服務(wù)器的檢索壓力。

4、消除噪音，有些內(nèi)容對(duì)網(wǎng)站的常規(guī)內(nèi)容，對(duì)網(wǎng)站的產(chǎn)品或主題沒(méi)有任何貢獻(xiàn)，比如版權(quán)聲明文字、導(dǎo)航條、廣告等需要對(duì)這部分內(nèi)容進(jìn)行剔除。

5、去重，進(jìn)行分詞操作后，有些意義相近的詞語(yǔ)會(huì)在站點(diǎn)內(nèi)反復(fù)出現(xiàn)，但是他們代表同樣的意義，所以需要對(duì)這些詞語(yǔ)進(jìn)行歸類去重。

6、正向索引，經(jīng)過(guò)文字層層過(guò)濾后搜索引擎得到獨(dú)特的、能反映頁(yè)面主體內(nèi)容、以詞為單位的內(nèi)容集合，按照詞頻提取關(guān)鍵字并配權(quán)重存儲(chǔ)在數(shù)據(jù)庫(kù)，按照頁(yè)面的層級(jí)順序進(jìn)行建立的關(guān)鍵字索引庫(kù)就是正向索引。

7、倒排索引，通過(guò)關(guān)鍵詞對(duì)出現(xiàn)關(guān)鍵詞的文件進(jìn)行排練組合，形成文件索引列表，這叫做倒排索引，可以用于用戶搜索。

8、鏈接關(guān)系計(jì)算，這是預(yù)處理很重要的一環(huán)。現(xiàn)在所有的主流搜索引擎排名因素中都包含網(wǎng)頁(yè)之間的鏈流動(dòng)信息，通過(guò)這些鏈信息進(jìn)行權(quán)重計(jì)算，Google PR值就是這種關(guān)系價(jià)值的一種體現(xiàn)。

9、特殊文件處理，對(duì)于除html文件外的文件類型，引擎蜘蛛現(xiàn)在沒(méi)沒(méi)有辦法識(shí)別，所以都會(huì)剔除掉。

排名

用戶輸入關(guān)鍵字之后，排名程序會(huì)計(jì)算相關(guān)性，獲取關(guān)鍵字矩陣，然后通過(guò)索引獲取站點(diǎn)信息，按照一定的格式生成搜索結(jié)果頁(yè)。

排名的過(guò)程是和用戶互動(dòng)的過(guò)程，引擎智能會(huì)根據(jù)歷史搜索和當(dāng)前搜索進(jìn)行聯(lián)想匹配得到一個(gè)最佳搜索結(jié)果呈現(xiàn)給用戶。

1、搜索詞處理，對(duì)搜索詞進(jìn)行處理①中文分詞②去停止詞③指令處理④拼寫(xiě)錯(cuò)誤糾正⑤整合搜索觸發(fā)。

2、文件匹配，經(jīng)過(guò)處理后，搜索引擎得到一些關(guān)鍵詞集合，通過(guò)索引找到包含關(guān)鍵詞的文件，并計(jì)算相關(guān)性進(jìn)行排序。

3、初始子集選擇，因?yàn)樗阉鹘Y(jié)果是巨量的文件，通常搜索結(jié)果頁(yè)面只展示前100個(gè)，百度會(huì)返回將近1000條記錄，依靠權(quán)重找到最多1000條文件記錄，作為篩選初始子集。

4、相關(guān)性計(jì)算，計(jì)算相關(guān)性是排名過(guò)程中最重要的一步，也是seoer優(yōu)化的重點(diǎn)范圍。①關(guān)鍵詞常用程度，利用歷史搜索算出關(guān)鍵詞的熱度。②詞頻和密度，一般認(rèn)為文件中沒(méi)有關(guān)鍵詞堆砌的情況下關(guān)鍵詞出現(xiàn)的頻率越高說(shuō)明相關(guān)性也越高。③關(guān)鍵詞位置和形式，是否出現(xiàn)在頁(yè)面權(quán)重比較高的位置，比如title、H1、strong等，也是前端需要優(yōu)化的重點(diǎn)范疇。④關(guān)鍵詞距離，分詞計(jì)算后的關(guān)鍵詞完整匹配出現(xiàn)，說(shuō)明最相關(guān)，其次是分詞之后兩個(gè)詞的距離。⑤鏈接分析及頁(yè)面權(quán)重，除了頁(yè)面本身的因素外，頁(yè)面的外鏈也影響重大，外鏈權(quán)重高，關(guān)鍵詞價(jià)值越高，頁(yè)面有越多以搜索詞為錨文字的導(dǎo)入鏈接，說(shuō)明頁(yè)面的相關(guān)性越強(qiáng)。

5、排名過(guò)濾及調(diào)整，經(jīng)過(guò)相關(guān)性計(jì)算，大體排名已經(jīng)被確定，之后搜索引擎可能還要進(jìn)行一些過(guò)濾算法，對(duì)排名進(jìn)行輕微的調(diào)整，其中最主要的是對(duì)作弊站點(diǎn)施加懲罰。

6、排名顯示，排名確定后，排名程序會(huì)調(diào)用原始頁(yè)面的標(biāo)題標(biāo)簽、說(shuō)明標(biāo)簽、快照日期等數(shù)據(jù)顯示在頁(yè)面上，有時(shí)也需要?jiǎng)討B(tài)生成頁(yè)面摘要。

7、搜索緩存，用戶的關(guān)鍵詞往往在一段時(shí)間內(nèi)是重復(fù)的，按照二八定律，長(zhǎng)尾理論，最常見(jiàn)的搜索詞沒(méi)有占到80%那么多，但是通常也有比較粗大的頭部，為了提高搜索效率，引擎會(huì)將熱詞進(jìn)行緩存，當(dāng)用戶搜索時(shí)可以直接從緩存數(shù)據(jù)中取出，不必再次進(jìn)行相關(guān)性計(jì)算，大大提高了搜索效率。

8、查詢及點(diǎn)擊日志，用戶的搜索行為都會(huì)形成日志進(jìn)行記錄，這些日志對(duì)于搜索結(jié)果的質(zhì)量起了重要的作用，引擎會(huì)自動(dòng)計(jì)算相關(guān)權(quán)重，并在下一次搜索里影響排名，所以好的網(wǎng)站是持續(xù)流量的基石。

鏈接在搜索中的算法原理

基于一個(gè)假設(shè)：好的網(wǎng)站很少會(huì)鏈接到壞的網(wǎng)站，反之則不成立，很多垃圾網(wǎng)站會(huì)鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站，試圖提高自己的信任指數(shù)。用現(xiàn)代的話說(shuō)就是信用背書(shū)，利用信用背書(shū)可以提高自己網(wǎng)站的權(quán)重值，獲得較好的排名。在排序算法中比重越來(lái)越高，seoer應(yīng)該重視外鏈在站點(diǎn)內(nèi)的布局，及自己的站點(diǎn)被外鏈引用的頻率。

高級(jí)搜索指令

1、把搜索詞放在雙引號(hào)里面，代表完全匹配不進(jìn)行分詞操作，連順序也必須完全匹配。百度和Google都支持這個(gè)指令。eg: "和平是我的夢(mèng)想"

2、減號(hào)，減號(hào)(-)代表搜索不包含減號(hào)后面詞語(yǔ)的內(nèi)容，使用這個(gè)指令時(shí)減號(hào)前面必須是空格，減號(hào)后面沒(méi)有空格，緊跟需要排除的詞。Google和百度都支持這個(gè)指令。

3、星號(hào)，星號(hào)(*)是常用的通配符，也可以用在搜索中。百度不支持星號(hào)匹配。

4、inurl，用于搜索查詢?cè)~出現(xiàn)在url中的頁(yè)面。百度和Google都支持inurl指令。

5、inanchor, 指令返回的結(jié)果是導(dǎo)入鏈接文字中包含搜索詞的頁(yè)面。百度不支持。

6、intitle, 指令返回的頁(yè)面中title標(biāo)簽包含的關(guān)鍵詞頁(yè)面。百度和Google和百度都支持該指令。

7、allintitle, 返回頁(yè)面title標(biāo)簽同時(shí)包含多個(gè)關(guān)鍵字的結(jié)果頁(yè)面，eg: allintitle:SEO 建站大全

8、allinurl, 返回地址中同時(shí)包含多個(gè)關(guān)鍵詞的結(jié)果頁(yè)面， eg：allinurl admin login。

9、filetype，該指令用于搜索特點(diǎn)格式的文件，Google和百度都支持，eg：filetype:doc 辣子雞丁，百度目前只支持pdf、doc、xls、ppt、rtf、all等格式，而Google則支持所有能索引的文件格式，包括html、php等。

10、site,這個(gè)指令是seoer最熟悉的高級(jí)搜索指令了，用來(lái)搜索某個(gè)域名下的所有文件，這個(gè)指令是查詢網(wǎng)站收錄頁(yè)面最有效直接的方法。不過(guò)site:指令并不準(zhǔn)確，尤其是Google中，返回的收錄頁(yè)面經(jīng)常有大的波動(dòng)，只能作為參考。

11、link，利用這個(gè)指令可以搜索某個(gè)url的反向鏈接，既可以包括內(nèi)部鏈接，也可以包括外部鏈接。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

你所不了解的搜索引擎

你所不了解的搜索引擎

搜索引擎面臨的問(wèn)題或瓶頸

搜索結(jié)果展示

搜索引擎工作原理

爬行和抓取

預(yù)處理

排名

鏈接在搜索中的算法原理

高級(jí)搜索指令

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

你所不了解的搜索引擎

搜索引擎面臨的問(wèn)題或瓶頸

搜索結(jié)果展示

搜索引擎工作原理

爬行和抓取

預(yù)處理

排名

鏈接在搜索中的算法原理

高級(jí)搜索指令

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av