Javascript對搜索引擎爬蟲的影響以及SEO策略

當(dāng)前主流的搜索引擎的爬蟲基本上都采用類似文本瀏覽器Lynx的技術(shù),因此濫用Javascript代碼可能會對搜索引擎的抓取操作造成不好的影響。例如,Google和Yahoo的官方文檔中說:如果在html中過多的使用 JavaScript、Cookie、會話 ID(session ID)、框架(frame or iframe)、DHTML 或 Flash 等復(fù)雜功能會使搜索引擎抓取工具在抓取網(wǎng)站時可能會遇到問題。根據(jù)本人的Web數(shù)據(jù)提取經(jīng)驗(yàn),發(fā)現(xiàn)用Javascript實(shí)現(xiàn)如下功能時會給爬蟲帶來麻煩:

有些內(nèi)容是采用Ajax異步方式從源站點(diǎn)下載的,而且是在用戶進(jìn)行界面操作時通過Javascript代碼激發(fā)下載操作,普通的類似文本瀏覽器的網(wǎng)絡(luò)爬蟲根本沒有能力模擬用戶的界面操作;
有些超鏈接的導(dǎo)航能力完全是用Javascript模擬的,例如在HTML A元素中加一段onclick事件處理代碼,點(diǎn)擊超鏈接時,有Javascript代碼進(jìn)行頁面導(dǎo)航;
有些頁面上顯示的多級菜單是用Javascript實(shí)現(xiàn)的,菜單的展現(xiàn)和消失都用Javascript控制,如果這些菜單激發(fā)的操作是導(dǎo)航到另外的頁面,那么這些導(dǎo)航信息很難被爬蟲抓??;
以上是一個不完全列表,是作者被人在設(shè)計網(wǎng)絡(luò)爬蟲時遇到的棘手問題。很多專家總結(jié)了一些針對Javascript的SEO策略,摘錄如下:

絕對避免導(dǎo)航及其他鏈接使用JavaScript。導(dǎo)航和鏈接是搜索引擎抓取網(wǎng)頁的賴以生存之本,如果搜索引擎無法抓取網(wǎng)頁,則代表了網(wǎng)頁不會出現(xiàn)在索引結(jié)果中,也就無從談起排名了。
盡量避免對內(nèi)容使用JavaScript。尤其是與關(guān)鍵詞相關(guān)部分的內(nèi)容,應(yīng)該盡量避免使用JavaScript來展現(xiàn),否則毫無疑問是要降低關(guān)鍵詞密度的。
實(shí)在需要使用JavaScript的部分,將這部分JavaScript腳本放在一個或幾個.js文件中,這樣能夠避免干擾到搜索引擎的抓取和分析
實(shí)在不能放在.js文件中的部分JavaScript腳本,將它們放在html代碼的底端,< /body>之前,這樣使搜索引擎分析網(wǎng)頁時最后才會發(fā)現(xiàn)它,降低對搜索引擎的干擾

正面利用Javascript

因?yàn)槠胀ǖ乃阉饕骐y于處理Javascript代碼,可以正確利用這個特點(diǎn)屏蔽頁面上一些不需要被搜索引擎索引的內(nèi)容,這樣,可以使頁面關(guān)鍵詞密度提高,這類信息可以稱為“垃圾信息”,例如,廣告、版權(quán)申明、大量導(dǎo)出鏈接、與內(nèi)容不相關(guān)的信息等等。我們可以將這些垃圾信息通通扔進(jìn)一個或數(shù)個.js文件中,從而降低對頁面實(shí)質(zhì)內(nèi)容的干擾,提高關(guān)鍵詞密度,向搜索引擎展示頁面內(nèi)容的核心。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容