一個叫做搜索引擎的家伙


謝宇衡

概述

隨著時代的發(fā)展,人與人之間的交流變得越來越便捷。至WEB開創(chuàng)以來,短短10年間人類就產(chǎn)生了10億網(wǎng)頁,而人類自有文字以來上萬年間產(chǎn)生的書也不過1億本左右。信息數(shù)字化傳媒逐漸替代紙媒,但是面對如此海量甚至泛濫的信息,我們應該如何從中篩選出有用的信息呢?

為了解決這一問題,搜索引擎應運而生了。作為查找信息的入口,熟悉地掌握搜索引擎并了解一些使用搜索引擎的方法能幫助我們節(jié)約查找信息的時間,甚至我們可以通過搜索引擎了解到一些我們前所未知的東西。下面我將向大家介紹一些使用搜索引擎的方法。

基本知識

一般來說搜索內(nèi)容主要由三個要素構成,即標題、URL、摘要。下面通過大家最常用的Google來說明。

注:跟“關鍵詞”一致的標題或摘要內(nèi)容,搜索引擎一般會以“紅色”的形式標注出來。

需要說明的兩個問題:

  1. 為了保證搜索的效率和反饋搜索內(nèi)容的及時性,當用戶提交查詢的時候,搜索引擎并非立即在Web上“搜索”一通,而是事先已將網(wǎng)頁收集好放在搜索引擎的數(shù)據(jù)庫中,用戶通過搜索得到的信息只是搜索引擎內(nèi)部數(shù)據(jù)庫的靜態(tài)網(wǎng)頁數(shù)據(jù)而已。
  2. 當用戶點擊搜索結果的標題或鏈接,獲得網(wǎng)頁全文的時候,他此時訪問的則不再是搜索引擎數(shù)據(jù)庫中的靜態(tài)網(wǎng)頁,而是網(wǎng)頁的原始出處。

所以,從理論上講,搜索引擎并不能保證用戶從搜索結果看到的標題摘要信息與他點擊的URL一致,甚至不能保證原有網(wǎng)頁的存在,這就是為什么有的時候搜索內(nèi)容的鏈接無法打開的原因。值得提出的是不同的搜索引擎收集網(wǎng)頁信息的時間不一樣,Google收集網(wǎng)頁的周期為28天而百度大概每3個月一次。

為了彌補這方面的缺陷,搜索引擎都會保存網(wǎng)頁收集過程中的網(wǎng)頁全文,并在返回結果中提供“網(wǎng)頁快照”或“歷史網(wǎng)頁”鏈接,保證讓用戶看到的網(wǎng)頁信息和摘要信息一致。關于如何利用網(wǎng)頁快照還有一些小技巧可以談。

主流搜索引擎的特點

現(xiàn)在的搜索引擎非常多,每一家互聯(lián)網(wǎng)公司似乎都想在搜索引擎上做點文章,百度、Google這樣的老牌搜索引擎就不必說了,一些不是主營搜索業(yè)務的公司也推出了搜索引擎,如騰訊的soso,搜狗的sogou,360最新推出的360sou,甚至Google離開中國后廣東幾個在校女生還推出了一個“谷姐搜索”。

每個搜索引擎的特點和搜索方式都存在一些差異,因為時間有限,下面僅介紹“百度”和“Google”的異同之處。

  1. 從搜索結果上看,谷歌在搜索結果顯的更客觀一些,尤其在搜索技術性文章的時候,結果更加精準。而百度則更側重于中國網(wǎng)民的搜索習慣,搜索結果更加大眾化。這就是為什么技術人員更喜歡用谷歌,而百度更符合大眾口味的原因。值得提出的是在一些冷門、專業(yè)化的搜索結果上Google比百度表現(xiàn)的優(yōu)秀得多,說明Google在搜索技術上更成熟一些。
  2. 在收錄網(wǎng)頁方面,Google的更新速率更快一些,一般的新站,如果被收錄了首頁,Google在接下來的很短的一段時間里,整個網(wǎng)站大部分網(wǎng)頁都會被收錄;而百度相對來說要謹慎得多,百度收錄網(wǎng)站的過程就是一個比較平緩的進程,它在一開始就會審核網(wǎng)站的所有文章,分析文章的價值,有選擇的進行收錄,這個過程持續(xù)不斷,收錄量也不會有太大波動。
  3. 在網(wǎng)頁標題上,百度對含有多個關鍵詞的標題比谷歌更友好,例如免費小說網(wǎng),就可以拆分出免費小說、小說網(wǎng),免費小說網(wǎng),小說四個關鍵詞;Google就不一定了。百度這種做法可以對用戶搜索的“關鍵詞”提供更多的“搜索結果”,但是搜索內(nèi)容不一定是用戶想要的,這是Google的搜索內(nèi)容比百度更精確的原因之一。

值得提出的是百度對用戶多個“關鍵詞”處理會自動處理成“或”的語法,而Google會自動處理成“與”的語法,特別是返回列表前面的內(nèi)容。例如搜索關鍵詞“宋城 技術”,百度的搜索結果為“宋城v技術”只要包含杭州或西湖的標題都呈現(xiàn);而Google則是“宋城^技術”,搜索標題里既包含杭州又西湖的頁面會優(yōu)先呈現(xiàn)出來。

百度搜索“宋城 技術”的返回結果


Google搜索“宋城 技術”的返回結果


在收錄內(nèi)容上Google一般會比百度收錄的多一些,所以Google在搜索結果會比百度更全面一些。下面我通過站內(nèi)搜索中國教育類網(wǎng)站(關鍵詞“site:edu.cn”)來說明兩個搜索引擎之間的差別。

圖:百度搜索關鍵詞“site:edu.cn”的返回結果

圖: Google搜索關鍵詞“site:edu.cn”的返回結果

通過搜索內(nèi)容可以看出百度收錄了43,300,000個網(wǎng)頁;而Google收錄了 76,200,000個網(wǎng)頁(二者收錄的差距近一倍!)。

百度在一些個性化服務方面做得比Google相對較好,如 “百度知道”、“百度貼吧”、“百度百科”等極大地豐富、便利了網(wǎng)民的生活;另外百度推出了一個框計劃,如搜索音樂或者快遞時,可直接在百度框里面得到自己想要的信息。相對百度,Google在做整合搜索方面的創(chuàng)新,意在將互聯(lián)網(wǎng)相關信息的內(nèi)容多面化立體性地展示給用戶;二者各有特點。

如百度搜索關鍵詞“歌曲 我愿意 王菲”的返回結果可直接在“百度框”里播放歌曲或者MV,是不是讓搜索變得便捷了?

搜索引擎的一些基本語法及應用

下面僅介紹使用百度搜索時,搜索過程中會常用的一些語法。Google跟百度的搜索語法大同小異。

站內(nèi)搜索“site”

Site語法的作用是限定在特定網(wǎng)站內(nèi)搜索。如果你知道這些網(wǎng)站中有你想要的信息,可以使用site語法縮小搜索范圍,加快搜索速度。

需要注意的是,“site”后面的一系列字符、標點都必須是英文字符、標點,另外 “site”后面的地址不能加“http//www.”或“www.”,這樣做是不合法的!如搜索“越獄 site:www.verycd.com”就不行。

使用雙引號("")縮小搜索范圍

在進行搜索時,搜索引擎為了返回給用戶盡可能多的內(nèi)容,會對用戶搜索的關鍵詞進行拆分。如搜索我的郵箱郵箱“goldsmile@163.com”,這時百度搜索引擎會拆分為“gold”、“smile”、“163.com”等關鍵詞。有時候這種拆分未必是用戶所希望的,可使用語法雙引號””來限定搜索結果中必須出現(xiàn)內(nèi)容。如搜索“goldsmile@163.com”時,加上””會返回僅跟“goldsmile@163.com ”相關的網(wǎng)頁內(nèi)容。

百度搜索關鍵詞“goldsmile@163.com”的返回結果

百度搜索關鍵詞“”goldsmile@163.com””的返回結果

google搜索關鍵詞“”goldsmile@163.com””的返回結果

使用語法“-”號

在關鍵詞的前面使用減號,也就意味著在查詢結果中不能出現(xiàn)該關鍵詞,例如,在搜索引擎中輸入“電視臺-中國網(wǎng)絡電視臺”,它就表示最后的搜索結果中一定不包含“中國網(wǎng)絡電視臺”。

在百度搜索中,這個語法的界定并不嚴格!

使用filetype語法搜索特定的文本信息

在搜索關鍵詞中加入“filetype”意即搜索結果中包含制定格式的文件內(nèi)容。如搜索“番茄炒蛋 filetype:txt”時,網(wǎng)頁返回的都是txt的文件信息。用filetype搜索文本信息非常方便,如搜索“入黨申請 filetype:txt”時就會有許多“TXT”格式的文檔可下載。搜索電子書時也可將后綴名改為常見的電子書格式,如“filetype:epub”、“filetype:word”、“filetype:chm”。

百度搜索關鍵詞“入黨申請 filetype:txt”的返回結果

使用搜索引擎應注意的一些問題

1,了解你所搜索的東西在網(wǎng)上是否存在?如果存在的話會在什么地方以什么樣的形式存在?有的時候你所搜索的東西在網(wǎng)上并不一定存在,這個時候用搜索引擎未必是最好的選擇(114查詢可能比使用搜索引擎更好),所以進行搜索之前應仔細思考你所搜索的東西在網(wǎng)上是否存在,有沒比搜索引擎更好的方式。

一般說來像文獻、小說、電影、音樂、新聞,生活中遇到的常識、發(fā)生的問題等都能在網(wǎng)上找到相關的信息。而且根據(jù)信息類型的不同,信息存在的方式也有差別。比如新聞存在的形式就是多種多樣的,有官方報道、小道消息、門戶網(wǎng)站發(fā)布等。作為信息的查詢者不能只通過一種渠道進行單一的途徑來獲取信息,而是應多渠道立體化地了解這些信息。

百度搜索關鍵詞“朝鮮衛(wèi)星”的返回結果

Google搜索關鍵詞“朝鮮新聞”的返回結果

從以上例子可以看出,同樣是朝鮮衛(wèi)星發(fā)射成功,不同媒體的報道內(nèi)容、態(tài)度、立場都不盡相同。所以搜索者應盡量立體化全方面地檢索自己需要了解的信息。

2,搜索時應盡量避免一些低級錯誤,如搜錯關鍵詞,將“王菲”打成了“王非”,這樣的查找結果肯定不是你所需要的。為了避免關鍵詞被搜索引擎拆分,可在關鍵詞上加上引號。

3,注意搜索內(nèi)容的網(wǎng)頁特征。搜索之前一定要注意自己所搜索的內(nèi)容會在什么樣的網(wǎng)站以什么樣的形式存在,會出現(xiàn)哪些特別的關鍵詞。根據(jù)這些關鍵詞進行查找會起到事半功倍的效果。

這個是如何使用好搜索引擎最核心的內(nèi)容,我通過下面的例子來說明:
如何查找電影

尋找頁面特征

查找電影時我們會發(fā)現(xiàn)在有時頁面上有時會出現(xiàn)鏈接地址,直接復制就可以用迅雷、旋風等下載工具下載,非常方便。下圖為論壇上出現(xiàn)的《邊境風云》的下載鏈接。通過直接復制下載地址就可以用迅雷下載。

圖:論壇上出現(xiàn)的關于電影《邊境風云》的頁面

根據(jù)頁面特征,我們會發(fā)現(xiàn)可以直接復制的鏈接里面有“thunder://…”這樣比較獨特的關鍵詞。

根據(jù)頁面特征進行檢索

那么我們通過剛剛出現(xiàn)的頁面特征搜索關鍵詞“《邊境風云》 thunder”會是什么效果呢?

圖:百度搜索關鍵詞“《邊境風云》 thunder”的返回結果

巧用“快照”

是不是搜索好了點擊頁面直接下載就好了?是的,但先別急,因為這樣還不夠方便。最好的方法是點開百度快照,這樣做有三個好處:其一,保證你搜索到的信息一定存在(你點擊的頁面可能不存在了,而快照上一定存在);其二,快照里面會將你查找的關鍵詞標紅,便于你快速尋找;其三,規(guī)避頁面上出現(xiàn)的廣告或者病毒等。

圖:打開百度快照后的頁面

影視搜索特點

電影具有時效性,最新出來的電影在搜索引擎上是很難查找到的,這跟搜索引擎的靜態(tài)數(shù)據(jù)庫更新周期有關,前面已講,這里不在贅述了。所以最新出來的電影不建議通過搜索引擎來查找,但是大家可以通過新浪微博等這樣短、平、快的平臺來搜索最新的信息。

其它搜索方式

查找信息時搜索引擎未必是你最佳的選擇,有的時候在一些門戶網(wǎng)站反而更容易搜索到一些你想要的內(nèi)容。

影視搜索

胖次搜索(訪問地址)的頁面看起來很二,但是搜索效果非常好,搜索完后所反饋的結果都是百度網(wǎng)盤的內(nèi)容,通過胖次找到的資料可以直接存到自己的百度云盤里,若是搜索影視保存完后可以用百度云直接觀看,非常方便。筆者經(jīng)常通過胖次搜索查找一些經(jīng)典影視。

企業(yè)信息

啟信寶搜索(訪問地址)查找企業(yè)相關的信息非常方便,啟信寶收錄的企業(yè)不僅多而且全面,如果企業(yè)經(jīng)營信息有變化啟信寶也會經(jīng)常更新。通過啟信寶搜索企業(yè)信息比用搜索引擎直接搜索反饋結果更好。

電子書

鳩摩搜書(訪問地址)是一個聚合了百度云,kindle114等諸多國內(nèi)著名電子書資源匯集網(wǎng)站。在鳩摩搜書上你可以自由選擇文件格式,并且可以看到電子書資源所處的網(wǎng)站。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容