-
Web搜索結(jié)構(gòu)
-
采集器(爬蟲(chóng))必須提供的功能特點(diǎn)
- 魯棒性
Web中有些服務(wù)器會(huì)制造采集器陷阱,這些陷阱實(shí)際上是web頁(yè)面的生成器,它能在某個(gè)域下生成無(wú)數(shù)網(wǎng)頁(yè),從而使采集器陷入到一個(gè)無(wú)線的采集循環(huán)中去。采集器必須要能從這類陷阱中跳出來(lái)。當(dāng)然,這些陷阱不一定是惡意的,有時(shí)可能是網(wǎng)頁(yè)設(shè)計(jì)疏忽導(dǎo)致的。 - 禮貌性
Web服務(wù)器具有一些隱式或顯式的政策來(lái)控制采集器訪問(wèn)它們的頻率。設(shè)計(jì)采集器時(shí)必須要遵守這些代表禮貌性的訪問(wèn)策略。(遵守robots.txt ,只訪問(wèn)允許的網(wǎng)站)
- 魯棒性
-
采集器應(yīng)該提供的功能特點(diǎn)
- 分布式
- (規(guī)模)可擴(kuò)展性
- 性能和效率
- 質(zhì)量
- 新鮮度
- (功能)可擴(kuò)展性
-
采集器的架構(gòu)
- 待采集URL池
- DNS解析模塊
- 抓取模塊
- 分析模塊
- URL 去重模塊
-
URL采集池
- 支持優(yōu)先級(jí)處理并遵循禮貌性訪問(wèn)原則
- 兩個(gè)主要子模塊:F個(gè)前端隊(duì)列集合,B個(gè)后端隊(duì)列集合
- 滿足先進(jìn)先出原則
- 前端隊(duì)列主要實(shí)現(xiàn)優(yōu)先級(jí)訪問(wèn)功能,而后端隊(duì)列實(shí)現(xiàn)禮貌性訪問(wèn)功能
- 首先,優(yōu)先級(jí)分配器會(huì)基于URL的抓取歷史賦給該URL一個(gè)整數(shù)i表示其優(yōu)先級(jí),其中i的取值在1到F之間。比如給一篇變化更頻繁的文檔分配更高的優(yōu)先級(jí)。
B個(gè)后端隊(duì)列中的每個(gè)隊(duì)列維持下列固定情況:(1)當(dāng)采集正在進(jìn)行時(shí),隊(duì)列不會(huì)為空(2)隊(duì)列只包含來(lái)自單個(gè)主機(jī)的URL。使用一個(gè)輔助表T來(lái)維護(hù)從主機(jī)到后端隊(duì)列的映射。當(dāng)某個(gè)后端隊(duì)列為空并從前端隊(duì)列重新填充時(shí),T必須進(jìn)行相應(yīng)的更新。
維護(hù)一個(gè)堆隊(duì)列,其中的每個(gè)元素對(duì)應(yīng)一個(gè)后端隊(duì)列,元素值為該隊(duì)列對(duì)應(yīng)的主機(jī)重新訪問(wèn)的最早時(shí)間te。
某個(gè)采集線程在請(qǐng)求URL池的一個(gè)URL時(shí),會(huì)從上述堆中取出其根節(jié)點(diǎn),并且等待相應(yīng)時(shí)間te。然后,從根節(jié)點(diǎn)對(duì)應(yīng)的后端隊(duì)列j中取出隊(duì)列首部的URLu,并指令u的抓取操作。采集u后,條用線程會(huì)檢查j是否為空。如果為空,則選擇一個(gè)前端隊(duì)列并去除該隊(duì)列的首部URLv。在選擇前端隊(duì)列時(shí)會(huì)傾向于高優(yōu)先級(jí)隊(duì)列(通常有一個(gè)隨機(jī)過(guò)程來(lái)實(shí)現(xiàn)),即保證高優(yōu)先級(jí)URL能更快流入到后端隊(duì)列中。對(duì)于URLv,我們會(huì)檢查在某個(gè)后端隊(duì)列中是否已包含了來(lái)自同一主機(jī)的URL。如果存在,那么v就會(huì)加入該隊(duì)列中,這樣我們就需要重新回到前端隊(duì)列來(lái)尋找另外一個(gè)候選URL插入到現(xiàn)在為空的隊(duì)列j中。該過(guò)程不斷繼續(xù)指導(dǎo)j不再空。任何情況下,對(duì)隊(duì)列j,線程都會(huì)基于其中上次采集的URL屬性在隊(duì)中插入一個(gè)新的最早訪問(wèn)時(shí)間te。
-
Web網(wǎng)頁(yè)的重復(fù)問(wèn)題
- 檢測(cè)重復(fù)最簡(jiǎn)單的方法:為每個(gè)網(wǎng)頁(yè)計(jì)算出一個(gè)指紋,它是整個(gè)網(wǎng)頁(yè)文本的一個(gè)很精煉的摘要。
- 對(duì)于Web的近似重復(fù)的現(xiàn)象:搭疊技術(shù)(shingling)
信息檢索復(fù)習(xí)(10)——Web搜索
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
