昨天上午10點(diǎn)半,用采集器采集政府官網(wǎng)上需要的信息。
然后斷斷續(xù)續(xù)采集了一天。
工作時(shí)長(zhǎng):36h (算上為我通宵了一個(gè)晚上的電腦,雖然平常很嫌棄你但是還是愛你??
遇到了一系列問(wèn)題,然后一點(diǎn)點(diǎn)解決,也是一點(diǎn)點(diǎn)上手這個(gè)采集器,接下來(lái)我會(huì)記錄下這些問(wèn)題和解決方法,以供其他上手后裔采集器的小伙伴使用:
(先列個(gè)框架,陸續(xù)編輯完成ing。這樣下去可能還會(huì)再寫幾篇文章跟新。)
一、如果直接復(fù)制搜索結(jié)果的鏈接到采集器中,則顯示不出來(lái)搜索結(jié)果/利用智能采集構(gòu)建采集框架:
具體情況如下:
二、有的網(wǎng)頁(yè)搜索結(jié)果的鏈接和搜索界面的鏈接沒(méi)有變化:
三、有的網(wǎng)頁(yè)的搜索結(jié)果是滾動(dòng)加載的:
四、網(wǎng)頁(yè)“下一頁(yè)”(分頁(yè))位置改變,導(dǎo)致采集過(guò)程提前結(jié)束
五、打開網(wǎng)頁(yè)之后,需要登錄才能看到數(shù)據(jù)
六、打開網(wǎng)頁(yè)之后,需要操作幾個(gè)步驟才能看到數(shù)據(jù)
七、采集速度變慢了/卡殼了/重復(fù)采集同一個(gè)界面/網(wǎng)頁(yè)沒(méi)反應(yīng)
八、有些選項(xiàng)可以勾選一下
九、有些未解之謎:
在我已經(jīng)盡心盡力的完成了以上8個(gè)步驟之后,采集的時(shí)候仍然會(huì)出現(xiàn)數(shù)據(jù)沒(méi)有全采集完便顯示了“本次采集已經(jīng)完成”的情況。
還有就是,在今天早上,遇到了一個(gè)不知道是不是bug的東西,具體情況如下: