爬蟲小分隊(duì)的終極大任務(wù)就是簡(jiǎn)書大數(shù)據(jù),以前也做過(guò)一次,閱讀量也還可以。前段時(shí)間簡(jiǎn)書也是融資成功,簡(jiǎn)書也有一些改動(dòng),這次做分析也是一個(gè)不錯(cuò)的機(jī)會(huì)。
專題URL
這部分是沒(méi)有變得,因?yàn)楹?jiǎn)書沒(méi)有用戶管理的url,我們只能從專題URL入手,依舊是熱門和城市。

專題管理員URL
這部分就是新的思路,之前是爬取專題文章的作者,然后爬取作者的粉絲,這部分做完爬取對(duì)象。這次是先爬取專題管理員URL作為第一層用戶,這部分是異步加載的,還有就是首頁(yè)的和其他的專題在異步加載的url有所不同(這個(gè)大家找包的時(shí)候就知道了)。


粉絲和關(guān)注URL
我們可以這樣想,基本上管理員的粉絲都會(huì)很多,這部分大多像我們一樣,吃瓜群眾;還有同行間的話,就是關(guān)注用戶,這樣雙向傳遞,可以爬取大部分用戶(還是有一些用戶爬不到)。

優(yōu)點(diǎn)和缺點(diǎn)
這種方法比爬取文章會(huì)快很多,重復(fù)的數(shù)據(jù)也會(huì)少很多(因?yàn)橛脩魰?huì)投多篇文章)。缺點(diǎn)就是可能數(shù)據(jù)會(huì)不全。