從Github上淘來的爬蟲框架

好久好久,沒怎么寫東西,就把從GitHub上淘來的各種各樣語言的爬蟲框架分享給大家。

Python

python自然不用多說,擁有的爬蟲框架數(shù)不勝數(shù)。

  • scrapy,大名鼎鼎的爬蟲框架,功能強大,乃入門學習的必備良藥。支持多種多樣的配置特性,唯一可惜不支持分布式的特性,于是就誕生了scrapy-redis這個以redis為隊列的分布式爬蟲框架。
  • pyspider,應該是個華人寫的爬蟲框架,可支持的配置非常多,同時也支持分布式,只需要配置中間的消息隊列就可以。
  • portia,可視化的爬蟲框架,對于編程經(jīng)驗少的人來說相當適合學習。
  • xcrawler,輕量級的爬蟲框架。個人很簡易從讀輕量級的爬蟲框架的源代碼入手,這樣能夠由淺入深,學地更有意思。
  • cola,也是很強大的分布式爬蟲框架,只是可惜不支持python 3以上。
  • fetchman, 國人寫的爬蟲框架,采用grequests來并發(fā)請求。看過源代碼,寫的容易理解,所以對于新手來說很實用。
  • gain, 使用```asyncio``來異步爬取的輕量級爬蟲框架。代碼很容易理解,利于學習。

Java

Java接觸的不是很多,所以知道的爬蟲框架不多。

  • webmagic,這個是國人寫的爬蟲框架,很好用,也很強大。源代碼的閱讀體驗也不錯,推薦寫java的可以去熟悉熟悉。
  • crawler4j, 比較好的爬蟲架構,對于學習和理解爬蟲框架很有用。
  • SeimiCrawler, 分布式爬蟲框架,也是受到scrapy啟發(fā)。支持動態(tài)渲染的頁面爬蟲。
  • elves, 輕量級的爬蟲框架,國人寫的。易于學習和理解。

Node

node接觸的更加不多,但是也淘到了不錯的幾個框架。

  • node-crawler,強大且流行。采用Cheerio這個包解析網(wǎng)頁結構。
  • webster,高性能的NodeJs爬蟲框架,可爬取動態(tài)渲染的內(nèi)容(通過headless Chrome)。

C#

C#作為筆者除了Python以外比較熟悉的語言了。但是發(fā)現(xiàn)其爬蟲框架少的可憐。哎,不禁嘆息。

  • DotnetSpider,整體架構參照了WebMagicScrapy,是C#中比較強大的存在。目前已經(jīng)支持.net core 2.0,所以,喜歡C#的可以去玩玩。還是比較不錯的支持Entity Framework。
  • WebCrawler,國人寫的輕量級的爬蟲框架??梢匀W習學習~~~

就這樣吧~ 不知道下回什么時候寫文章。繼續(xù)去看書了!?。≡僖妦~想想,下回寫個什么東西玩玩呢。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容