好久好久,沒怎么寫東西,就把從GitHub上淘來的各種各樣語言的爬蟲框架分享給大家。
Python
python自然不用多說,擁有的爬蟲框架數(shù)不勝數(shù)。
-
scrapy,大名鼎鼎的爬蟲框架,功能強大,乃入門學習的必備良藥。支持多種多樣的配置特性,唯一可惜不支持分布式的特性,于是就誕生了scrapy-redis這個以
redis為隊列的分布式爬蟲框架。 - pyspider,應該是個華人寫的爬蟲框架,可支持的配置非常多,同時也支持分布式,只需要配置中間的消息隊列就可以。
- portia,可視化的爬蟲框架,對于編程經(jīng)驗少的人來說相當適合學習。
- xcrawler,輕量級的爬蟲框架。個人很簡易從讀輕量級的爬蟲框架的源代碼入手,這樣能夠由淺入深,學地更有意思。
-
cola,也是很強大的分布式爬蟲框架,只是可惜不支持
python 3以上。 - fetchman, 國人寫的爬蟲框架,采用grequests來并發(fā)請求。看過源代碼,寫的容易理解,所以對于新手來說很實用。
- gain, 使用```asyncio``來異步爬取的輕量級爬蟲框架。代碼很容易理解,利于學習。
Java
Java接觸的不是很多,所以知道的爬蟲框架不多。
-
webmagic,這個是國人寫的爬蟲框架,很好用,也很強大。源代碼的閱讀體驗也不錯,推薦寫
java的可以去熟悉熟悉。 - crawler4j, 比較好的爬蟲架構,對于學習和理解爬蟲框架很有用。
-
SeimiCrawler, 分布式爬蟲框架,也是受到
scrapy啟發(fā)。支持動態(tài)渲染的頁面爬蟲。 - elves, 輕量級的爬蟲框架,國人寫的。易于學習和理解。
Node
node接觸的更加不多,但是也淘到了不錯的幾個框架。
-
node-crawler,強大且流行。采用
Cheerio這個包解析網(wǎng)頁結構。 -
webster,高性能的
NodeJs爬蟲框架,可爬取動態(tài)渲染的內(nèi)容(通過headless Chrome)。
C#
C#作為筆者除了Python以外比較熟悉的語言了。但是發(fā)現(xiàn)其爬蟲框架少的可憐。哎,不禁嘆息。
-
DotnetSpider,整體架構參照了
WebMagic和Scrapy,是C#中比較強大的存在。目前已經(jīng)支持.net core 2.0,所以,喜歡C#的可以去玩玩。還是比較不錯的支持Entity Framework。 - WebCrawler,國人寫的輕量級的爬蟲框架??梢匀W習學習~~~
就這樣吧~ 不知道下回什么時候寫文章。繼續(xù)去看書了!?。≡僖妦~想想,下回寫個什么東西玩玩呢。