轉載自公眾號:FightingCoder
在之前介紹過很多爬蟲庫的使用,其中大多數(shù)也是 Python 相關的,當然這些庫很多都是給開發(fā)者來用的。但這對一個對爬蟲沒有什么開發(fā)經(jīng)驗的小白來說,還是有一定的上手難度的。現(xiàn)在市面上其實也出現(xiàn)了非常多的爬蟲服務,如果你僅僅是想爬取一些簡單的數(shù)據(jù)的話,或者懶得寫代碼的話,其實利用這些工具還是可以非常方便地完成爬取的,那么本文就來總結一下一些比較實用的爬取服務和工具,希望在一定程度上能夠幫助你擺脫數(shù)據(jù)爬取的困擾。
下面總結的一部分工具其實都算是一些爬蟲工具的高層封裝、實用工具甚至是一些完善的商業(yè)服務,包括國內(nèi)的和國外的。
工具&服務列表
Chrome 擴展
Web Scraper:http://webscraper.io/
Data Scraper:https://data-miner.io/
Listly:https://listly.io/
Mercury:https://mercury.postlight.com/
框架
Scrapy:https://scrapy.org/
PySpider:https://github.com/binux/pyspider
Apify:https://sdk.apify.com/
商業(yè)服務
Parsehub:https://www.parsehub.com/
Octparse:https://www.octoparse.com/
Content Grabber:http://www.contentgrabber.com/
Mozenda:https://www.mozenda.com/
ScraperAPI:https://www.scraperapi.com/
Diffbot:https://www.diffbot.com/
ScrapeStorm https://www.scrapestorm.com/
Shenjianshou https://www.shenjian.io/
Zaoshu https://zaoshu.io/
下面來對這些工具和服務進行簡單的介紹和總結。
Web Scraper
它是一個獨立的 Chrome 擴展,安裝數(shù)目已經(jīng)到了 20w。它支持點選式的數(shù)據(jù)抓取,另外支持動態(tài)頁面渲染,并且專門為 JavaScript、Ajax、下拉拖動、分頁功能做了優(yōu)化,并且?guī)в型暾倪x擇器系統(tǒng),另外支持數(shù)據(jù)導出到 CSV 等格式。另外它們還有自己的 Cloud Scraper,支持定時任務、API 式管理、代理切換功能。
官網(wǎng):https://www.webscraper.io/
Data Scraper
Data Scraper 同樣是一個 Chrome 擴展,它可以將單個頁面的數(shù)據(jù)通過點擊的方式爬取到 CSV、XSL 文件中。在這個擴展中已經(jīng)預定義了 5w 多條規(guī)則,可以用來爬取將近 1.5w 個熱門網(wǎng)站。
不過這個擴展的使用是有限制的,免費版本每個月只能爬取 500 個頁面,更多則需要付費。
官網(wǎng):https://data-miner.io/
Listly
這同樣是一個 Chrome 插件,它可以快速地將網(wǎng)頁中的數(shù)據(jù)進行提取,并將其轉化為 Excel 表格導出,操作非常便捷。比如獲取一個電商商品數(shù)據(jù),文章列表數(shù)據(jù)等,使用它就可以快速完成。另外它也支持單頁面和多頁面以及父子頁面的采集,值得一試。
官網(wǎng):https://listly.io/
Mercury
這是一個開源的提供自動化解析的工具,使用 JavaScript 編寫,同時還提供了 Chrome 擴展工具。利用它我們可以完成頁面的智能解析,如自動提取文章標題、正文、發(fā)布時間等內(nèi)容。
另外它開放了源代碼,放在了 GitHub,我們可以直接安裝使用,使用命令行即可完成頁面的智能解析,速度還非??臁?/p>
官網(wǎng):https://mercury.postlight.com/
Scrapy
這可能是 Python 爬蟲學習者使用最多的爬蟲框架了,利用這個框架我們可以快速地完成爬蟲的開發(fā)。而且框架本身性能卓越、可配置化極強,另外開發(fā)者社區(qū)十分活躍,并且 Scrapy 具有配套的各種插件,幾乎可以實現(xiàn)任何站點的爬取邏輯,強烈推薦。
官網(wǎng):https://scrapy.org/
PySpider
PySpider 是一個基于 Python 開發(fā)的爬蟲工具,它帶有可視化的管理工具,并且可以通過在線編程的方式完成爬蟲的創(chuàng)建和運行。另外它還支持分布式爬取,并支持存儲到各種數(shù)據(jù)庫。由于是代碼來實現(xiàn)編程,因此其可擴展性還是很強的,簡單易用。
GitHub:https://github.com/binux/pyspider
Apify
它是一個基于 Node.js 開發(fā)的爬蟲庫,由于是 JavaScript 編寫,因此它對 JavaScript 渲染頁面的爬取是完全支持的,對接了 Puppeteer、Cheerio。另外其可定制化也非常強,支持各種文件格式的導出,并且支持和 Apify Cloud 的對接實現(xiàn)云爬取。
官網(wǎng):https://sdk.apify.com/
Parsehub
ParseHub 是一個基于 Web 的抓取客戶端工具,支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等機制,該應用程序可以分析和從網(wǎng)站獲取數(shù)據(jù)并將其轉換為有意義的數(shù)據(jù)。它還可以使用機器學習技術識別復雜的文檔,并能導出為 JSON、CSV、Google 表格等格式的文件。
Parsehub 支持 Windows,Mac 和 Linux,而且可用作Firefox擴展。另外它還支持一些高級功能,如分頁,無限滾動頁面,彈出窗口和導航。另外還可以將 ParseHub 中的數(shù)據(jù)可視化為 Tableau。
當然這個也收費的,免費版本限制為 5 個項目,每次限制爬取 200 頁。如果付費訂閱可以獲得 20 個私有項目,每次抓取 10000 個頁面,而且支持高級版的 IP 代理切換等功能。
官網(wǎng):https://www.parsehub.com
Dexi.io
Dexi.io,之前稱為 CloudScrape。它是一個爬蟲的商業(yè)服務,它支持可視化點擊抓取,而且配有自然語言解析工具使得解析更為精準,所有的抓取配置都在網(wǎng)頁端完成,并且可以通過控制臺來完成任務的運行和調(diào)度。另外它還提供許多代理 IP,還與第三方記性了集成,包括 Box.net、Google Drive 等工具。
這也是收費的,收費標準版是 119 美刀一個月,支持一個 Worker 和基礎服務,另外還有更高級別的服務。不過支持免費試用。
官網(wǎng):https://dexi.io/
Octparse
也是一個可視化爬蟲工具,支持在網(wǎng)頁上進行可視化點選,并且也支持常見的 JavaScript 渲染、Ajax 爬取等等,同樣是在云端運行和控制,另外提供了代理服務。
免費版支持創(chuàng)建 10 個爬取,但是提供了最基礎的服務,如果想要提供更多的服務如代理切換,則需要購買付費版本,標準版是 75 美金一個月。
官網(wǎng):https://www.octoparse.com/
Content Grabber
Content Grabber 同樣也是一個可視化的爬蟲工具,同樣支持可視化點選,支持 JavaScript 渲染、Ajax 爬取等功能,另外還有驗證碼識別等解決方案,并使用 Nohodo 作為 IP 代理。數(shù)據(jù)支持導出常用格式,也支持 PDF 格式導出。
官網(wǎng):http://www.contentgrabber.com/
Mozenda
Mozenda 類似,也是基于一個云端爬蟲服務,同樣支持可視化點選操作。它由兩個部分組成,一部分是用來完成數(shù)據(jù)提取功能,另一部分是 Web 控制臺來運行和控制各個爬蟲服務。另外它還提供了 FTP、亞馬遜 S3、Dropbox 等的支持。
官網(wǎng):https://www.mozenda.com/
ScraperAPI
這個站點提供了簡易的頁面渲染服務,站如其名,其爬取結果都是通過 API 來操作的。該站點提供了許多渲染引擎,我們通過調(diào)用提供的 API 并傳以不同的參數(shù)就可以完成頁面的渲染,類似于 Splash。
官網(wǎng):https://www.scraperapi.com/
Diffbot
Diffbot 是一個提供智能化解析的站點。例如一個新聞頁面,我們不再需要規(guī)則即可完成對其中內(nèi)容的提取,例如標題、正文、發(fā)布時間等等。它通過一些機器學習算法、圖像識別、自然語言處理等方案綜合解析,可以說是目前業(yè)界數(shù)一數(shù)二的頁面智能解析方案提供商。
官網(wǎng):https://www.diffbot.com/
Import.io
Import.io 可以說不僅僅是一個提供爬蟲服務的網(wǎng)站了,它提供了從數(shù)據(jù)爬取、清洗、加工到應用的一套完整解決方案,涉及到零售與制造業(yè)、數(shù)據(jù)爬取與加工、機器學習算法、風控等等方案。
官網(wǎng):https://www.import.io/
Embed.ly
其實 Embed.ly 是提供了自動獲取圖像,視頻,民意調(diào)查,幻燈片,音樂,實時視頻,表格,GIF,圖表等功能的服務,其中和爬蟲相關的就是頁面解析了。它提供了智能化頁面解析方案,類似 Diffbot,可以自動完成頁面的解析。
官網(wǎng):https://embed.ly/
ScrapeStorm
這個網(wǎng)站提供了一個可視化爬蟲工具,支持 Mac、Windows、Linux,工具十分強大,支持自動識別翻頁、自動識別內(nèi)容,另外支持 JavaScript 渲染,另外支持模擬登錄爬取等等。
然而我下載下來之后使用了一下,里面居然是后裔采集器?看來是這個站點盜用了了后裔采集器的源碼吧。
官網(wǎng):https://www.scrapestorm.com/
Shenjianshou
神箭手,這可以說是國內(nèi)做的數(shù)一數(shù)二的爬蟲平臺了,后臺的爬蟲使用 JavaScript 編寫,支持可視化點選、代碼編寫,另外提供云端爬取,提供了驗證碼識別、分布式爬取、JavaScript 渲染等功能。
另外神箭手還提供了規(guī)則市場、數(shù)據(jù)標注還有數(shù)據(jù) API 服務,,目前還上市了機器學習相關的服務,目前也正朝著智能化發(fā)展中。
另外神箭手旗下有一款后裔采集器,就是上文介紹的 ScrapeStorm 所采用的爬取工具,功能很強大,支持智能解析,值得一試。
官網(wǎng):https://www.shenjian.io
Bazhuayu
八爪魚采集器,可以說是國內(nèi)比較知名的一款采集器了,功能類似后裔采集器,可以通過可視化點選完成爬蟲的相關配置,部分功能比后裔采集器更加強大。
另外官方也提供了規(guī)則市場,獲取規(guī)則以快速完成數(shù)據(jù)的爬取而不用關心爬取的邏輯。
官網(wǎng):http://www.bazhuayu.com/
Zaoshu
是一家數(shù)據(jù)爬取服務提供商,不過目前已經(jīng)不面向于個人用戶,主要是提供企業(yè)數(shù)據(jù)服務,其也提供了可視化點選數(shù)據(jù)爬取服務,也可以通過一些配置完成復雜頁面的采集。
官網(wǎng):https://zaoshu.io/