爬蟲工具和服務——Python之外的選擇

轉載自公眾號:FightingCoder

在之前介紹過很多爬蟲庫的使用,其中大多數(shù)也是 Python 相關的,當然這些庫很多都是給開發(fā)者來用的。但這對一個對爬蟲沒有什么開發(fā)經(jīng)驗的小白來說,還是有一定的上手難度的。現(xiàn)在市面上其實也出現(xiàn)了非常多的爬蟲服務,如果你僅僅是想爬取一些簡單的數(shù)據(jù)的話,或者懶得寫代碼的話,其實利用這些工具還是可以非常方便地完成爬取的,那么本文就來總結一下一些比較實用的爬取服務和工具,希望在一定程度上能夠幫助你擺脫數(shù)據(jù)爬取的困擾。

下面總結的一部分工具其實都算是一些爬蟲工具的高層封裝、實用工具甚至是一些完善的商業(yè)服務,包括國內(nèi)的和國外的。

工具&服務列表

Chrome 擴展

框架

商業(yè)服務

下面來對這些工具和服務進行簡單的介紹和總結。

Web Scraper

它是一個獨立的 Chrome 擴展,安裝數(shù)目已經(jīng)到了 20w。它支持點選式的數(shù)據(jù)抓取,另外支持動態(tài)頁面渲染,并且專門為 JavaScript、Ajax、下拉拖動、分頁功能做了優(yōu)化,并且?guī)в型暾倪x擇器系統(tǒng),另外支持數(shù)據(jù)導出到 CSV 等格式。另外它們還有自己的 Cloud Scraper,支持定時任務、API 式管理、代理切換功能。

image

官網(wǎng):https://www.webscraper.io/

Data Scraper

Data Scraper 同樣是一個 Chrome 擴展,它可以將單個頁面的數(shù)據(jù)通過點擊的方式爬取到 CSV、XSL 文件中。在這個擴展中已經(jīng)預定義了 5w 多條規(guī)則,可以用來爬取將近 1.5w 個熱門網(wǎng)站。

不過這個擴展的使用是有限制的,免費版本每個月只能爬取 500 個頁面,更多則需要付費。

image

官網(wǎng):https://data-miner.io/

Listly

這同樣是一個 Chrome 插件,它可以快速地將網(wǎng)頁中的數(shù)據(jù)進行提取,并將其轉化為 Excel 表格導出,操作非常便捷。比如獲取一個電商商品數(shù)據(jù),文章列表數(shù)據(jù)等,使用它就可以快速完成。另外它也支持單頁面和多頁面以及父子頁面的采集,值得一試。

image

官網(wǎng):https://listly.io/

Mercury

這是一個開源的提供自動化解析的工具,使用 JavaScript 編寫,同時還提供了 Chrome 擴展工具。利用它我們可以完成頁面的智能解析,如自動提取文章標題、正文、發(fā)布時間等內(nèi)容。

另外它開放了源代碼,放在了 GitHub,我們可以直接安裝使用,使用命令行即可完成頁面的智能解析,速度還非??臁?/p>

image

官網(wǎng):https://mercury.postlight.com/

Scrapy

這可能是 Python 爬蟲學習者使用最多的爬蟲框架了,利用這個框架我們可以快速地完成爬蟲的開發(fā)。而且框架本身性能卓越、可配置化極強,另外開發(fā)者社區(qū)十分活躍,并且 Scrapy 具有配套的各種插件,幾乎可以實現(xiàn)任何站點的爬取邏輯,強烈推薦。

image

官網(wǎng):https://scrapy.org/

PySpider

PySpider 是一個基于 Python 開發(fā)的爬蟲工具,它帶有可視化的管理工具,并且可以通過在線編程的方式完成爬蟲的創(chuàng)建和運行。另外它還支持分布式爬取,并支持存儲到各種數(shù)據(jù)庫。由于是代碼來實現(xiàn)編程,因此其可擴展性還是很強的,簡單易用。

image

GitHub:https://github.com/binux/pyspider

Apify

它是一個基于 Node.js 開發(fā)的爬蟲庫,由于是 JavaScript 編寫,因此它對 JavaScript 渲染頁面的爬取是完全支持的,對接了 Puppeteer、Cheerio。另外其可定制化也非常強,支持各種文件格式的導出,并且支持和 Apify Cloud 的對接實現(xiàn)云爬取。

image

官網(wǎng):https://sdk.apify.com/

Parsehub

ParseHub 是一個基于 Web 的抓取客戶端工具,支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等機制,該應用程序可以分析和從網(wǎng)站獲取數(shù)據(jù)并將其轉換為有意義的數(shù)據(jù)。它還可以使用機器學習技術識別復雜的文檔,并能導出為 JSON、CSV、Google 表格等格式的文件。

Parsehub 支持 Windows,Mac 和 Linux,而且可用作Firefox擴展。另外它還支持一些高級功能,如分頁,無限滾動頁面,彈出窗口和導航。另外還可以將 ParseHub 中的數(shù)據(jù)可視化為 Tableau。

當然這個也收費的,免費版本限制為 5 個項目,每次限制爬取 200 頁。如果付費訂閱可以獲得 20 個私有項目,每次抓取 10000 個頁面,而且支持高級版的 IP 代理切換等功能。

image

官網(wǎng):https://www.parsehub.com

Dexi.io

Dexi.io,之前稱為 CloudScrape。它是一個爬蟲的商業(yè)服務,它支持可視化點擊抓取,而且配有自然語言解析工具使得解析更為精準,所有的抓取配置都在網(wǎng)頁端完成,并且可以通過控制臺來完成任務的運行和調(diào)度。另外它還提供許多代理 IP,還與第三方記性了集成,包括 Box.net、Google Drive 等工具。

這也是收費的,收費標準版是 119 美刀一個月,支持一個 Worker 和基礎服務,另外還有更高級別的服務。不過支持免費試用。

image

官網(wǎng):https://dexi.io/

Octparse

也是一個可視化爬蟲工具,支持在網(wǎng)頁上進行可視化點選,并且也支持常見的 JavaScript 渲染、Ajax 爬取等等,同樣是在云端運行和控制,另外提供了代理服務。

免費版支持創(chuàng)建 10 個爬取,但是提供了最基礎的服務,如果想要提供更多的服務如代理切換,則需要購買付費版本,標準版是 75 美金一個月。

image

官網(wǎng):https://www.octoparse.com/

Content Grabber

Content Grabber 同樣也是一個可視化的爬蟲工具,同樣支持可視化點選,支持 JavaScript 渲染、Ajax 爬取等功能,另外還有驗證碼識別等解決方案,并使用 Nohodo 作為 IP 代理。數(shù)據(jù)支持導出常用格式,也支持 PDF 格式導出。

image

官網(wǎng):http://www.contentgrabber.com/

Mozenda

Mozenda 類似,也是基于一個云端爬蟲服務,同樣支持可視化點選操作。它由兩個部分組成,一部分是用來完成數(shù)據(jù)提取功能,另一部分是 Web 控制臺來運行和控制各個爬蟲服務。另外它還提供了 FTP、亞馬遜 S3、Dropbox 等的支持。

image

官網(wǎng):https://www.mozenda.com/

ScraperAPI

這個站點提供了簡易的頁面渲染服務,站如其名,其爬取結果都是通過 API 來操作的。該站點提供了許多渲染引擎,我們通過調(diào)用提供的 API 并傳以不同的參數(shù)就可以完成頁面的渲染,類似于 Splash。

image

官網(wǎng):https://www.scraperapi.com/

Diffbot

Diffbot 是一個提供智能化解析的站點。例如一個新聞頁面,我們不再需要規(guī)則即可完成對其中內(nèi)容的提取,例如標題、正文、發(fā)布時間等等。它通過一些機器學習算法、圖像識別、自然語言處理等方案綜合解析,可以說是目前業(yè)界數(shù)一數(shù)二的頁面智能解析方案提供商。

image

官網(wǎng):https://www.diffbot.com/

Import.io

Import.io 可以說不僅僅是一個提供爬蟲服務的網(wǎng)站了,它提供了從數(shù)據(jù)爬取、清洗、加工到應用的一套完整解決方案,涉及到零售與制造業(yè)、數(shù)據(jù)爬取與加工、機器學習算法、風控等等方案。

image

官網(wǎng):https://www.import.io/

Embed.ly

其實 Embed.ly 是提供了自動獲取圖像,視頻,民意調(diào)查,幻燈片,音樂,實時視頻,表格,GIF,圖表等功能的服務,其中和爬蟲相關的就是頁面解析了。它提供了智能化頁面解析方案,類似 Diffbot,可以自動完成頁面的解析。

image

官網(wǎng):https://embed.ly/

ScrapeStorm

這個網(wǎng)站提供了一個可視化爬蟲工具,支持 Mac、Windows、Linux,工具十分強大,支持自動識別翻頁、自動識別內(nèi)容,另外支持 JavaScript 渲染,另外支持模擬登錄爬取等等。

然而我下載下來之后使用了一下,里面居然是后裔采集器?看來是這個站點盜用了了后裔采集器的源碼吧。

image

官網(wǎng):https://www.scrapestorm.com/

Shenjianshou

神箭手,這可以說是國內(nèi)做的數(shù)一數(shù)二的爬蟲平臺了,后臺的爬蟲使用 JavaScript 編寫,支持可視化點選、代碼編寫,另外提供云端爬取,提供了驗證碼識別、分布式爬取、JavaScript 渲染等功能。

另外神箭手還提供了規(guī)則市場、數(shù)據(jù)標注還有數(shù)據(jù) API 服務,,目前還上市了機器學習相關的服務,目前也正朝著智能化發(fā)展中。

另外神箭手旗下有一款后裔采集器,就是上文介紹的 ScrapeStorm 所采用的爬取工具,功能很強大,支持智能解析,值得一試。

image

官網(wǎng):https://www.shenjian.io

Bazhuayu

八爪魚采集器,可以說是國內(nèi)比較知名的一款采集器了,功能類似后裔采集器,可以通過可視化點選完成爬蟲的相關配置,部分功能比后裔采集器更加強大。

另外官方也提供了規(guī)則市場,獲取規(guī)則以快速完成數(shù)據(jù)的爬取而不用關心爬取的邏輯。

image

官網(wǎng):http://www.bazhuayu.com/

Zaoshu

是一家數(shù)據(jù)爬取服務提供商,不過目前已經(jīng)不面向于個人用戶,主要是提供企業(yè)數(shù)據(jù)服務,其也提供了可視化點選數(shù)據(jù)爬取服務,也可以通過一些配置完成復雜頁面的采集。

image

官網(wǎng):https://zaoshu.io/

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容