網(wǎng)絡數(shù)據(jù)采集是指通過網(wǎng)絡爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。該方法可以將非結構化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件,并以結構化的方式存儲。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動關聯(lián)。
在互聯(lián)網(wǎng)時代,網(wǎng)絡爬蟲主要是為搜索引擎提供最全面和最新的數(shù)據(jù)。在大數(shù)據(jù)時代,網(wǎng)絡爬蟲更是從互聯(lián)網(wǎng)上采集數(shù)據(jù)的有利工具。
目前已經知道的各種網(wǎng)絡爬蟲工具已經有上百個,網(wǎng)絡爬蟲工具基本可以分為3類。
(1)分布式網(wǎng)絡爬蟲工具,如Nutch。
(2)Java網(wǎng)絡爬蟲工具,如Crawler4j、WebMagic、WebCollector。
(3)非Java網(wǎng)絡爬蟲工具,如Scrapy(基于Python語言開發(fā))。