1.新建一個(gè)爬蟲項(xiàng)目
可以使用 scrapy startproject 項(xiàng)目名稱
2.創(chuàng)建一個(gè)自己的爬蟲文件
scrapy genspider 文件名字+目標(biāo)網(wǎng)站的域名
3.在items文件中定義自己要爬取的字段
字段的名字自己定義
4.在自己創(chuàng)建的爬蟲文件夾下編寫爬蟲代碼
這個(gè)自動(dòng)生成的類中有一個(gè)parse方法,這個(gè)方法中有自帶的response對象(可以直接使用xpath語法),只需要在這個(gè)方法中編寫自己的爬蟲,然后導(dǎo)入自己在items中創(chuàng)建的字段類,把獲取到的數(shù)據(jù)保存到這些字段當(dāng)中,最后用yield函數(shù)返回?cái)?shù)據(jù)到管道(pipelines)當(dāng)中
5.在管道中對獲取到的數(shù)據(jù)進(jìn)行持久化操作
如果保存數(shù)據(jù)庫的話可以在settings文件中提前設(shè)置號各個(gè)數(shù)據(jù)庫要用到的變量,然后導(dǎo)入這些數(shù)據(jù)庫的信息,構(gòu)建連接數(shù)據(jù)庫的方式,最后插入數(shù)據(jù)
6.進(jìn)入自己創(chuàng)建的爬蟲目錄下
使用(scrapy crawl +自己爬蟲文件的名稱)來進(jìn)行項(xiàng)目的運(yùn)行