- 安裝scrapy
這里提示一個(gè)技巧,我們用douban的源,這樣安裝快些
pip install -i https://pypi.douban.com/simple virtualenv
- 用scrapy新建一個(gè)工程
scrapy startproject yourProject
- 新建一個(gè)爬蟲(chóng)
scrapy genspider 爬蟲(chóng)名稱(chēng) example.com(爬蟲(chóng)網(wǎng)址)
- 這里我是用pycharm和virtualenv,開(kāi)發(fā)的,我在pycharm設(shè)置下編譯環(huán)境,一般在你環(huán)境下的bin目錄下python2.7

image.png

image.png
- 由于pycharm沒(méi)法直接調(diào)試scrapy,我們需要自己新建一個(gè)main.py來(lái)執(zhí)行scrapy的命令行,新建的main.py代碼如下
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入該模塊
execute(["scrapy", "crawl", "jobbole"]) #相當(dāng)于命令行 scrapy crawl jobbole(之前設(shè)置的爬蟲(chóng)名稱(chēng))
這樣就可以用斷點(diǎn)進(jìn)行調(diào)試了
- 禁止robot協(xié)議,避免過(guò)濾了有爬蟲(chóng)協(xié)議的網(wǎng)站,導(dǎo)致爬的網(wǎng)站很少,??
修改settings.py,將
ROBOTSTXT_OBEY = False