Scrapy 教程

  • 安裝scrapy
    這里提示一個(gè)技巧,我們用douban的源,這樣安裝快些
pip install -i https://pypi.douban.com/simple virtualenv 
  • 用scrapy新建一個(gè)工程
scrapy startproject yourProject
  • 新建一個(gè)爬蟲(chóng)
scrapy genspider 爬蟲(chóng)名稱(chēng) example.com(爬蟲(chóng)網(wǎng)址)
  • 這里我是用pycharm和virtualenv,開(kāi)發(fā)的,我在pycharm設(shè)置下編譯環(huán)境,一般在你環(huán)境下的bin目錄下python2.7
image.png
image.png
  • 由于pycharm沒(méi)法直接調(diào)試scrapy,我們需要自己新建一個(gè)main.py來(lái)執(zhí)行scrapy的命令行,新建的main.py代碼如下
from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入該模塊
execute(["scrapy", "crawl", "jobbole"]) #相當(dāng)于命令行 scrapy crawl jobbole(之前設(shè)置的爬蟲(chóng)名稱(chēng))

這樣就可以用斷點(diǎn)進(jìn)行調(diào)試了

  • 禁止robot協(xié)議,避免過(guò)濾了有爬蟲(chóng)協(xié)議的網(wǎng)站,導(dǎo)致爬的網(wǎng)站很少,??
    修改settings.py,將
ROBOTSTXT_OBEY = False
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 引用Scrapy 官方教程 一,概述 Scrapy 是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫(xiě)的應(yīng)用框架,可以使...
    一曲廣陵散閱讀 943評(píng)論 0 0
  • 假設(shè)你已經(jīng)裝好了Scrapy,如果沒(méi)有請(qǐng)查看安裝指南.。 將要抓取 quotes.toscrape.com網(wǎng)站。 ...
    ximengchj閱讀 4,934評(píng)論 0 5
  • Scrapy 教程 本文翻譯自scrapy的最新官方教程,覺(jué)得有幫助的朋友可以小小打賞一下,謝謝。 首先,用戶(hù)需要...
    fromradio閱讀 1,585評(píng)論 2 14
  • 個(gè)人想法: 翻譯文件源自Scrapy Documentation(Release 1.4.0)而我暫時(shí)選定了其中的...
  • 安裝步驟:安裝相關(guān)依賴(lài) 進(jìn)入githup 中 setup.py查看相關(guān)依賴(lài): 在終端中查看是否安裝: 沒(méi)有安裝的直...
    d1b0f55d8efb閱讀 8,332評(píng)論 5 2

友情鏈接更多精彩內(nèi)容