Scrapy框架--通用爬蟲Broad Crawls(下,具體代碼實(shí)現(xiàn))

通過前面兩章的熟悉,這里開始實(shí)現(xiàn)具體的爬蟲代碼

廣西人才網(wǎng)

以廣西人才網(wǎng)為例,演示基礎(chǔ)爬蟲代碼實(shí)現(xiàn),邏輯:

  • 配置Rule規(guī)則:設(shè)置allow的正則-->設(shè)置回調(diào)函數(shù)
  • 通過回調(diào)函數(shù)獲取想要的信息
    具體的代碼實(shí)現(xiàn):

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class GxrcSpider(CrawlSpider):
    name = 'gxrc'
    allowed_domains = ['www.gxrc.com']
    start_urls = ['http://www.gxrc.com/']

    rules = (
        Rule(LinkExtractor(allow=r'WebPage/Company.*'),follow=True,callback='parse_company'),  # 配置公司正則
        Rule(LinkExtractor(allow=r'WebPage/JobDetail.*'), callback='parse_item', follow=True),  # 配置職位正則
    )

    def parse_item(self, response):
        """ 獲取職位信息 """
        i = {}
        i['job_name'] = response.css('h1#positionName::text').extract_first("")  # 職位名稱

        return i

    def parse_company(self, response):
        """ 獲取公司信息 """
        i = {}
        i['company_name'] = response.css('.inner h1::text').extract_first("")  # 公司名稱

        return i

這樣即可完成基礎(chǔ)的正則和信息抓取工作,至于Item和Pepiline和之前的寫法一樣。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1、通過CocoaPods安裝項(xiàng)目名稱項(xiàng)目信息 AFNetworking網(wǎng)絡(luò)請求組件 FMDB本地?cái)?shù)據(jù)庫組件 SD...
    陽明AI閱讀 16,236評論 3 119
  • 上海又來臺風(fēng)了。 不知道是第幾次連綿卻磅礴的雨了。真的好多次了。在徐州那樣一個(gè)城市我從來沒想過雨會(huì)是這樣一種景象,...
    四月十月閱讀 189評論 0 1
  • 嗡! 當(dāng)牧塵手中印法結(jié)成的那一瞬間,頓時(shí)半空中那座巨大的靈陣內(nèi)爆出了轟鳴之聲,緊接著一道道肉眼可見的靈力光線蔓延出...
    混沌天書閱讀 516評論 0 1
  • 分享一篇朋友的文章: 莊艷 作者 2017.02.22 10:32 打開App 每年的2月14日情人節(jié),...
    _一蘭閱讀 371評論 0 0
  • 今天小月給大家讀一個(gè)發(fā)生在1941年的離婚女人與富豪浪子的愛情故事。 1 故事最先出場的人物是女主白流蘇的四哥白四...
    伴讀磊磊閱讀 1,976評論 0 2

友情鏈接更多精彩內(nèi)容