日日操一区,婷婷一区二区三,曰韩不卡精品在线

Scrapy第二篇: 多層次網(wǎng)頁爬取 | 圖片爬取

（先隨便放個封面圖）

看到這個標(biāo)題，目測一大波老司機(jī)心里開始o(jì)s：難道又是 妹子圖？？？
（我。。。我還能說什么）

89768193

寶寶的品位可不一般的好吧?。?！
這年代最流行什么呀？
當(dāng)然是“女神”，“?；ā崩玻。。。~，說“網(wǎng)紅”的當(dāng)我沒說。。）
顏值高，有范兒，關(guān)鍵氣質(zhì)逆天對不對~

比如這樣：

這樣：

或者這樣：

這樣：

不錯吧？（嘿嘿據(jù)說最后這個還是我川的妹子~）心動不如行動，今天我們就用Scrapy把諸位女神收入囊中！
目標(biāo)網(wǎng)站：唯一圖庫
搜索關(guān)鍵詞：校花

唯一圖庫

一、步驟

1、首先分析網(wǎng)站
打開上面這個頁面

下拉就是各位MM的簡介

下拉到最底部就是這樣

第2頁

點完之后發(fā)現(xiàn)，真的只有6頁。

查看源代碼

隨便點擊進(jìn)入某個主頁

查看源碼

看完第一個圖，來看后面的圖

第二個圖是這樣

第三個圖是這樣

可以看出規(guī)律了吧，皆是是 url=xxx+_n.html(n為1，2，3...)的結(jié)構(gòu)，只要獲得前面那一串和最大頁數(shù)就可以構(gòu)造了。

但是進(jìn)一步分析就會發(fā)現(xiàn)，每個MM個人頁面內(nèi)圖片的URL結(jié)構(gòu)是不一樣的（這里也要注意），如下所示：

基本上無規(guī)律可循，不能構(gòu)造出來，只能從源碼中獲取圖片真實鏈接

2、思路
用Scrapy爬取思路：
1)先獲取首頁siteURL,以及標(biāo)題
2)然后由其進(jìn)入MM個人頁面獲取最大頁數(shù)Num和第一個圖片URL
3)構(gòu)造每一個圖片地址pageURL
4)requests獲取源碼中具體原圖地址detailURL
5)獲取圖片并保存入文件，以1)中標(biāo)題作為文件名

這里就涉及到了多層次頁面爬取的問題
怎么辦呢，不要忘了，可以用meta傳參數(shù)。

二、代碼

首先來看整個項目的文件結(jié)構(gòu)
以為沒有本項目用到middlewares中間件，所以刪去了

entrypoint是一個設(shè)置，使得程序可以在IDE中運(yùn)行。
只需要調(diào)用entrypoint即可運(yùn)行程序

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'XiaoHua'])

來看具體分塊代碼實現(xiàn)：

1、items部分

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy

class XiaohuaItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field() 
    siteURL=scrapy.Field() #首頁中各MM的URL
    pageURL=scrapy.Field() #每一張圖片入口URL
    detailURL=scrapy.Field() #圖片原圖地址
    title=scrapy.Field()  #MM標(biāo)題
    fileName=scrapy.Field() #文件夾名，每一個MM一個文件夾
    path=scrapy.Field()  #圖片存儲路徑（絕對路徑）

2、settings部分

# -*- coding: utf-8 -*-
# Scrapy settings for XiaoHua project

BOT_NAME = 'XiaoHua'
SPIDER_MODULES = ['XiaoHua.spiders']
NEWSPIDER_MODULE = 'XiaoHua.spiders'

#是否遵循機(jī)器人規(guī)則
ROBOTSTXT_OBEY = False
#默認(rèn)是16，一次可以請求的最大次數(shù)
CONCURRENT_REQUESTS=32
#下載延遲
DOWNLOAD_DELAY=0.1
#Cookies設(shè)置
COOKIES_ENABLED = False
#headers設(shè)置
DEFAULT_REQUEST_HEADERS = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

#管道設(shè)置
ITEM_PIPELINES = {'XiaoHua.pipelines.XiaohuaPipeline': 300}

3、spiders部分

# --coding:utf-8--
import scrapy
from XiaoHua.items import XiaohuaItem
from scrapy.http import Request
import requests
import re
import os
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

class Myspider(scrapy.Spider):
    name='XiaoHua'
    allowed_domains=['mmonly.cc']
    base=r'F:/Desktop/code/info/XiaoHua/'
    def start_requests(self):
        #一共有6頁
        for i in range(1,7):
            url='https://www.mmonly.cc/tag/xh1/'+str(i)+'.html'
            yield Request(url,callback=self.parse_one)

    def parse_one(self,response):
        #創(chuàng)建一個大的list存儲所有的item
        items=[]
        pattern=re.compile(r'<div class="title".*?<a.*?href="(.*?)">(.*?)</a></span></div>',re.S)
        mains=re.findall(pattern,response.text)
        for main in mains:
            #創(chuàng)建實例,并轉(zhuǎn)化為字典
            item=XiaohuaItem()
            item['siteURL']=main[0]
            item['title']=main[1]
            item['fileName']=self.base+item['title']
            items.append(item)

        for item in items:
            #創(chuàng)建文件夾
            fileName=item['fileName']
            if not os.path.exists(fileName):
                os.makedirs(fileName)
            #用meta傳入下一層
            yield Request(url=item['siteURL'],meta={'item1':item},callback=self.parse_two)

    def parse_two(self,response):
        #傳入上面的item1
        item2=response.meta['item1']
        source=requests.get(response.url)
        html=source.text.encode('utf-8')
        #用正則提取頁數(shù)
        pattern=re.compile(r'共(.*?)頁',re.S)
        Num=re.search(pattern,html).group(1)
        items=[]
        for i in range(1,int(Num)+1):
            #注意這里，創(chuàng)建實例的位置
            item=XiaohuaItem()
            item['fileName']=item2['fileName']
            #構(gòu)造每一個圖片的存儲路徑
            item['path']=item['fileName']+'/'+str(i)+'.jpg'
            #構(gòu)造每一個圖片入口鏈接，以獲取源碼中的原圖鏈接
            item['pageURL']=response.url[:-5]+'_'+str(i)+'.html'
            items.append(item)
        for item in items:
            yield Request(url=item['pageURL'],meta={'item2':item},callback=self.parse_three)

    def parse_three(self,response):
        item=XiaohuaItem()
        #傳入上面的item2
        item3=response.meta['item2']
        #匹配正則獲取圖片真實地址detailURL
        pattern=re.compile(r'<li class="pic-down h-pic-down"><a target="_blank" class="down-btn" href=\'(.*?)\'>.*?</a>',re.S)
        URL=re.search(pattern,response.text).group(1)
        item['detailURL']=URL
        item['path']=item3['path']
        item['fileName']=item3['fileName']
        yield item

4、pipelines部分

# -*- coding: utf-8 -*-
import requests
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

#用requests的get方法獲取圖片并保存入文件
class XiaohuaPipeline(object):
    def process_item(self, item, spider):
        detailURL=item['detailURL']
        path=item['path']
        fileName=item['fileName']

        image=requests.get(detailURL)
        f=open(path,'wb')
        f.write(image.content)
        f.close()
        print u'正在保存圖片：',detailURL
        print u'圖片路徑：',path
        print u'文件：',fileName
        return item

寫完代碼，直接調(diào)用entrypoint即可在IDE中運(yùn)行（我用的Pycharm）
這個小項目我也放到github上了：https://github.com/LUCY78765580/Python-web-scraping/tree/master/XiaoHua （如果您覺得有幫助，可以star我喲~）

三、結(jié)果

最后結(jié)果就是這樣的：

一共抓取圖片2114張

文件是這樣

隨便打開是這樣

四、參考：

meta傳參這一塊，參考了博客：
http://m.itdecent.cn/p/c77c59aa4b92

五、我分享我快樂

這里是你們要的小姐姐^_：

百度網(wǎng)盤：https://pan.baidu.com/s/1bpxPRen
密碼：25gq

下載下來稍稍解壓即可，不用太感謝(順手點個贊就行），我是造福人類的小天使~

六、總結(jié)

最后，總結(jié)本篇關(guān)鍵：
1、Scrapy爬取多級網(wǎng)頁結(jié)構(gòu)（主要用meta傳遞數(shù)據(jù)）
2、Scrapy爬取圖片的一般方法（別的方法放下次討論）
對了，不知各位有沒有發(fā)現(xiàn)，我們在爬唯一圖庫時，竟然如此順利，沒有遇到任何反爬。感嘆：良心網(wǎng)站呀

970168903

本篇就是這樣啦~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Scrapy爬女神圖（一）—— 這是你們要的小姐姐

Scrapy爬女神圖（一）—— 這是你們要的小姐姐

Scrapy第二篇: 多層次網(wǎng)頁爬取 | 圖片爬取

一、步驟

二、代碼

1、items部分

2、settings部分

3、spiders部分

4、pipelines部分

三、結(jié)果

四、參考：

五、我分享我快樂

六、總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Scrapy爬女神圖（一）—— 這是你們要的小姐姐

Scrapy第二篇: 多層次網(wǎng)頁爬取 | 圖片爬取

一、步驟

二、代碼

1、items部分

2、settings部分

3、spiders部分

4、pipelines部分

三、結(jié)果

四、參考：

五、我分享我快樂

六、總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、步驟

二、代碼

1、items部分

2、settings部分

3、spiders部分

三、結(jié)果

五、我分享我快樂

六、總結(jié)