getHref.py

函數(shù)功能：獲取所有的租房鏈接


from getMainPageInformation import *
from bs4 import  BeautifulSoup
import requests


url1='http://bj.xiaozhu.com/'
urls=['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(2,20,1)]

sourceData=[]
hreflist=MainPageInformation(url1)
for i in urls:
   MainPageInformation(i)

getMainPageInformation.py

函數(shù)功能：獲取租房鏈接

from bs4 import  BeautifulSoup
import requests
import pymongo

client=pymongo.MongoClient('localhost',27017)
Xiaozhu=client['Xiaozhu']
Href=Xiaozhu['href']

def MainPageInformation(url):
    self_url=url
    pageData=requests.get(self_url)
    data=BeautifulSoup(pageData.text,'lxml')
    href=data.select(' ul > li > a[class="resule_img_a"]')

    for i in href:
        data={
            'href':i.get('href'),
        }
        Href.insert_one(data)

getPageInformation.py

函數(shù)功能：獲取租房信息（可斷點續(xù)接）

from bs4 import  BeautifulSoup
import requests
import pymongo

client=pymongo.MongoClient('localhost',27017)
Xiaozhu=client['Xiaozhu']
Information=Xiaozhu['Information']
Href=Xiaozhu['href']

def getPageInformation(url):
    self_url=url
    self_pageData=requests.get(url)
    self_data=BeautifulSoup(self_pageData.text,'lxml')
    # print(self_data)
    titles=self_data.select('div.pho_info > h4 > em')
    roomImages=self_data.select('#curBigImage')
    prices=self_data.select("div.day_l > span")
    addresses=self_data.select('div.pho_info > p > span.pr5')
    hosterImages=self_data.select('div.member_pic > a > img')
    hosterName=self_data.select('div.w_240 > h6 > a')
    # print(titles)
    data={}
    for title,roomImage,price,address,hosterImage,name in zip(titles,roomImages,prices,addresses,hosterImages,hosterName):
        data={
            'title':title.get_text(),
            'roomImage':roomImage.get('src'),
            'price':price.get_text(),
            'address':address.get_text().strip(),
            'hosterImage':hosterImage.get('src'),
            'hosterName':name.get_text(),
            'href':url
        }
    Information.insert_one(data)

def getInformation():
    x=Href.find()
    y=Information.find(fields={'href':True,'_id':False})
    x_href=set(x)
    y_href=set(y)
    z=x-y
    for i in z:
        getPageInformation(i['href'])
    # print(titles)
    # print("-------------------------------------------")
    # print(roomImages)
    # print("-------------------------------------------")
    # print(price)
    # print("-------------------------------------------")
    # print(address)
    # print("-------------------------------------------")
    # print(hosterImage)



# url='http://bj.xiaozhu.com/fangzi/269024901.html'
getInformation()

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Week2_Practice3

Week2_Practice3

getHref.py

getMainPageInformation.py

getPageInformation.py

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Week2_Practice3

getHref.py

getMainPageInformation.py

getPageInformation.py

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av