亚洲精品国产精人妇,青娱乐导航,黄页久久免费

# lxml是一個(gè)高性能的python庫(kù)，用于解析（處理）HTML和XML文檔，
# 它提供了簡(jiǎn)單而靈活的API，幫助開(kāi)發(fā)者輕松讀取、解析、創(chuàng)建和修改XML和HTML文檔。
import requests # 導(dǎo)入requests庫(kù)，用于發(fā)送HTTP請(qǐng)求
from lxml import etree # 導(dǎo)入Lxml的etree模塊（庫(kù)）使用etree獲取網(wǎng)頁(yè)element對(duì)象
# 爬蟲(chóng)對(duì)HTML提取的內(nèi)容，提取標(biāo)簽中的文本內(nèi)容及屬性的值 比如提取a標(biāo)簽中href屬性的值，獲取URL，進(jìn)而繼續(xù)發(fā)起請(qǐng)求
from openpyxl import Workbook # 導(dǎo)入openpyxl庫(kù)，用于創(chuàng)建和操作Excel文件
# 定義GiteeCusts類(lèi)，用于獲取Gitee平臺(tái)上的客戶信息
class GiteeCusts:
    # 定義類(lèi)的初始化方法，用于初始化類(lèi)的屬性 self.url self.headers
    def __init__(self,url):
        self.url = url
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/143.0.0.0 Safari/537.36'}
    # 定義類(lèi)的方法，用于獲取客戶信息
    def get_custInfo(self):
        # 發(fā)送GET請(qǐng)求，獲取網(wǎng)頁(yè)內(nèi)容 url headers
        response = requests.get(self.url, headers=self.headers)
        # 將 html 內(nèi)容解析為 Element 對(duì)象, html = etree.HTML(text)
        htmlElement = etree.HTML(response.content)
        #xpath方法返回列表的三種情況
        # 1.返回空列表 []：根據(jù)xpath規(guī)則，表示沒(méi)有定位到任何元素
        # 2.返回字符串 ：根據(jù)xpath規(guī)則，匹配的一定是文本內(nèi)容或者某屬性的值
        # 3.返回element對(duì)象列表：根據(jù)xpath規(guī)則，匹配的是標(biāo)簽，可以對(duì)返回的element對(duì)象列表進(jìn)行進(jìn)一步的xpath篩選
        # 定位到需要爬取的頁(yè)面元素列表， html.xpath("xpath語(yǔ)法規(guī)則字符串")
        # xpath語(yǔ)法規(guī)則字符串，用于定位需要爬取的頁(yè)面元素
        giteelist = htmlElement.xpath('//section[@id="caseList"]/div/div[2]/div[1]/div')    
        # 定義客戶信息二維列表，并添加表頭
        custInfo =[['url', 'tag', 'title', 'info']]
        # 遍歷頁(yè)面元素列表，獲取每一個(gè)客戶信息
        for el in giteelist:
            #選擇擁有href屬性的所有<a>標(biāo)簽，使用的Xpath表達(dá)式：//a[@href]
            url = 'https://gitee.com/'+ el.xpath('./a/@href')[0]
            # 選擇span標(biāo)簽的文本內(nèi)容，使用的Xpath表達(dá)式：./a/div[2]/div[2]/span/text()
            tag = el.xpath('./a/div[2]/div[2]/span/text()')[0]
            title = el.xpath("./a/div[2]/div[3]/h3/text()")[0]
            info = el.xpath('./a/div[2]/div[3]/p/text()')[0]
            custInfo.append([url,tag,title,info])
        return custInfo
    #創(chuàng)建類(lèi)的實(shí)例，用于獲取客戶信息
    # 調(diào)用類(lèi)的方法，獲取客戶信息
    # 打印客戶信息
if __name__ == '__main__':
    custs = GiteeCusts('https://gitee.com/customers')
    custInfo = custs.get_custInfo()
    print(custInfo)

    #創(chuàng)建Excel對(duì)象
    wb = Workbook()
    sheet = wb.active
    for row in custInfo:
        sheet.append(row)
    # 保存Excel文件
    wb.save('gitee_custs.xlsx')

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

python Lxml模塊解析爬取的標(biāo)簽

python Lxml模塊解析爬取的標(biāo)簽

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

python Lxml模塊 解析爬取的標(biāo)簽

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

python Lxml模塊解析爬取的標(biāo)簽