亚洲伊人青草,欧美日韩中文婷婷

0 - 環(huán)境配置

首先我們需要下載 Python2.7，直接在官網(wǎng)獲取就行了

image.png

然后為了后面省事你需要一個(gè) pip
打開(kāi) cmd 切換到 Python27/Scripts
輸入 esay_install pip 安裝 pip

image.png

輸入 pip 看到類(lèi)似這樣的畫(huà)面就說(shuō)明安裝成功了

image.png

我們需要一個(gè)第三方 requests 來(lái)使用 get 和 post 方法獲取和傳輸數(shù)據(jù)

pip install requests

1 - 簡(jiǎn)單的獲取和發(fā)送數(shù)據(jù)

get 方法

在 cmd 中輸入Python 或者打開(kāi) Python IDLE 輸入

import requests
html = requests.get(“”https://www.python.org/“)
print html.content

然后你就能看到(看不到的話檢查一下你聯(lián)沒(méi)聯(lián)網(wǎng)

image.png

是不是看上去很熟悉，這就是使用 get 方法獲取到的網(wǎng)頁(yè)的 html

使用 get 方法向服務(wù)器發(fā)送數(shù)據(jù)的話，直接構(gòu)造 url 就行了
以 baidu 為例，要向服務(wù)器發(fā)送搜索的關(guān)鍵字 poi
那么構(gòu)造的 url 為

https://www.baidu.com/s?wd=poi

wd 即為 baidu 服務(wù)器獲取搜索關(guān)鍵字的字段

post 方法

使用 post 方法向服務(wù)器發(fā)送編碼為表單形式的數(shù)據(jù)，使用requests也能很方便地實(shí)現(xiàn)
首先你需要構(gòu)造一個(gè)數(shù)據(jù)字典，比如：

data = {
           'USERNAME': username,
           'PASSWORD': password,
           'RANDOMCODE': verifycode
          }

然后使用 requests.post 向服務(wù)器發(fā)送數(shù)據(jù)

html = requests.post("http://", data=data)

相比 get 方法這里多了一個(gè)參數(shù) data，requests會(huì)自動(dòng)把你的數(shù)據(jù)字典構(gòu)造為表單形式，這樣就可以向網(wǎng)站發(fā)送表單了

2 - 分析網(wǎng)頁(yè)獲取數(shù)據(jù)

簡(jiǎn)單地查找字符串

Python 自帶了正則表達(dá)式引擎，在 Python 中引入模塊 re 即可

import re

還是以之前的 baidu 為例，先使用 get 方法獲取網(wǎng)頁(yè)

html = requests.get("http://www.baidu.com/s?wd=poi")

接下來(lái)使用正則表達(dá)式匹配出獲取到的網(wǎng)頁(yè)中所有的鏈接

temp = re.findall(r"<a.*?href=\"http.*?<\/a>", html.content, re.I)

這樣就獲得了所有的含 url 的超鏈接標(biāo)簽
使用遍歷 temp 輸出每一條數(shù)據(jù)就能看到匹配到的字符串

for item in temp:
    print item

image.png

再把 url 從每一條中提取出來(lái)，就獲得了網(wǎng)頁(yè)中所有的鏈接，一個(gè)簡(jiǎn)單的爬蟲(chóng)差不多就是這個(gè)樣子了

使用 BeautiSoup 和 lxml 解析引擎

這都是第三方庫(kù)，需要使使用 pip 獲取

3 - demo

通過(guò)以上方法，使用 get 和 post 方法獲取和向服務(wù)器發(fā)送數(shù)據(jù)，再?gòu)姆祷氐臄?shù)據(jù)中尋找自己所需要的信息，一個(gè)簡(jiǎn)單的爬蟲(chóng)就完成了，再配合使用 cookie 等就可以抓取到大部分靜態(tài)網(wǎng)頁(yè)
對(duì)于動(dòng)態(tài)網(wǎng)頁(yè)比如使用 Ajax 異步加載等技術(shù)的，可以使用 selenium 這樣的自動(dòng)化測(cè)試工具來(lái)完全模擬瀏覽器行為抓取數(shù)據(jù)

下面給出一個(gè)編寫(xiě)簡(jiǎn)單的抓取靜態(tài)網(wǎng)頁(yè)數(shù)據(jù)爬蟲(chóng)的示例
Python 爬取全民K歌個(gè)人主頁(yè)全部歌曲和MV

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

基于 Python2.7 的簡(jiǎn)易爬蟲(chóng)入門(mén)

基于 Python2.7 的簡(jiǎn)易爬蟲(chóng)入門(mén)

0 - 環(huán)境配置

1 - 簡(jiǎn)單的獲取和發(fā)送數(shù)據(jù)

get 方法

post 方法

2 - 分析網(wǎng)頁(yè)獲取數(shù)據(jù)

簡(jiǎn)單地查找字符串

使用 BeautiSoup 和 lxml 解析引擎

3 - demo

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

基于 Python2.7 的簡(jiǎn)易爬蟲(chóng)入門(mén)

0 - 環(huán)境配置

1 - 簡(jiǎn)單的獲取和發(fā)送數(shù)據(jù)

get 方法

post 方法

2 - 分析網(wǎng)頁(yè)獲取數(shù)據(jù)

簡(jiǎn)單地查找字符串

使用 BeautiSoup 和 lxml 解析引擎

3 - demo

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av