Python爬蟲實(shí)戰(zhàn)入門一:工具準(zhǔn)備

一、基礎(chǔ)知識(shí)

使用Python編寫爬蟲,當(dāng)然至少得了解Python基本的語(yǔ)法,了解:

基本數(shù)據(jù)結(jié)構(gòu)

數(shù)據(jù)類型

控制流

函數(shù)的使用

模塊的使用

不需要過(guò)多過(guò)深的Python知識(shí),僅此而已。


二、開發(fā)環(huán)境、

操作系統(tǒng):Windows 7

Python版本:Python 3.4

代碼編輯運(yùn)行環(huán)境:個(gè)人推薦PyCharm社區(qū)版,當(dāng)然,Python自帶的IDLE也行,Notepad++亦可,只要自己使用得習(xí)慣。


三、第三方依賴庫(kù)

requests:一個(gè)方便、簡(jiǎn)潔、高效且人性化的HTTP請(qǐng)求庫(kù)

BeautifulSoup:HTML解析庫(kù)

pymongo:MongoDB的Python封裝模塊

selenium:一個(gè)Web自動(dòng)化測(cè)試框架,用于模擬登錄和獲取JS動(dòng)態(tài)數(shù)據(jù)

pytesseract:一個(gè)OCR識(shí)別模塊,用于驗(yàn)證碼識(shí)別

Pillow:Python圖像處理模塊


四、第三方庫(kù)安裝:

上面列出的第三方模塊大多可以通過(guò)pip install ××的方式直接安裝,部分模塊安裝方式不一樣,下面一一演示:

requests

pip install requests

BeautifulSoup

pip install bs4

pymongo

pip install pymongo

selenium

pip install selenium

Pillow

1、打開http://www.lfd.uci.edu/~gohlke/pythonlibs/

2、搜索找到“pillow”

3、根據(jù)自己系統(tǒng)的版本選擇對(duì)應(yīng)的下載包

4、安裝

pip install Pillow?4.0.0?cp34?cp34m?win32.whl

pytesseract

1、pip install pytesseract

2、安裝tesseract


這樣,我們的準(zhǔn)備工作就基本完成,如果有另外的需求,在實(shí)戰(zhàn)中再進(jìn)行安裝,接下來(lái)就可以實(shí)戰(zhàn)Python爬蟲了。


在學(xué)習(xí)中有迷茫不知如何學(xué)習(xí)的朋友小編推薦一個(gè)學(xué)Python的學(xué)習(xí)裙[227435450]無(wú)論你是大牛還是小白,是想轉(zhuǎn)行還是想入行都可以來(lái)了解一起進(jìn)步一起學(xué)習(xí)!裙內(nèi)有開發(fā)工具,很多干貨和技術(shù)資料分享!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容