一、基礎(chǔ)知識(shí)
使用Python編寫爬蟲,當(dāng)然至少得了解Python基本的語(yǔ)法,了解:
基本數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)類型
控制流
函數(shù)的使用
模塊的使用
不需要過(guò)多過(guò)深的Python知識(shí),僅此而已。
操作系統(tǒng):Windows 7
Python版本:Python 3.4
代碼編輯運(yùn)行環(huán)境:個(gè)人推薦PyCharm社區(qū)版,當(dāng)然,Python自帶的IDLE也行,Notepad++亦可,只要自己使用得習(xí)慣。
requests:一個(gè)方便、簡(jiǎn)潔、高效且人性化的HTTP請(qǐng)求庫(kù)
BeautifulSoup:HTML解析庫(kù)
pymongo:MongoDB的Python封裝模塊
selenium:一個(gè)Web自動(dòng)化測(cè)試框架,用于模擬登錄和獲取JS動(dòng)態(tài)數(shù)據(jù)
pytesseract:一個(gè)OCR識(shí)別模塊,用于驗(yàn)證碼識(shí)別
Pillow:Python圖像處理模塊
上面列出的第三方模塊大多可以通過(guò)pip install ××的方式直接安裝,部分模塊安裝方式不一樣,下面一一演示:
requests
pip install requests

BeautifulSoup
pip install bs4

pymongo
pip install pymongo

selenium
pip install selenium

Pillow
1、打開http://www.lfd.uci.edu/~gohlke/pythonlibs/
2、搜索找到“pillow”
3、根據(jù)自己系統(tǒng)的版本選擇對(duì)應(yīng)的下載包

4、安裝
pip install Pillow?4.0.0?cp34?cp34m?win32.whl

pytesseract
1、pip install pytesseract

2、安裝tesseract
這樣,我們的準(zhǔn)備工作就基本完成,如果有另外的需求,在實(shí)戰(zhàn)中再進(jìn)行安裝,接下來(lái)就可以實(shí)戰(zhàn)Python爬蟲了。
在學(xué)習(xí)中有迷茫不知如何學(xué)習(xí)的朋友小編推薦一個(gè)學(xué)Python的學(xué)習(xí)裙[227435450]無(wú)論你是大牛還是小白,是想轉(zhuǎn)行還是想入行都可以來(lái)了解一起進(jìn)步一起學(xué)習(xí)!裙內(nèi)有開發(fā)工具,很多干貨和技術(shù)資料分享!