熟悉windows的安裝Python不難,首先官網(wǎng)下載,地址:https://www.python.org/downloads/。
有兩個版本,根據(jù)需要選擇自己的版本,現(xiàn)在越來越多的庫開始支持3,所以建議下載3,這里我們下載2。
雙擊下載的安裝文件,一路Next即可,但是要注意勾選 pip 和 Add python.exe to Path
pip是Python生態(tài)體系里面的包管理工具,很多第三方庫可以通過它方便的管理。
安裝finish之后,打開命令行窗口,輸入Python:
如果出現(xiàn)這個界面說明安裝成功了,如果出現(xiàn)下面的情況:
‘python’不是內(nèi)部或外部命令,也不是可運(yùn)行的程序或批處理文件。
需要把python.exe的目錄添加到path中,一般是C:/Python27
有人爬取數(shù)據(jù)分析黃金周旅游景點(diǎn),有人爬取數(shù)據(jù)分析相親,有人大數(shù)據(jù)分析雙十一,連小學(xué)生寫論文都用上了大數(shù)據(jù)。
我們每個人每天都在往網(wǎng)上通過微信、微博、淘寶等上傳我們的個人信息,現(xiàn)在就連我們的錢都是放在網(wǎng)上,以后到強(qiáng)人工智能,我們連決策都要依靠網(wǎng)絡(luò)。網(wǎng)上的數(shù)據(jù)就是資源和寶藏,我們需要一把鏟子來挖掘它。
最近,AI 的興起讓 Python 火了一把。實(shí)際上 Python 擁有龐大的第三方支持,生態(tài)系統(tǒng)非常完整,可以適用各種場景和行業(yè)。這次,我們準(zhǔn)備通過 Python 學(xué)習(xí)爬蟲的開發(fā),既簡單有趣,而且是數(shù)據(jù)采集重要一環(huán)。同時脫離應(yīng)用談技術(shù)就是耍流氓,通過制作電子書學(xué)習(xí)數(shù)據(jù)的收集與整理,即能學(xué)到東西又有實(shí)用價值。
我們將通過爬取網(wǎng)頁信息這個很小的應(yīng)用場景來體會數(shù)據(jù)預(yù)處理的思想,并從中學(xué)習(xí)了解數(shù)據(jù)處理中抓取、處理、分組、存儲等過程的實(shí)現(xiàn)。我這次分享主要分為以下幾個部分:
Python 語法的講解,通過分享掌握簡單的 Python 開發(fā)語法和思路,側(cè)重于后面爬蟲開發(fā)的需要用的內(nèi)容
Scrapy 爬蟲開發(fā),通過分享了解基本的 Scrapy 開發(fā),并實(shí)現(xiàn)從網(wǎng)絡(luò)爬取數(shù)據(jù)
使用 Sigil 制作 epub 電子書
最后,我希望通過分享能夠入門,并喜歡上 Python 開發(fā),并且掌握 Scrapy 爬蟲開發(fā)的思路和方法。