scrapy抓取名人名言

roots.txt文件解讀
通過一天多的努力,我終于成功搭建好了云服務(wù)器上的各種環(huán)境并去抓取了數(shù)據(jù)。在這個(gè)過程中,我先用了MobaXterm,后改用了Xshell。
*1. MobaXterm使用體驗(yàn)

MobaXterm首頁.png

MobaXterm是一個(gè)很方便的軟件,它免安裝,連接迅速,并且代碼書寫界面美觀。
連接云服務(wù)器.png

然而,在我使用了一段時(shí)間后,也發(fā)現(xiàn)了它的一些瑕疵。MobaXterm連接是不太穩(wěn)定的,即使我更改過了設(shè)置,情況也沒有改善。
alive設(shè)置.png

除此之外,我還遇上了上傳文件權(quán)限不足的問題
文件操作權(quán)限不足.png

通過,多方查找,這是由于新用戶并沒有獲得對(duì)文件進(jìn)行操作的權(quán)限,這可以通過

sudo chmod 777 spiders(文件名)

命令來賦予用戶權(quán)限。

*2. Xshell使用體驗(yàn)
相較于MobaXterm而言,Xshell需要安裝


安裝Xshell.png

連接云服務(wù)器成功界面


連接云服務(wù)器.png

但是,Xshell連接較穩(wěn)定,頁面簡單。上傳下載文件,Xshell需要安裝Xftp軟件,安裝過后,我上傳下載文件并沒有受到權(quán)限限制,
下載文件.png

總的來說,就界面設(shè)計(jì)而言,我更喜歡MobaXterm,但是就使用體驗(yàn)來說,我更傾向由于Xshell。

*3. 抓取數(shù)據(jù)存成json格式并轉(zhuǎn)換為xml
當(dāng)在本地編寫好spiders文件后(我使用的是Notepad++),將其上傳到spiders目錄下,執(zhí)行scrapy crawl quot(爬蟲名字)命令


代碼.png

數(shù)據(jù)存儲(chǔ)為json格式.png

我需要將爬取下來的數(shù)據(jù)存成json文件格式,使用以下命令:

scrapy crawl qout -o aaa.json

其中qout是爬蟲名稱,aaa.json是你想保存的json文件名稱。爬取結(jié)束后,我們可以在spiders目錄下看到新生成的aaa.json文件。


文件.png

接下來,可以用

sz aaa.json(文件名)

命令來下載該文件。下載下來的json文件里數(shù)據(jù)很多,所以,我找了一個(gè)比較投機(jī)取巧的方式來將它轉(zhuǎn)換成xml格式。
JSON與XML互轉(zhuǎn)這個(gè)網(wǎng)站能夠?qū)son與xml進(jìn)行相互轉(zhuǎn)換。
我抓取的json文件與轉(zhuǎn)換后的xml文件:json文件與xml

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容