roots.txt文件解讀
通過一天多的努力,我終于成功搭建好了云服務(wù)器上的各種環(huán)境并去抓取了數(shù)據(jù)。在這個(gè)過程中,我先用了MobaXterm,后改用了Xshell。
*1. MobaXterm使用體驗(yàn)

MobaXterm是一個(gè)很方便的軟件,它免安裝,連接迅速,并且代碼書寫界面美觀。

然而,在我使用了一段時(shí)間后,也發(fā)現(xiàn)了它的一些瑕疵。MobaXterm連接是不太穩(wěn)定的,即使我更改過了設(shè)置,情況也沒有改善。

除此之外,我還遇上了上傳文件權(quán)限不足的問題

通過,多方查找,這是由于新用戶并沒有獲得對(duì)文件進(jìn)行操作的權(quán)限,這可以通過
sudo chmod 777 spiders(文件名)
命令來賦予用戶權(quán)限。
*2. Xshell使用體驗(yàn)
相較于MobaXterm而言,Xshell需要安裝

連接云服務(wù)器成功界面

但是,Xshell連接較穩(wěn)定,頁面簡單。上傳下載文件,Xshell需要安裝Xftp軟件,安裝過后,我上傳下載文件并沒有受到權(quán)限限制,

總的來說,就界面設(shè)計(jì)而言,我更喜歡MobaXterm,但是就使用體驗(yàn)來說,我更傾向由于Xshell。
*3. 抓取數(shù)據(jù)存成json格式并轉(zhuǎn)換為xml
當(dāng)在本地編寫好spiders文件后(我使用的是Notepad++),將其上傳到spiders目錄下,執(zhí)行scrapy crawl quot(爬蟲名字)命令


我需要將爬取下來的數(shù)據(jù)存成json文件格式,使用以下命令:
scrapy crawl qout -o aaa.json
其中qout是爬蟲名稱,aaa.json是你想保存的json文件名稱。爬取結(jié)束后,我們可以在spiders目錄下看到新生成的aaa.json文件。

接下來,可以用
sz aaa.json(文件名)
命令來下載該文件。下載下來的json文件里數(shù)據(jù)很多,所以,我找了一個(gè)比較投機(jī)取巧的方式來將它轉(zhuǎn)換成xml格式。
JSON與XML互轉(zhuǎn)這個(gè)網(wǎng)站能夠?qū)son與xml進(jìn)行相互轉(zhuǎn)換。
我抓取的json文件與轉(zhuǎn)換后的xml文件:json文件與xml