對(duì)四川大學(xué)公共管理學(xué)院新聞數(shù)據(jù)爬取的實(shí)驗(yàn)報(bào)告

首先生成項(xiàng)目結(jié)構(gòu)

定義要抓取的數(shù)據(jù)為:新聞標(biāo)題、新聞發(fā)生時(shí)間、新聞具體內(nèi)容和uil

找到item文件并進(jìn)行修改



但是修改失敗了(不知道原因)把修改的url=scrapy.Field()這句刪掉后表示修改成功,后面發(fā)現(xiàn)這不是主要原因。修改失敗主要是權(quán)限問(wèn)題,使用root來(lái)修改時(shí)表現(xiàn)為成功。

進(jìn)入所在項(xiàng)目子文件



編寫提取item數(shù)據(jù)的Spider


整個(gè)實(shí)驗(yàn)過(guò)程最困難的就是這段代碼過(guò)程,定位方法選擇的是xpath,感覺(jué)它對(duì)于非熟練者較為友好。我選擇只爬取了官網(wǎng)主頁(yè)的12條新聞。

在代碼編寫過(guò)程中出現(xiàn)了兩個(gè)類似問(wèn)題(感覺(jué)都是xpath定位不準(zhǔn)導(dǎo)致的語(yǔ)法錯(cuò)誤):1、在詳情頁(yè)爬取的過(guò)程中,對(duì)時(shí)間的爬取出現(xiàn)了一定方面的理解誤差,導(dǎo)致最后沒(méi)能實(shí)現(xiàn)對(duì)時(shí)間的爬取2、在嘗試對(duì)新聞具體列表頁(yè)進(jìn)行爬取時(shí)出現(xiàn)了類似的問(wèn)題,但報(bào)錯(cuò)的內(nèi)容集中在類似于SyntaxError: Non-ASCII character '\xce' in file

/home/lc/venv/news/news/spiders/newsscrapy.py on lin這種,應(yīng)該還是語(yǔ)法錯(cuò)誤。

選取正確代碼執(zhí)行并生成xml文件



最后形成的xml文件


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容