首先生成項(xiàng)目結(jié)構(gòu)

定義要抓取的數(shù)據(jù)為:新聞標(biāo)題、新聞發(fā)生時(shí)間、新聞具體內(nèi)容和uil
找到item文件并進(jìn)行修改


但是修改失敗了(不知道原因)把修改的url=scrapy.Field()這句刪掉后表示修改成功,后面發(fā)現(xiàn)這不是主要原因。修改失敗主要是權(quán)限問(wèn)題,使用root來(lái)修改時(shí)表現(xiàn)為成功。
進(jìn)入所在項(xiàng)目子文件


編寫提取item數(shù)據(jù)的Spider

整個(gè)實(shí)驗(yàn)過(guò)程最困難的就是這段代碼過(guò)程,定位方法選擇的是xpath,感覺(jué)它對(duì)于非熟練者較為友好。我選擇只爬取了官網(wǎng)主頁(yè)的12條新聞。
在代碼編寫過(guò)程中出現(xiàn)了兩個(gè)類似問(wèn)題(感覺(jué)都是xpath定位不準(zhǔn)導(dǎo)致的語(yǔ)法錯(cuò)誤):1、在詳情頁(yè)爬取的過(guò)程中,對(duì)時(shí)間的爬取出現(xiàn)了一定方面的理解誤差,導(dǎo)致最后沒(méi)能實(shí)現(xiàn)對(duì)時(shí)間的爬取2、在嘗試對(duì)新聞具體列表頁(yè)進(jìn)行爬取時(shí)出現(xiàn)了類似的問(wèn)題,但報(bào)錯(cuò)的內(nèi)容集中在類似于SyntaxError: Non-ASCII character '\xce' in file
/home/lc/venv/news/news/spiders/newsscrapy.py on lin這種,應(yīng)該還是語(yǔ)法錯(cuò)誤。
選取正確代碼執(zhí)行并生成xml文件


最后形成的xml文件
