IR08-四川大學(xué)公共管理學(xué)院新聞數(shù)據(jù)采集實(shí)驗報告

文章結(jié)構(gòu):
實(shí)驗主題、實(shí)驗工具、實(shí)驗過程、錯誤報告與錯誤分析、小組個人利用scrapy爬取教師信息實(shí)驗報告

一. 實(shí)驗主題

爬取四川大學(xué)公共管理學(xué)院新聞動態(tài)上的新聞,包括標(biāo)題、發(fā)布時間、正文。

二. 實(shí)驗工具

八爪魚采集器7.3.8

三. 實(shí)驗過程

八爪魚是一款可視化的網(wǎng)絡(luò)爬蟲制作工具。本次實(shí)驗使用八爪魚的自定義采集,完成數(shù)據(jù)采集實(shí)驗。

  1. 將新聞動態(tài)的網(wǎng)址,復(fù)制粘貼到采集網(wǎng)址處后,點(diǎn)擊保存網(wǎng)址,系統(tǒng)會進(jìn)入到流程設(shè)計頁面并自動打開輸入的網(wǎng)址。


    新建任務(wù)
  2. 采集新聞動態(tài)屬于分頁列表詳細(xì)信息采集,我們先建立分頁循環(huán)流程,鼠標(biāo)點(diǎn)擊瀏覽器頁面的“下一頁”按鈕,在彈出的對話框中選擇“循環(huán)點(diǎn)擊下一頁”。


    建立分頁循環(huán)

下面對新聞標(biāo)題創(chuàng)建循環(huán)點(diǎn)擊

我們要把每個新聞的鏈接打開,進(jìn)入詳情頁面,然后再采集詳情里面的數(shù)據(jù)。結(jié)合前面建立的翻頁循環(huán),我們就能自動點(diǎn)擊下一頁翻頁,對每一頁的新聞標(biāo)題列表都能逐個打開進(jìn)入詳情頁,從而完成對所有新聞詳細(xì)數(shù)據(jù)的點(diǎn)擊并最終達(dá)到提取所有數(shù)據(jù)的效果。

  1. 鼠標(biāo)點(diǎn)擊下圖中第一個新聞標(biāo)題“行政管理系成功舉辦臺灣臺北大學(xué)張四明教授學(xué)術(shù)講座”鏈接,這時候點(diǎn)擊右邊操作提示框中的“選擇全部”選項,然后再選擇“循環(huán)點(diǎn)擊每個鏈接”選項即可。


    循環(huán)點(diǎn)擊

接下來就是最終提取數(shù)據(jù)的步驟了。

  1. 鼠標(biāo)點(diǎn)擊頁面中要提取的內(nèi)容,包括標(biāo)題,發(fā)布時間和正文,連續(xù)選擇提取內(nèi)容,默認(rèn)“采集該元素的文本”,選擇好后,點(diǎn)擊“采集數(shù)據(jù)”。


    選擇爬取數(shù)據(jù)
  2. 這樣提取完畢之后我們可以點(diǎn)擊流程按鈕,修改字段名稱以及簡單的處理一下提取到的數(shù)據(jù)。在下面的界面中,左側(cè)是采集任務(wù)的邏輯圖,在右側(cè)修改字段名稱。修改完成后,點(diǎn)擊“確定”保存。


    流程

    采集邏輯如下圖所示:


    采集邏輯
  1. 在上圖中,我們可以看見在時間字段中,包括“發(fā)布時間:”這幾個字,通過八爪魚,我們可以在采集的時候?qū)⑦@幾個字去掉。選中時間這個字段,點(diǎn)擊“自定義數(shù)據(jù)字段”。



    依次點(diǎn)擊“格式化數(shù)據(jù)”,“添加步驟”,“正則表達(dá)式匹配”,輸入如圖所示正則表達(dá)式,點(diǎn)擊“計算”和“確定”,即可。


    正則表達(dá)式

    然后再次點(diǎn)擊“確定”,即可回到流程界面,這時可以看見時間字段中,數(shù)據(jù)只有日期了。
  2. 點(diǎn)擊“保存”后,點(diǎn)擊“開始采集”,再在彈出的對話框中選擇“啟動本地采集”(其他幾種方式需要付費(fèi))
    采集結(jié)果如下圖:


    采集結(jié)果

系統(tǒng)會在本地電腦上開啟一個采集任務(wù)并采集數(shù)據(jù),任務(wù)采集完之后會彈出一個采集結(jié)束的提示,接下來選擇導(dǎo)出數(shù)據(jù),我們選擇將數(shù)據(jù)導(dǎo)出為csv文件,采集完之后,我們發(fā)現(xiàn)有41條重復(fù)數(shù)據(jù),最終我們采集到400條新聞。


任務(wù)完成
數(shù)據(jù)樣例

四. 錯誤報告與錯誤分析

錯誤報告:

錯誤報告

錯誤分析

提取數(shù)據(jù)的目標(biāo)網(wǎng)頁是:

目標(biāo)網(wǎng)頁

  1. 新聞欄中有專題欄目,點(diǎn)擊進(jìn)入后與目標(biāo)頁面網(wǎng)頁結(jié)構(gòu)不一致,采集失敗
    專題
  2. 鏈接中含有來自四川大學(xué)網(wǎng)站的新聞,點(diǎn)擊進(jìn)入后與目標(biāo)頁面網(wǎng)頁結(jié)構(gòu)不一致,采集失敗
    四川大學(xué)網(wǎng)站的新聞
  3. 新聞中有英文專題,也是因為網(wǎng)頁結(jié)構(gòu)不一致的原因,采集失敗。
    英文專題
  4. 還有來自CCTV官網(wǎng)的視頻新聞
    視頻新聞

數(shù)據(jù)重復(fù)的原因

目標(biāo)新聞網(wǎng)頁存在重復(fù):


重復(fù)新聞

五. 總結(jié)

當(dāng)前使用八爪魚所設(shè)置的爬取規(guī)則太過簡單,缺乏對特殊情況的判斷和處理。

六. 小組成員個人利用scrapy爬取公共管理學(xué)院教師信息的實(shí)驗報告

cc01——使用scrapy爬取四川大學(xué)公共管理學(xué)院教師信息實(shí)驗報告
yjl33——scrapy學(xué)習(xí)
zl36——八爪魚+Scrapy爬取公共管理學(xué)院新聞動態(tài)&教師信息

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容