【CWS】如何批量快速獲取網(wǎng)頁中的數(shù)據(jù)和鏈接信息

簡介

觸手可及的互聯(lián)網(wǎng)數(shù)據(jù)收集整理工具。通過簡單的操作即可在雜亂無章和比較講究的網(wǎng)站中找到有價(jià)值的數(shù)據(jù)。比如新聞列表、商品信息、公司名錄、郵件地址等任何感興趣的內(nèi)容。

詳情,簡介,安裝,基本操作可參考如下地址:
通過cws(chwod web spider)進(jìn)行互聯(lián)網(wǎng)數(shù)據(jù)的收集

錄制

  1. 打開chrome瀏覽器:


    打開chrome瀏覽器
  2. 單擊右上角cws圖標(biāo)(如圖中箭頭所指),進(jìn)入cws的首頁:


    錄制和執(zhí)行
  3. 切換到錄制和執(zhí)行選項(xiàng)卡(如上圖中的箭頭1所指位置),單擊新建按鈕(如上圖中箭頭2所指位置),打開新建錄制模版對話框:


    新建錄制模版

以獲取百度新聞熱詞和熱詞鏈接為演示素材

模版名稱(上圖位置1)輸入(比如百度或baidu);
起始URL,輸入(https://www.baidu.com);
單擊確定按鈕或直接回車提交后,如下圖所示:

模版列表
  1. 選中剛添加的模版(上圖中的箭頭1所指位置),此時(shí)錄制按鈕(上圖中箭頭2所指位置)將變?yōu)榭捎脿顟B(tài),單擊錄制按鈕,彈出錄制消息提示框:


    腳本錄制
  2. 單擊開始錄制按鈕,開始錄制,此時(shí)會自動打開一個(gè)新的瀏覽器窗口,并展示錄制消息提示框:


    腳本錄制

也可能不顯示此對話框,如果之前已經(jīng)勾選過不再提示復(fù)選框,

  1. 單擊開始錄制按鈕,在頁面頂部展示工具欄,如下圖所示;


    錄制頂層工具欄
  2. 單擊頁面操作或信息錄制按鈕(上圖中箭頭1所指位置):


    頁面操作或信息采集
  3. [可選操作]選中鏈接復(fù)選框(上圖中箭頭1所指位置),

因?yàn)槲覀冃枰蜷_百度新聞的鏈接,選中可以更快更有效的只針對鏈接進(jìn)行處理

  1. 將鼠標(biāo)移動到新聞上(上圖中箭頭2所指位置),會顯示一個(gè)信息面板(上圖中箭頭3所指位置),列出相關(guān)信息輔助你進(jìn)行目標(biāo)選擇,此時(shí)在新聞上按下鼠標(biāo),則會彈出一個(gè)操作頁面,

如果你選中了多選復(fù)選框,則你需要按下確定按鈕才能彈出操作頁面

如下圖所示:


單擊按鈕或打開鏈接

我們現(xiàn)在需要打開該鏈接,展開第一個(gè)選項(xiàng):單擊按鈕或打開鏈接(上圖中箭頭1所指位置):
在標(biāo)題中錄入一個(gè)名稱,或保持默認(rèn)(上圖中箭頭2所指位置);
按下回車或單擊按鈕(上圖中箭頭3所指位置),此時(shí),頁面會自動跳轉(zhuǎn)到百度新聞:


百度新聞
  1. 在頂部展示操作欄,我們?yōu)榱诉x擇多個(gè)目標(biāo),勾選多選(上圖中箭頭1所指位置),并確保智能多選是選中狀態(tài)(上圖中箭頭2所指位置),我們選擇需要獲取的目標(biāo)是鏈接信息,因此,勾選鏈接復(fù)選中(上圖中箭頭3所指位置);

  2. 現(xiàn)在我們到了選擇目標(biāo)的時(shí)候,首先,將鼠標(biāo)移動到第一個(gè)熱詞上(上圖中箭頭4所指位置),并單擊以選中此目標(biāo);

不必?fù)?dān)心會打開該鏈接

然后將鼠標(biāo)移動到第二個(gè)熱詞目標(biāo)上(上圖箭頭5所指位置);此時(shí)如果沒有意外發(fā)生的話,所有的熱詞都會被選中,如下圖箭頭1所指方框內(nèi)的熱詞全部被選中:


熱詞
  1. 單擊確定按鈕(上圖中見圖2所指位置),打開操作對話框:


    操作對話框

    我們首選采集文本信息,展開采集文本信息(上圖中紅框所示):


    采集文本信息

如果展示未找到文本內(nèi)容,請勾選深度文本復(fù)選框(上圖中箭頭1 所指位置),勾選之后會自動查找有效文本,如下圖所示:

深度文本

在標(biāo)題輸入有效名稱,如上圖中的熱詞

標(biāo)題內(nèi)容在數(shù)據(jù)下載之后,作為文件標(biāo)題頭存在,所以建議輸入有意義的名稱

  1. 此時(shí),采集文本信息的操作已經(jīng)設(shè)定完畢,我們開始設(shè)定采集鏈接的信息,單擊以展開采集鏈接地址:

請不要再次單擊采集文本信息,對于未展開的步驟,在最后提交時(shí)會被忽略。


采集鏈接地址

在標(biāo)題(上圖中箭頭1所指)輸入一個(gè)有效名稱,與采集文本信息一樣,建議輸入有含義的名稱,比如:熱詞鏈接。
如果發(fā)現(xiàn)未找到鏈接信息,或鏈接信息不完整(比如:只是/a=1之類不以http://或https//開頭的鏈接地址),請勾選修正按鈕(上圖箭頭2所指)以嘗試修復(fù)此問題,一般情況下都會解決。

  1. 當(dāng)所有內(nèi)容設(shè)定完畢,請單擊對話框下方的確定按鈕,自從步驟添加完成。
  2. 單擊頂部工具欄最右側(cè)結(jié)束錄制,接觸腳本錄制,回到cws的首頁。切換到錄制和執(zhí)行面板,如下圖所示:


    錄制和執(zhí)行

執(zhí)行

選中剛剛完成的腳本,此時(shí)執(zhí)行按鈕將變?yōu)榭捎茫ㄉ蠄D中箭頭1所指);
單擊執(zhí)行按鈕,將開始腳本自動執(zhí)行,請稍等片刻即可自動完成;
完成后會直接進(jìn)入下載頁面,或執(zhí)行完成后的任何時(shí)間通過單擊數(shù)據(jù)編排和下載按鈕(上圖中箭頭2所指)進(jìn)入下載頁面。

只有在執(zhí)行完成后的狀態(tài)下,數(shù)據(jù)編排和下載按鈕將變?yōu)榭捎?/p>

數(shù)據(jù)編排和下載

當(dāng)腳本執(zhí)行完畢后,會直接打開數(shù)據(jù)編排和下載頁面:


數(shù)據(jù)編排和下載

上圖中紅框1是工具欄,可以進(jìn)行數(shù)據(jù)列的移動,重命名,刪除等操作。
上圖中紅框2是數(shù)據(jù)部分,
我們此處的目的是收集熱詞和熱詞鏈接,基本上不需要進(jìn)行任何編排,直接在工具欄中單擊下載數(shù)據(jù)按鈕,稍等片刻即可完成:


數(shù)據(jù)文件

自此,我們的目的已完成

相關(guān)鏈接

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容