Python爬蟲頁面解析基礎(chǔ):BeautifulSoup庫

BeautifulSoup庫

一.BeautifulSoup庫的下載以及使用

1.下載

pip3 install beautifulsoup4

2.使用

improt bs4

二.BeautifulSoup庫解析器

解析器 使用方法 優(yōu)勢 劣勢
bs4的HTML解析器 BeautifulSoup(mk,'html.parser') Python 的內(nèi)置標(biāo)準(zhǔn)庫

執(zhí)行速度適中
文檔容錯(cuò)能力強(qiáng) | Python 2.7.3 or 3.2.2)前 的版本中文檔容錯(cuò)能力差 |
| lxml的HTML解析器 | BeautifulSoup(mk,'lxml') | 速度快
文檔容錯(cuò)能力強(qiáng) | 需要安裝C語言庫 |
| lxml的XML解析器 | BeautifulSoup(mk,'xml') | 速度快
唯一支持XML的解析器 | 需要安裝C語言庫 |
| html5lib解析器 | BeautifulSoup(mk,'html5lib') | 最好的容錯(cuò)性
以瀏覽器的方式解析文檔
生成HTML5格式的文檔 | 速度慢 |

條件 :

  • bs4的HTML解析器:安裝bs4庫

  • lxml的HTML解析器:pip3 install lxml

  • lxml的XML解析器:pip3 install lxml

  • html5lib解析器:pip3 install html5lib


推薦Python大牛在線分享技術(shù) 扣qun:855408893

領(lǐng)域:web開發(fā),爬蟲,數(shù)據(jù)分析,數(shù)據(jù)挖掘,人工智能

零基礎(chǔ)到項(xiàng)目實(shí)戰(zhàn),7天學(xué)習(xí)上手做項(xiàng)目

三.BeautifulSoup類的5種元素

基本元素 簡單說明 詳細(xì)說明
tag 標(biāo)簽 分別用<>與</>來表示開頭和結(jié)尾
name 標(biāo)簽的名字 用法:<tag>.name輸出為字符串的形式
attributes 標(biāo)簽里的屬性 用法:<tag>.attrs輸出為字典的形式
navigablestring 標(biāo)簽里的內(nèi)容 用法:<tag>.string可以跨域多個(gè)標(biāo)簽層次
comment 標(biāo)簽里面的注釋 一種特殊的comment類型
  • 獲取標(biāo)簽方法,解析后的網(wǎng)頁.標(biāo)簽的名字,如果同時(shí)存在多個(gè)標(biāo)簽只取第一個(gè)
  • 獲取標(biāo)簽的父標(biāo)簽<tag>.parent
  • <tag>表示標(biāo)簽
  • 當(dāng)標(biāo)簽為沒有屬性的時(shí)候,我們獲得的是個(gè)空字典

四.標(biāo)簽樹向下遍歷

  • .contens:子節(jié)點(diǎn)列表,不僅僅包括標(biāo)簽節(jié)點(diǎn),也包括字符串節(jié)點(diǎn)例如\n
  • .children:子節(jié)點(diǎn)的迭代器類型也包括字符串節(jié)點(diǎn)例如\n
  • descendants:子孫節(jié)點(diǎn)的迭代類型也包括字符串節(jié)點(diǎn)例如\n

五.標(biāo)簽樹向上遍歷

  • .parent:節(jié)點(diǎn)的父親標(biāo)簽
  • .parents:節(jié)點(diǎn)先輩標(biāo)簽的迭代器類型

注意:如果是html的父標(biāo)簽就是他自己,soup本身也是種特殊的標(biāo)簽的他的父標(biāo)簽是空

六.標(biāo)簽樹平行遍歷

  • .next_sibling:下一個(gè)平行標(biāo)簽
  • .previous_sibling:上一個(gè)平行標(biāo)簽
  • .next_silbings:迭代器類型,向下所有標(biāo)簽
  • .previous_silbling:迭代器類型,向上所有標(biāo)簽

注意:必須在同一個(gè)父節(jié)點(diǎn)下才有平行關(guān)系,平行遍歷獲得的對象不一定是標(biāo)簽,也可能是文本,如果上下沒來就為空

七.prettify使得解析后頁面更加好看

解析后的頁面

prettify():會把解析的網(wǎng)頁加上\n的文本文檔,能使它打印變得更加好看

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容