1. 程式人生 > >Python Beautiful Soup類的基本元素

Python Beautiful Soup類的基本元素

Beautiful Soup庫是解析,遍歷,維護“標籤樹”的功能庫。
條件:
pip install lxml
pip install html5lib

以下5種基本元素是使用方法!
Tag:標籤,最基本的資訊組織單元,分別用<>和</>標明開頭和結尾

    提前要寫的程式碼:

import requests
r = requests.get("https://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())

執行結果:(比例不對就用放大鏡檢視!)

做湯:

可以檢視標題!

Name:標籤的名字,<p>...</p>的名字是'p',格式:<tag>.name

(比例不對就用放大鏡檢視!)

獲取標籤名字:

它父親的名字,就是上一層的:

其父親的上一層的名字:

Attributes:標籤的屬性,字典的形式組織,格式:<tag>.attrs

說明標籤特點:

有一個字典。

上圖為字典屬性值。

上圖為連線屬性值。

標籤屬性型別:

為字典型別。

tag標籤屬性:

NavigableString:標籤內非屬性字串,<>...</>中字串,格式:<tag>.string

a標籤的字串資訊:

p標籤:

p標籤的字串資訊:

Comment:標籤內字串的註釋部分,一種特殊的Comment型別

處理註釋部分: