Python Beautiful Soup類的基本元素
阿新 • • 發佈:2018-12-22
Beautiful Soup庫是解析,遍歷,維護“標籤樹”的功能庫。
條件:
pip install lxml
pip install html5lib
以下5種基本元素是使用方法!
Tag:標籤,最基本的資訊組織單元,分別用<>和</>標明開頭和結尾
提前要寫的程式碼:
import requests r = requests.get("https://python123.io/ws/demo.html") r.text demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup(demo , "html.parser") print(soup.prettify())
執行結果:(比例不對就用放大鏡檢視!)
做湯:
可以檢視標題!
Name:標籤的名字,<p>...</p>的名字是'p',格式:<tag>.name
(比例不對就用放大鏡檢視!)
獲取標籤名字:
它父親的名字,就是上一層的:
其父親的上一層的名字:
Attributes:標籤的屬性,字典的形式組織,格式:<tag>.attrs
說明標籤特點:
有一個字典。
上圖為字典屬性值。
上圖為連線屬性值。
標籤屬性型別:
為字典型別。
tag標籤屬性:
NavigableString:標籤內非屬性字串,<>...</>中字串,格式:<tag>.string
a標籤的字串資訊:
p標籤:
p標籤的字串資訊:
Comment:標籤內字串的註釋部分,一種特殊的Comment型別
處理註釋部分: