進群：125240963 即可獲取數十套PDF！

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.

這篇文件介紹了BeautifulSoup4中所有主要特性,並且有小例子.讓我來向你展示它適合做什麼,如何工作,怎樣使用,如何達到你想要的效果,和處理異常情況.

文件中出現的例子在Python2.7和Python3.2中的執行結果相同

你可能在尋找 Beautiful Soup3 的文件,Beautiful Soup 3 目前已經停止開發,我們推薦在現在的專案中使用Beautiful Soup 4, 移植到BS4

尋求幫助

如果你有關於BeautifulSoup的問題,可以傳送郵件到討論組 .如果你的問題包含了一段需要轉換的HTML程式碼,那麼確保你提的問題描述中附帶這段HTML文件的程式碼診斷 [1]

快速開始

下面的一段HTML程式碼將作為例子被多次用到.這是愛麗絲夢遊仙境的的一段內容(以後內容中簡稱為愛麗絲的文件):

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.

...

"""

使用BeautifulSoup解析這段程式碼,能夠得到一個 BeautifulSoup 的物件,並能按照標準的縮排格式的結構輸出:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc)

print(soup.prettify())

# <html>

# <head>

# <title>

# The Dormouse's story

# </title>

# </head>

# <body>

#

#

# The Dormouse's story

#

#

#

# Once upon a time there were three little sisters; and their names were

# <a class="sister" href="http://example.com/elsie" id="link1">

# Elsie

# </a>

# ,

# <a class="sister" href="http://example.com/lacie" id="link2">

# Lacie

# </a>

# and

# <a class="sister" href="http://example.com/tillie" id="link2">

# Tillie

# </a>

# ; and they lived at the bottom of a well.

#

#

# ...

#

# </body>

# </html>

幾個簡單的瀏覽結構化資料的方法:

soup.title

# <title>The Dormouse's story</title>

soup.title.name

# u'title'

soup.title.string

# u'The Dormouse's story'

soup.title.parent.name

# u'head'

soup.p

# The Dormouse's story

soup.p['class']

# u'title'

soup.a

# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

soup.find_all('a')

# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.find(id="link3")

# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

從文件中找到所有<a>標籤的連結:

for link in soup.find_all('a'):

print(link.get('href'))

# http://example.com/elsie

# http://example.com/lacie

# http://example.com/tillie

從文件中獲取所有文字內容:

print(soup.get_text())

# The Dormouse's story

# Once upon a time there were three little sisters; and their names were

# Elsie,

# Lacie and

# Tillie;

# and they lived at the bottom of a well.

# ...

這是你想要的嗎?彆著急,還有更好用的

安裝 Beautiful Soup

如果你用的是新版的Debain或ubuntu,那麼可以通過系統的軟體包管理來安裝:

$ apt-get install Python-bs4

Beautiful Soup 4 通過PyPi釋出,所以如果你無法使用系統包管理安裝,那麼也可以通過 easy_install 或 pip 來安裝.包的名字是 beautifulsoup4 ,這個包相容Python2和Python3.

$ easy_install beautifulsoup4

$ pip install beautifulsoup4

(在PyPi中還有一個名字是 BeautifulSoup 的包,但那可能不是你想要的,那是 Beautiful Soup3 的釋出版本,因為很多專案還在使用BS3, 所以 BeautifulSoup 包依然有效.但是如果你在編寫新專案,那麼你應該安裝的beautifulsoup4 )

如果你沒有安裝 easy_install 或 pip ,那你也可以下載BS4的原始碼 ,然後通過setup.py來安裝.

$ Python setup.py install

如果上述安裝方法都行不通,Beautiful Soup的釋出協議允許你將BS4的程式碼打包在你的專案中,這樣無須安裝即可使用.

作者在Python2.7和Python3.2的版本下開發Beautiful Soup, 理論上Beautiful Soup應該在所有當前的Python版本中正常工作

安裝完成後的問題

Beautiful Soup釋出時打包成Python2版本的程式碼,在Python3環境下安裝時,會自動轉換成Python3的程式碼,如果沒有一個安裝的過程,那麼程式碼就不會被轉換.

如果程式碼丟擲了 ImportError 的異常: “No module named HTMLParser”, 這是因為你在Python3版本中執行Python2版本的程式碼.

如果程式碼丟擲了 ImportError 的異常: “No module named html.parser”, 這是因為你在Python2版本中執行Python3版本的程式碼.

如果遇到上述2種情況,最好的解決方法是重新安裝BeautifulSoup4.

如果在ROOT_TAG_NAME = u’[document]’程式碼處遇到 SyntaxError “Invalid syntax”錯誤,需要將把BS4的Python程式碼版本從Python2轉換到Python3. 可以重新安裝BS4:

$ Python3 setup.py install

或在bs4的目錄中執行Python程式碼版本轉換指令碼

$ 2to3-3.2 -w bs4

安裝解析器

Beautiful Soup支援Python標準庫中的HTML解析器,還支援一些第三方的解析器,其中一個是 lxml .根據作業系統不同,可以選擇下列方法來安裝lxml:

$ apt-get install Python-lxml

$ easy_install lxml

$ pip install lxml

另一個可供選擇的解析器是純Python實現的 html5lib , html5lib的解析方式與瀏覽器相同,可以選擇下列方法來安裝html5lib:

$ apt-get install Python-html5lib

$ easy_install html5lib

$ pip install html5lib

下表列出了主要的解析器,以及它們的優缺點:

解析器使用方法優勢劣勢Python標準庫BeautifulSoup(markup, "html.parser")Python的內建標準庫
執行速度適中
文件容錯能力強
Python 2.7.3 or 3.2.2)前的版本中文件容錯能力差
lxml HTML 解析器BeautifulSoup(markup, "lxml")速度快
文件容錯能力強
需要安裝C語言庫

lxml XML 解析器BeautifulSoup(markup, ["lxml", "xml"])

BeautifulSoup(markup, "xml")

速度快
唯一支援XML的解析器
需要安裝C語言庫
html5libBeautifulSoup(markup, "html5lib")最好的容錯性
以瀏覽器的方式解析文件
生成HTML5格式的文件
速度慢
不依賴外部擴充套件

推薦使用lxml作為解析器,因為效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必須安裝lxml或html5lib, 因為那些Python版本的標準庫中內建的HTML解析方法不夠穩定.

提示: 如果一段HTML或XML文件格式不正確的話,那麼在不同的解析器中返回的結果可能是不一樣的,檢視解析器之間的區別瞭解更多細節

如何使用

將一段文件傳入BeautifulSoup 的構造方法,就能得到一個文件的物件, 可以傳入一段字串或一個檔案控制代碼.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文件被轉換成Unicode,並且HTML的例項都被轉換成Unicode編碼

BeautifulSoup("Sacré bleu!")

<html><head></head><body>Sacré bleu!</body></html>

然後,Beautiful Soup選擇最合適的解析器來解析這段文件,如果手動指定解析器那麼Beautiful Soup會選擇指定的解析器來解析文件.(參考解析成XML ).

物件的種類

Beautiful Soup將複雜HTML文件轉換成一個複雜的樹形結構,每個節點都是Python物件,所有物件可以歸納為4種: Tag , NavigableString , BeautifulSoup , Comment .

Tag

Tag 物件與XML或HTML原生文件中的tag相同:

soup = BeautifulSoup('Extremely bold')

tag = soup.b

type(tag)

# <class 'bs4.element.Tag'>

Tag有很多方法和屬性,在遍歷文件樹和搜尋文件樹中有詳細解釋.現在介紹一下tag中最重要的屬性: name和attributes

Name

每個tag都有自己的名字,通過 .name 來獲取:

tag.name

# u'b'

如果改變了tag的name,那將影響所有通過當前Beautiful Soup物件生成的HTML文件:

tag.name = "blockquote"

tag

# <blockquote class="boldest">Extremely bold</blockquote>

Attributes

一個tag可能有很多個屬性. tag 有一個 “class” 的屬性,值為 “boldest” . tag的屬性的操作方法與字典相同:

tag['class']

# u'boldest'

也可以直接”點”取屬性, 比如: .attrs :

tag.attrs

# {u'class': u'boldest'}

tag的屬性可以被新增,刪除或修改. 再說一次, tag的屬性操作方法與字典一樣

tag['class'] = 'verybold'

tag['id'] = 1

tag

# <blockquote class="verybold" id="1">Extremely bold</blockquote>

del tag['class']

del tag['id']

tag

# <blockquote>Extremely bold</blockquote>

tag['class']

# KeyError: 'class'

print(tag.get('class'))

# None

多值屬性

HTML 4定義了一系列可以包含多個值的屬性.在HTML5中移除了一些,卻增加更多.最常見的多值的屬性是 class (一個tag可以有多個CSS的class). 還有一些屬性 rel , rev , accept-charset , headers , accesskey . 在Beautiful Soup中多值屬性的返回型別是list:

css_soup = BeautifulSoup('')

css_soup.p['class']

# ["body", "strikeout"]

css_soup = BeautifulSoup('')

css_soup.p['class']

# ["body"]

如果某個屬性看起來好像有多個值,但在任何版本的HTML定義中都沒有被定義為多值屬性,那麼Beautiful Soup會將這個屬性作為字串返回

id_soup = BeautifulSoup('')

id_soup.p['id']

# 'my id'

將tag轉換成字串時,多值屬性會合併為一個值

rel_soup = BeautifulSoup('Back to the <a rel="index">homepage</a>')

rel_soup.a['rel']

# ['index']

rel_soup.a['rel'] = ['index', 'contents']

print(rel_soup.p)

# Back to the <a rel="index contents">homepage</a>

如果轉換的文件是XML格式,那麼tag中不包含多值屬性

xml_soup = BeautifulSoup('', 'xml')

xml_soup.p['class']

# u'body strikeout'

可以遍歷的字串

字串常被包含在tag內.Beautiful Soup用 NavigableString 類來包裝tag中的字串:

tag.string

# u'Extremely bold'

type(tag.string)

# <class 'bs4.element.NavigableString'>

一個 NavigableString 字串與Python中的Unicode字串相同,並且還支援包含在遍歷文件樹和搜尋文件樹中的一些特性. 通過 unicode() 方法可以直接將 NavigableString 物件轉換成Unicode字串:

unicode_string = unicode(tag.string)

unicode_string

# u'Extremely bold'

type(unicode_string)

# <type 'unicode'>

tag中包含的字串不能編輯,但是可以被替換成其它的字串,用 replace_with() 方法:

tag.string.replace_with("No longer bold")

tag

# <blockquote>No longer bold</blockquote>

NavigableString 物件支援遍歷文件樹和搜尋文件樹中定義的大部分屬性, 並非全部.尤其是,一個字串不能包含其它內容(tag能夠包含字串或是其它tag),字串不支援 .contents 或 .string 屬性或 find() 方法.

如果想在Beautiful Soup之外使用 NavigableString 物件,需要呼叫 unicode() 方法,將該物件轉換成普通的Unicode字串,否則就算Beautiful Soup已方法已經執行結束,該物件的輸出也會帶有物件的引用地址.這樣會浪費記憶體.

BeautifulSoup

BeautifulSoup 物件表示的是一個文件的全部內容.大部分時候,可以把它當作 Tag 物件,它支援遍歷文件樹和搜尋文件樹中描述的大部分的方法.

因為 BeautifulSoup 物件並不是真正的HTML或XML的tag,所以它沒有name和attribute屬性.但有時檢視它的 .name 屬性是很方便的,所以 BeautifulSoup 物件包含了一個值為 “[document]” 的特殊屬性 .name

soup.name

# u'[document]'

註釋及特殊字串

Tag , NavigableString , BeautifulSoup 幾乎覆蓋了html和xml中的所有內容,但是還有一些特殊物件.容易讓人擔心的內容是文件的註釋部分:

markup = ""

soup = BeautifulSoup(markup)

comment = soup.b.string

type(comment)

# <class 'bs4.element.Comment'>

Comment 物件是一個特殊型別的 NavigableString 物件:

comment

# u'Hey, buddy. Want to buy a used parser'

但是當它出現在HTML文件中時, Comment 物件會使用特殊的格式輸出:

print(soup.b.prettify())

#

#

#

Beautiful Soup中定義的其它型別都可能會出現在XML的文件中: CData , ProcessingInstruction , Declaration , Doctype .與 Comment 物件類似,這些類都是 NavigableString 的子類,只是添加了一些額外的方法的字串獨享.下面是用CDATA來替代註釋的例子:

from bs4 import CData

cdata = CData("A CDATA block")

comment.replace_with(cdata)

print(soup.b.prettify())

#

# <![CDATA[A CDATA block]]>

#

遍歷文件樹

還拿”愛麗絲夢遊仙境”的文件來做例子:

html_doc = """

<html><head><title>The Dormouse's story</title></head>

The Dormouse's story

Once upon a time there were three little sisters; and their names were

這是我見過最牛逼，最全面的Beautiful Soup 4.2 教程！沒有之一

快速開始

安裝 Beautiful Soup

如何使用

物件的種類

遍歷文件樹

這是我見過最牛逼，最全面的Beautiful Soup 4.2 教程！沒有之一

最詳細的大資料之Hadoop分散式系統架構解析！沒有之一！

最全面的Pandas的教程！沒有之一!

Win7，64位，Python使用Beautiful Soup 4抓取網易雲音樂歌單中的歌曲

這是迄今為止我見過的最牛逼的程式設計師，堪稱程式碼之王！

你見過最牛逼的程式設計師是什麼樣的？拳打回車鍵，腳踩Emacs編輯器

這八個爬蟲框架是目前最牛逼的！你用過哪幾個呢？

年底了，程式設計師來說說你今年寫過的最牛逼的bug是什麼？

拼多多小程式最牛逼13拉新裂變的增長套路就在這裡面

8個程式設計師專用軟體/網站，個個是神器，第一個最牛逼！

史上最牛逼的純CSS實現tab選項卡，閃瞎你的狗眼

秀最牛逼的程式碼，寫最簡潔的描述，歡迎PK

Pycharm是最牛逼的編輯器！小白如何快速上手？這是最完整的教程

史上編程最牛逼的9位程序員，你心中的No.1是誰？

怎麼看《就算老公一毛錢股份都沒拿到，在我心裡，他依然是最牛逼的創業者》文中創業公司 CEO 的行為？

全球最牛逼的 14 位程序員大佬，請收下我的膝蓋~

Linux上安裝python3.6 並創建虛擬環境 -----最牛逼的方法

Python學習筆記 - 最牛逼的內建函數max和min

全球最牛逼黑客的另一面人生：懂黑客更懂金融

爬蟲工程師最牛逼的地方是什麽？？？

這是我見過最牛逼，最全面的Beautiful Soup 4.2 教程！沒有之一

快速開始

安裝 Beautiful Soup

如何使用

物件的種類

遍歷文件樹

相關推薦