Beautiful Soup是一個爬蟲的神級庫！今天教你完全摸透它！

阿新 • • 發佈：2018-06-23

檢索 content OS web get ios 並且樹的遍歷 pack

博主使用的是Mac系統，直接通過命令安裝庫：

sudo easy_install beautifulsoup4

安裝完成後，嘗試包含庫運行：

from bs4 import BeautifulSoup

若沒有報錯，則說明庫已正常安裝完成。

開始

本文會通過這個網頁http://reeoo.com來進行示例講解，如下圖所示

也可以通過文件句柄來初始化，可先將HTML的源碼保存到本地同級目錄 reo.html，然後將文件名作為參數：

soup = BeautifulSoup(open(‘reo.html‘))

可以打印 soup，輸出內容和HTML文本無二致，此時它為一個復雜的樹形結構，每個節點都是Python對象。

Ps. 接下來示例代碼中所用到的 soup 都為該soup。

Tag

Tag對象與HTML原生文檔中的標簽相同，可以直接通過對應名字獲取

tag = soup.titleprint tag

打印結果：

Reeoo - web design inspiration and website gallery

Name

通過Tag對象的name屬性，可以獲取到標簽的名稱

print tag.name# title

tag中的字符串

通過 string 方法獲取標簽中包含的字符串

tag = soup.titles = tag.stringprint s# Reeoo - web design inspiration and website gallery

文檔樹的遍歷

如下圖：

我們希望獲取到 article 標簽中的 li

tag = soup.article.div.ul.liprint tag

打印結果：

也可以把中間的一些節點省略，結果也一致

tag = soup.article.li

通過 . 屬性只能獲取到第一個tag，若想獲取到所有的 li 標簽，可以通過 find_all() 方法

ls = soup.article.div.ul.find_all(‘li‘)

獲取到的是包含所有li標簽的列表。

tag的 .contents 屬性可以將tag的子節點以列表的方式輸出:

tag = soup.article.div.ulcontents = tag.contents

打印 contents 可以看到列表中不僅包含了 li 標簽內容，還包括了換行符 ‘ ‘

過tag的 .children 生成器,可以對tag的子節點進行循環

tag = soup.article.div.ulchildren = tag.childrenprint childrenfor child in children: print child

文檔樹的搜索

對樹形結構的文檔進行特定的搜索是爬蟲抓取過程中最常用的操作。

find_all()

find_all(name , attrs , recursive , string , ** kwargs)

name 參數

查找所有名字為 name 的tag

指定名字的屬性參數值可以包括：字符串、正則表達式、列表、True/False。

True/False

是否存在指定的屬性。

搜索所有帶有 target 屬性的標簽

soup.find_all(target=True)

搜索所有不帶 target 屬性的標簽（仔細觀察會發現，搜索結果還是會有帶 target 的標簽，那是不帶 target 標簽的子標簽，這裏需要註意一下。）

soup.find_all(target=False)

可以指定多個參數作為過濾條件，例如頁面縮略圖部分的標簽如下所示：

...

![AIM Creative Studios](//upload-images.jianshu.io/upload_images/1346917-f6281ffe1a8f0b18.gif?imageMogr2/auto-orient/strip) AIM Creative Studios

...

搜索 src 屬性中包含 reeoo 字符串，並且 class 為 lazy 的標簽：

soup.find_all(src=re.compile("reeoo.com"), class_=‘lazy‘)

搜索結果即為所有的縮略圖 img 標簽。

打印搜索結果可看到包含3個元素，分別是對應標簽裏的內容，具體見下圖所示

limit 參數

find_all() 返回的是整個文檔的搜索結果，如果文檔內容較多則搜索過程耗時過長，加上 limit 限制，當結果到達 limit 值時停止搜索並返回結果。

搜索 class 為 thumb 的 div 標簽，只搜索3個

soup.find_all(‘div‘, class_=‘thumb‘, limit=3)

打印結果為一個包含3個元素的列表，實際滿足結果的標簽在文檔裏不止3個。

recursive 參數

find_all() 會檢索當前tag的所有子孫節點,如果只想搜索tag的直接子節點,可以使用參數 recursive=False。

CSS選擇器

Tag 或 BeautifulSoup 對象通過 select() 方法中傳入字符串參數, 即可使用CSS選擇器的語法找到tag。

語義和CSS一致，搜索 article 標簽下的 ul 標簽中的 li 標簽

print soup.select(‘article ul li‘)

通過類名查找，兩行代碼的結果一致，搜索 class 為 thumb 的標簽

soup.select(‘.thumb‘)soup.select(‘[class~=thumb]‘)

通過id查找，搜索 id 為 sponsor 的標簽

soup.select(‘#sponsor‘)

通過是否存在某個屬性來查找，搜索具有 id 屬性的 li 標簽

soup.select(‘li[id]‘)

通過屬性的值來查找查找，搜索 id 為 sponsor 的 li 標簽

soup.select(‘li[id="sponsor"]‘)

其他

其他的搜索方法還有：

find_parents() 和 find_parent()

find_next_siblings() 和 find_next_sibling()

find_previous_siblings() 和 find_previous_sibling()

…

參數的作用和 find_all()、find() 差別不大，這裏就不再列舉使用方式了。這兩個方法基本已經能滿足絕大部分的查詢需求。

還有一些方法涉及文檔樹的修改。對於爬蟲來說大部分工作只是檢索頁面的信息，很少需要對頁面源碼做改動，所以這部分的內容也不再列舉。

進群：125240963 即可獲取數十套PDF哦！

Beautiful Soup是一個爬蟲的神級庫！今天教你完全摸透它！

檢索 content OS web get ios 並且樹的遍歷 pack 博主使用的是Mac系統，直接通過命令安裝庫： sudo easy_install beautifulsoup4 安裝完成後，嘗試包含庫運行： from bs4 import Beauti

神級Python大佬教你，如何用Python輕鬆破解網路WiFi！

隨著智慧手機的發展，網路已成為生活中不可或缺的一部分了，但是由於手機網路的網速或者流量資費等原因，導致人們過年走親戚，或者去朋友家，總是會需要去問WiFi，我以前也常常會有這樣的困擾。但是自從學過Python之後，嘿嘿嘿，現在出去玩我經常能蹭到網。學習Python呢，需要一個比較好的學習環境，最好是有人能夠指

神級python碼農教你爬取並儲存百度雲資源，你懂得~

網路爬蟲又被稱為網路機器人，網頁蜘蛛，在FOAF社群中間稱為網頁追逐者。是按照一定的規則，自動抓取資訊的程式或者指令碼。這篇文章主要介紹Python爬蟲框實戰之抓取並儲存百度雲資源！免費給廣大python愛好者提供資源！）尋找並分析百度雲的轉存api 首先你得有一個

如何簡單高效地部署和監控分散式爬蟲專案？菜鳥來教你！

初級使用者：只有一臺開發主機能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲專案，以及通過 Scrapyd JSON API 來控制爬蟲，感覺命令列操作太麻煩，希望能夠通過瀏覽器直接部署和執行專案專業使用者：有

媽媽再也不用擔心爬蟲被封號了！手把手教你搭建Cookies池

很多時候，在爬取沒有登入的情況下，我們也可以訪問一部分頁面或請求一些介面，因為畢竟網站本身需要做SEO，不會對所有頁面都設定登入限制。但是，不登入直接爬取會有一些弊端，弊端主要有以下兩點。設定了登入限制的頁面無法爬取。如某論壇設定了登入才可檢視資源，某部落格設定了登入才可檢視全文

抖音怎麼上傳照片圖集？抖音照片視訊怎麼製作？大神教你輕鬆搞定！

抖音怎麼上傳照片圖集？抖音照片視訊或照片圖集怎麼製作？現在抖音上很多那種照片或圖片做成的短視訊，主題好，有音樂，還有文字或好看的切換效果。今天就請大神來教大家簡單幾步，輕鬆做一個好看的抖音照片圖集！教程用到的製作照片圖片的工具是數碼大師，大家可以先看看做好的抖音照片圖集效果：下面就是製

只有20行Javascript程式碼！手把手教你寫一個頁面模板引擎

AbsurdJS 作者寫的一篇教程，一步步教你怎樣用 Javascript 實現一個純客戶端的模板引擎。整個引擎實現只有不到 20 行程式碼。如果你能從頭看到尾的話，還能有不少收穫的。你甚至可以跟隨大牛的腳步也自己動手寫一個引擎。以下是全文。不知道你有木有聽說過一個基

拒絕低效！Python教你爬蟲公眾號文章和連結

本文首發於公眾號「Python知識圈」，如需轉載，請在公眾號聯絡作者授權。前言上一篇文章整理了的公眾號所有文章的導航連結，其實如果手動整理起來的話，是一件很費力的事情，因為公眾號裡新增文章的時候只能一篇篇的選擇，是個單選框。面對幾百篇的文章，這樣一個個選擇的話，是一件苦差事。 pk哥作為一個 Pyt

保姆級教程！手把手教你使用Longhorn管理雲原生分散式SQL資料庫！

作者簡介 Jimmy Guerrero，在開發者關係團隊和開源社群擁有20多年的經驗。他目前領導YugabyteDB的社群和市場團隊。本文來自Rancher Labs Longhorn是Kubernetes的雲原生分散式塊儲存，易於部署和升級，100%開源且持久，由業界採用最為廣泛的Kubernetes

夠拼樂教你用手機賺錢！

找到介紹發短信自己 sans .cn src 用戶二維 http://www.3agpl.com手機在現在已經普及到幾乎人手一部，每個人都“機不離手”。據統計：現在移動端上網已經超過了PC端，也就是手機端上網用戶已經超過了電腦端！由此可以證明，手機已經覆蓋大部分人群

Shadowsocks服務器搭建，教你如何正確上網！

oss sock super 查看忽略流量升級如果 width （1）基礎安裝篇：系統：Ubuntu1. 查看Python版本：保證Python的版本是2.7及以上root@xiaoqi:~#pyhton -V2. 安裝pip：root@xiaoqi:~#apt

幹貨！純幹貨！手把手教你做雲專線互聯網備援接入-上集

雲專線互聯網備案教程筆者是互聯通技術男一枚，處理過雲計算業務大大小小各種事宜，在各方強大的支持協助下，終於碼出了這篇“如何實現性價比超高的互聯網雲通道及專網雲通道備份！”。 **首先來說下這套方案的目的：** 為了解決客戶混合雲業務的連續性，確保雲端與線下數據交互的持續，穩定；

專訪阿裏數據庫備份專家教你pick最有效的備份系統

恢復數據 shadow 代理直接 watermark 數據 rpo mysql dba 時間摘要：數據庫備份是個老生常談的話題，看似很簡單，但在實際操作過程中，運維人員往往會遇到這樣或那樣的坑。那麽，如今的數據庫備份有哪些挑戰？如何構建有效備份系統？有什麽解決辦法？

就是你！我們需要你一起改變世界！

積分 cto watermark 自己 ges image images 如果提取 ugi是一個生態系統。它包括兩部分：一部分是基於ugi幣的價值錨定計劃。這是針對幣圈大多數幣是空氣幣，容易讓投資者血本無歸的現象設計的；簡單點來說就是ugi拿自己未來的發展、營收和用戶綁定

瀏覽器首頁被篡改，教你如何改回來！

原文：http://www.javaketang.com/html/2018/subject_1023/95.html 有時會遇到這個問題，瀏覽器的主頁不知什麼原因被篡改了。今天就教大家怎麼改回來。主頁被篡改方法一： 1.首先找到瀏覽器的

馳騁股市！手把手教你如何用Python和資料科學賺錢？python

金融領域或許是資料科學應用場景中最充滿想象力的部分，畢竟它跟財富結合地無比緊密。不管是否是經濟達人，資料科學都是一種幫你瞭解一支股票的高效方式。本文作者把資料科學和機器學習技術應用到金融領域中，向你展示如何通過資料分析的方式馳騁股市，搭建自己的金融模型！讓我們先了解一些基本

一個quartz非常簡單的demo，教你最快使用quartz

demo簡介：這是個簡單quartz例項，主要quart配置整合spring，功能為每20秒輸出一句內容！執行效果如下： [31:20] - Starting Quartz Scheduler now, after delay of 20 seconds

20 分鐘教你搞懂 Git！

Git 是最流行的版本管理工具，也是程式設計師必備的技能之一。本文就來教你 20 分鐘搞懂 Git！以下為譯文：儘管每天你都會用到Git，但也有可能搞不懂它的工作原理。為什麼Git可以管理版本？基本命令git add和git commit到底在

如果你現在對Python爬出蠢蠢欲動？那麼我現在帶你徹底瞭解它！

1. 爬蟲概述簡單來說，爬蟲就是獲取網頁並提取和儲存資訊的自動化程式，下面概要介紹一下。 (1) 獲取網頁 (2) 提取資訊獲取網頁原始碼後，接下來就是分析網頁原始碼，從中提取我們想要的資料。首先

20分鐘教你搞懂Git！

Git 是最流行的版本管理工具，也是程式設計師必備的技能之一。本文就來教你 20 分鐘搞懂 Git！以下為譯文：儘管每天你都會用到Git，但也有可能搞不懂它的工作原理。為什麼Git可以管理版本？基本命令git add和git commit到底在幹什麼

Beautiful Soup是一個爬蟲的神級庫！今天教你完全摸透它！

相關推薦