Python爬蟲包 BeautifulSoup 學習（四） bs基本物件與函式

阿新 • • 發佈：2019-01-26

四大物件種類

BeautifulSoup將複雜HTML文件轉換成一個複雜的樹形結構。如圖所示

這裡寫圖片描述

每個節點都是Python物件，我們只用根據節點進行查詢就可以了，因為解析工作交給了框架本身。所有物件可以歸納為4種:

Tag
NavigableString
BeautifulSoup
Comment

Tag

什麼是Tag，舉幾個例子

<title>The Dormouse's story</title>

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a 
>

上面的title a 等等 HTML 標籤加上裡面包括的內容就是 Tag。

在前幾次的文章中，我們就是通過Tag來獲取資訊的。
如獲得標籤<title>

print soup.title
#<title>The Dormouse's story</title>

我們可以利用 bs4加標籤名輕鬆地獲取這些標籤的內容，比用正則表示式求方便很多。

不過有一點是，它查詢的是在所有內容中的第一個符合要求的標籤，如果要查詢所有的標籤，則需要使用find()和find_all()（findAll()）這兩個函式，後面兩個函式在目前的程式碼中來看功能和語法是一樣的，如果後期有什麼區別，我會再返回來講的。

for item in soup.findAll('a'):
    print item,'\n'

print soup.find('a')
print soup.find_all('a', limit = 1)[0]
# limit 是取前x項的意思，find()實際等於limit=1的情況，只是find_all()返回的是列表

print soup.find_all(lambda tag: len(tag.attrs) == 2)
# BS4允許我們把特定函式型別當做findAll函式的引數，唯一的限制是這些函式必須把一個標籤當做引數且返回結果為bool型別

我們可以驗證一下這些物件的型別

print type(soup.a)
# <class 'bs4.element.Tag'>

對於Tag而言，有兩個很重要的屬性，一個是name，一個是attrs。

name

print soup.name
print soup.head.name.
# [document]
# head

soup 物件本身比較特殊，它的 name 即為 [document]，對於其他內部標籤，輸出的值便為標籤本身的名稱。

attrs

print soup.p.attrs
# {'class': ['title'], 'name': 'dromouse'}

在這裡，我們把 p 標籤的所有屬性列印輸出了出來，得到的型別是一個字典。

如果我們想要單獨獲取某個屬性，可以這樣，例如我們獲取它的 class 叫什麼

print soup.p.attrs
# {'class': ['title'], 'name': 'dromouse'}

還可以這樣，利用get方法，傳入屬性的名稱，二者是等價的

print soup.p.get('class')
# ['title']

我們可以對這些屬性和內容等等進行修改，例如

soup.p['class']="newClass"
print soup.p
# <p class="newClass" name="dromouse"><b>The Dormouse's story</b></p>

還可以對這個屬性進行刪除，例如

del soup.p['class']
print soup.p
#<p name="dromouse"><b>The Dormouse's story</b></p>

不過，對於修改刪除的操作，不是我們的主要用途，在此不做詳細介紹了，如果有需要，請檢視前面提供的官方文件。

同時我們也可以通過這個attrs去更加詳細地過濾標籤

print soup.find_all('a', {"class" : "sister"}) 
# 限制了標籤為a，且屬性中的class = sister
# "sister的位置也可以是一個re.compile("")的物件，

NavigableString

我們已經得到了標籤，用 .string 即可獲得標籤內部的文字。

如獲得標籤<p>中的內容

print soup.p.string
#The Dormouse's story

這樣我們就輕鬆獲取到了標籤裡面的內容，想想如果用正則表示式要多麻煩。它的型別是一個 NavigableString，翻譯過來叫 可以遍歷的字串。

來檢查一下它的型別

print type(soup.p.string)
# <class 'bs4.element.NavigableString'>

BeautifulSoup

BeautifulSoup 物件表示的是一個文件的全部內容。大部分時候，可以把它當作 Tag 物件，是一個特殊的 Tag，我們可以分別獲取它的型別，名稱，以及屬性來感受一下。

print type(soup.name)
# <type 'unicode'>
print soup.name 
# [document]
print soup.attrs 
# {}

Comment

Comment 物件是一個特殊型別的 NavigableString 物件，其實輸出的內容仍然不包括註釋符號，但是如果不好好處理它，可能會對我們的文字處理造成意想不到的麻煩。

我們找一個帶註釋的標籤

print soup.a
print soup.a.string
print type(soup.a.string)

執行結果如下

<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>
 Elsie 
<class 'bs4.element.Comment'>

a 標籤裡的內容實際上是註釋，但是如果我們利用 .string 來輸出它的內容，我們發現它已經把註釋符號去掉了，所以這可能會給我們帶來不必要的麻煩。

另外我們列印輸出下它的型別，發現它是一個 Comment 型別，所以，我們在使用前最好做一下判斷，判斷程式碼如下

if type(soup.a.string)==bs4.element.Comment:
    print soup.a.string

上面的程式碼中，我們首先判斷了它的型別，是否為 Comment 型別，然後再進行其他操作，如列印輸出。

# -*- coding: utf-8 -*-
# @Author: HaonanWu
# @Date:   2016-12-24 17:27:43
# @Last Modified by:   HaonanWu
# @Last Modified time: 2016-12-24 19:53:47

from bs4 import BeautifulSoup

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1"><!-- Elsie --></a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

def Tree_test(soup):
    print soup.prettify()

def Tag_test(soup):
    print soup.title
    print type(soup.a)
    for item in soup.findAll('a'):
        print item,'\n'
    print soup.find('a')
    print soup.find_all('a', limit = 1)
    print soup.name
    print soup.head.name
    print soup.p.attrs
    print soup.p.get('class')

def string_test(soup):
    print soup.p.string
    print type(soup.p.string)

def bs_test(soup):
    print soup.name 
    print soup.attrs 
    print type(soup.name)

def comment_test(soup):
    print soup.a
    print soup.a.string
    print type(soup.a.string)

if __name__ == '__main__':
    soup = BeautifulSoup(html, 'lxml')

Python爬蟲包 BeautifulSoup 學習（四） bs基本物件與函式

四大物件種類 BeautifulSoup將複雜HTML文件轉換成一個複雜的樹形結構。如圖所示每個節點都是Python物件，我們只用根據節點進行查詢就可以了，因為解析工作交給了框架本身。所有物件可以歸納為4種: Tag NavigableString

Python爬蟲包 BeautifulSoup 學習（七） children等應用

所使用的html為： html_doc = """ <html> <head><title>The Dormouse's story</title></head> <p class="t

Python爬蟲包 BeautifulSoup 學習（十）各種html解析器的比較及使用

BeautifulSoup號稱Python中最受歡迎的HTML解析庫之一，但是這並不是唯一的選擇。解析庫 lxml 這個庫可以用來解析HTML和XML文件，以非常底層的實現而聞名，大部分原始碼都是C語言寫的，雖然學習這東西要花一定的時間，但是它的處理

Python爬蟲包 BeautifulSoup 學習（二）異常處理

面對網路不穩定，頁面更新等問題，很可能出現程式異常的問題，所以我們要對程式進行一些異常處理。大家可能覺得處理異常是一個比較麻煩的活，但在面對複雜網頁和任務的時候，無疑成為一個很好的程式碼習慣。網頁‘404’、‘500’等問題 try:

Python爬蟲包 BeautifulSoup 學習（八） parent等應用

繼續使用上篇的html頁面內容： html_doc = """ <html> <head><title>The Dormouse's story</title></head> <p cl

Python爬蟲包 BeautifulSoup 學習（十一） CSS 選擇器

BeautifulSoup支援最常用的CSS選擇器，在 Tag 或 BeautifulSoup 物件的 .select() 方法中傳入字串引數，即可使用CSS選擇器的語法找到tag。 CSS選擇器 CSS選擇器是一種單獨的文件搜尋語法。詳情請見此連結

爬蟲庫之BeautifulSoup學習（四）

所有字符串判斷 href gin int 過濾器 amp link 探索文檔樹： find_all(name,attrs,recursive,text,**kwargs) 方法搜索當前tag的所有tag子節點,並判斷是否符合過濾器的條件 1、name參數，可

python資料分析pandas包入門學習（四）處理缺失資料

本文參考《利用Python進行資料分析》的第五章 pandas入門 4 處理缺失資料缺失資料（missing data）在大部分資料分析應用中都很常見。Pandas的設計目標之一就是讓缺失資料的處理任務儘量輕鬆。例如，pandas物件上的所有描述統計都排除了缺失資料

網路爬蟲之BeautifulSoup入門（四）

5.帶更多引數的find方法官方文件給出的find方法的引數如下：find( name , attrs , recursive , string , **kwargs )，總體來看和find_all方法的引數沒什麼不同，在這裡仍以示例的方法給出常見的使用方法

STM32 HAL庫學習（四） SPI查詢傳送與接收

又是花了兩天時間調SPI......細心細心還是需要細心啊，還是用的上次的SPI Flash晶片mx25l04600E，主要是測試晶片的初始化和讀取晶片ID是否成功。 STM32F070晶片只有一個SPI，但可用作SPI訊號管腳的引腳卻不只一組，建議通訊前先連線MOSI和MISO測試自發自收是否

JavaWeb學習（四）HttpServletResponse基本應用——使用OutputStream或者PrintWriter輸出數字（3）

一、程式碼： package com.servlet.study; import java.io.IOException; import java.io.OutputStream; import javax.servlet.ServletException; import javax.ser

SpringMVC學習（四）———— 資料回顯與自定義異常處理器

一、資料回顯技術　　　　　　Springmvc預設支援對pojo型別的資料回顯，預設不支援簡單型別的資料回顯　　　　　　1.1、什麼是資料回顯？　　　　　　　　在資訊校驗時，如果發生校驗錯誤，那麼把校驗的資料資訊，依然停留在當前頁面，這就是資料回顯　　　　　　1.2、pojo的資料回顯　　

深度學習（四）——RNN, LSTM, 神經元啟用函式進階

詞向量 word2vec/doc2vec的缺點（續） 2.雖然我們一般使用word2vec/doc2vec來比較文字相似度，但是從原理來說，word2vec/doc2vec提供的是關聯性（relatedness），而不是相似性（similarit

selenium + python自動化測試unittest框架學習（四）python導入模塊及包知識點

腳本 selenium imp pat 程序文件 sel sys module 在寫腳本的時候，發現導入某些模塊，經常報錯提示導入模塊失敗，這裏來惡補下python導入模塊的知識點。 1.模塊導入時文件查找順序在腳本中，import xxx模塊時的具體步驟：（1）新建

Python爬蟲學習（四）正則表示式

正則表示式是用來匹配字串非常強大的工具，在其他程式語言中同樣有正則表示式的概念，Python同樣不例外，利用了正則表示式，我們想要從返回的頁面內容提取出我們想要的內容就易如反掌了。貪婪模式與非貪婪模式正則表示式通常用於在文字中查詢匹配的字串。Python裡數量詞

Python基礎學習（四）

python 函數集合 Python 集合： set 顧明思義，就是個集合，集合的元素是唯一的，無序的。一個{ }裏面放一些元素就構成了一個集合，set裏面可以是多種數據類型（但不能是列表，集合，字典，可以是元組）它可以對列表裏面的重復元素進行去重list1 = [1,2,3,23

爬蟲庫之BeautifulSoup學習（二）

不必要 baidu html left 官方 blank 正則文本處理比較 BeautifulSoup官方介紹文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 四大對象種

爬蟲庫之BeautifulSoup學習（三）

子節點 rom lac repr 文檔 strong 爬蟲 time contents 遍歷文檔樹：　　1、查找子節點　　.contents　　　　tag的.content屬性可以將tag的子節點以列表的方式輸出。　　print soup.body.cont

python學習（四）字符串學習

asc 獲得 rgb 元組 back adding format 對象 lar #!/usr/bin/python # 這一節學習的是python中的字符串操作 # 字符串是在Python中作為序列存在的, 其他的序列有列表和元組 # 1. 序列的操作 S = ‘

Python學習（四）

編碼 num 開始元組硬盤 pytho 英文 == color 一、枚舉　　enumerate，for i in enumerate(可叠代對象)，返回元組，內容是(序列號，可叠代的每一個元素) 　　　　　　 for i,j in enumerate(可叠代

Python爬蟲包 BeautifulSoup 學習（四） bs基本物件與函式

四大物件種類

Tag

name

attrs

NavigableString

BeautifulSoup

Comment

相關推薦