python 理解Beautiful Soup庫的基本元素

阿新 • • 發佈：2018-12-09

理解Beautiful Soup的基本元素是理解Beautiful Soup庫的基礎。

首先我們說明一下Beautiful Soup庫能幹什麼。

我們以開啟html檔案為例。

任何一組html檔案它都是以尖括號為組的標籤組織起來的。而這些標籤建立起來的東西我們稱之為標籤樹。

而Beautiful Soup庫是解析，遍歷，維護標籤樹的功能庫。

標籤的具體格式如圖：

Beautiful Soup庫常見的四種解析器：

現在我們來介紹一下Beautiful Soup庫的基本元素：

下面我們來介紹一下獲得tag標籤的相關方法

任何語法標籤都可以用soup.tag方法訪問獲得，比如我們要獲取某個介面的a標籤：

import requests
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
from bs4 import  BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
tag = soup.a
print(tag)

輸出為：

<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>

但是當存在多個標籤的時候，我們用soup.tag只能返回其中第一個。

name表示獲取相關標籤的名字，比如：

import requests
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
from bs4 import  BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
print(soup.a.parent.name)
print(soup.a.parent.parent.name)

輸出為：

p
body

標籤的屬性Attributes是在標籤中表明標籤特點的相關區域。

舉個例子：

import requests
r = requests.get("http://python123.io/ws/demo.html")
demo = r.text
from bs4 import  BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")
tag = soup.a
print(tag.attrs)

輸出：

{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}

我們再來看一下comment型別。

在html5介面中我們用表示註釋abc，而comment標籤可以表示字串中被註釋的部分。

如：

from bs4 import BeautifulSoup
newsoup = BeautifulSoup("<b><!--This is a comment--></b><p>This is"
                        "not a comment</p>","html.parser")
print(type(newsoup.b.string))
print(type(newsoup.p.string))

輸出：

<class 'bs4.element.Comment'>
<class 'bs4.element.NavigableString'>

不過這個comment在bs4裡面並不常用。

python 理解Beautiful Soup庫的基本元素

理解Beautiful Soup的基本元素是理解Beautiful Soup庫的基礎。首先我們說明一下Beautiful Soup庫能幹什麼。我們以開啟html檔案為例。任何一組html檔案它都是以尖括號為組的標籤組織起來的。而這些標籤建立起來的東西我們稱之為標籤樹。而Bea

Python 網路爬蟲筆記3 -- Beautiful Soup庫

Python 網路爬蟲筆記3 – Beautiful Soup庫 Python 網路爬蟲系列筆記是筆者在學習嵩天老師的《Python網路爬蟲與資訊提取》課程及筆者實踐網路爬蟲的筆記。一、Beau

python爬蟲入門--Beautiful Soup庫介紹及例項

整理自：北理工嵩天老師的網路課程。 1、Beautiful Soup庫基礎知識（1）Beautiful Soup庫的理解 Beautiful Soup庫是解析、遍歷、維護“標籤樹”的功能庫。 BeautifulSoup對應一個HTML/XML文件的全部內容。

python beautiful soup庫的用法

1. Beautiful Soup 簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下：Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件

【Python3 爬蟲】Beautiful Soup庫的使用

attrs mouse 爬蟲 image 結構定義正則表達式 ttr document 之前學習了正則表達式，但是發現如果用正則表達式寫網絡爬蟲，那是相當的復雜啊！於是就有了Beautiful Soup簡單來說，Beautiful Soup是python的一個庫，最主要

beautiful soup庫—總結

註釋 div attrs 開頭組織解析總結 brush 訪問 from bs4 import BeautifulSoup Beautiful Soup庫：是解析、遍歷、維護 "標簽樹〃的功能庫 Beautiful Soup類： Beautiful Sou

Beautiful Soup 庫的應用

BeautifulSoup庫像煲湯，html解析遍歷維護"標籤樹"html的功能庫；from bs4 import BeautifulSoup import requests r=requests.get("http://python123.io/ws/demo.html") r.text de

20181223 python 使用Beautiful Soup

怎麼說呢！爬蟲吧！把html頁面進行解析得到有效資料，而beautiful soup 能快速格式化頁面再進行方法對數進行提取，存入想要存入的DB中。 from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, 'html.parser')你需要

Python利用Beautiful Soup抓取新聞標題

Beautiful Soup的簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具

Python 之 Beautiful Soup 4文件

*****************簡單版****************** 入門（ps:其實入門什麼的看官方文件是最好的了，這裡只是記錄一下簡單的用法。）　　首先先介紹實際工作中最常用的幾個方法：　　舉例的html程式碼（就用官方例子好了）: 1 <htm

[學習筆記]Beautiful Soup語法基本使用

1. Beautiful_Soup語法 find all搜尋的是全部節點，find搜尋的是滿足條件的第一個節點 2.獲取網頁資訊思路如下 # <a href = "123

python學習之turtle庫基本操作

目錄一段執行繪製蟒蛇的程式碼示例 import turtle turtle.setup(650,350,200,200) turtle.penup() turtle.fd(-250) turtle.pendown() turtle.pensize(25) t

Win7，64位，Python使用Beautiful Soup 4抓取網易雲音樂歌單中的歌曲

使用Beautiful soup 4抓取網易雲音樂歌單（http://music.163.com/#/playlist?id=569020058）中的歌曲安裝Beautiful soup 4成功後，可以像下面這樣匯入Beautiful soup 4模組： >

Python Beautiful Soup類的基本元素

Beautiful Soup庫是解析，遍歷，維護“標籤樹”的功能庫。條件： pip install lxml pip install html5lib 以下5種基本元素是使用方法！ Tag:標籤，最基本的資訊組織單元，分別用<>和</>標明開頭和結

Python Beautiful Soup 解析庫的使用

syn nts ID 輸出 ner 瀏覽器 lib enumerate ace Beautiful Soup 借助網頁的結構和屬性等特性來解析網頁，這樣就可以省去復雜的正則表達式的編寫。 Beautiful Soup是Python的一個HTML或XML的解析庫。 1.解析器

ubuntu下的python網頁解析庫的安裝——lxml, Beautiful Soup, pyquery, tesserocr

不同版本 utf-8 系統 pin dev sts one github html lxml 的安裝（xpath） pip3 install lxml 可能會缺少以下依賴： sudo apt-get install -y python3-dev build-e ssenti

Windows環境下python爬蟲常用庫和工具的安裝（UrlLib、Re、Requests、Selenium、lxml、Beautiful Soup、PyQuery 、PyMySQL等等）

本文列出了使用python進行爬蟲時所需的常用庫和工具的安裝過程，基本上只有幾行命令列的功夫就可以搞定，還是十分簡單的。一、UrlLib 與 Re 這兩個庫是python的內建庫，若系統中已經成功安裝了python的話，這兩個庫一般是沒有什麼問題的。驗證開啟命令列，進入

Python爬蟲之Beautiful Soup解析庫的使用（五）

Python爬蟲之Beautiful Soup解析庫的使用 Beautiful Soup-介紹 Python第三方庫，用於從HTML或XML中提取資料官方：http://www.crummv.com/software/BeautifulSoup/ 安裝：pip install beautifulsoup4

小白學 Python 爬蟲（21）：解析庫 Beautiful Soup（上）

小白學 Python 爬蟲（21）：解析庫 Beautiful Soup（上）人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學

小白學 Python 爬蟲（22）：解析庫 Beautiful Soup（下）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

python 理解Beautiful Soup庫的基本元素

相關推薦