1. 程式人生 > >Python BeautifulSoup 簡單筆記

Python BeautifulSoup 簡單筆記

Beautiful Soup 是用 Python 寫的一個 HTML/XML 的解析器,它可以很好的處理不規範標記並生成剖析樹。通常用來分析爬蟲抓取的web文件。對於 不規則的 Html文件,也有很多的補全功能,節省了開發者的時間和精力。

Beautiful Soup 的官方文件齊全,將官方給出的例子實踐一遍就能掌握。官方英文文件中文文件

一 安裝 Beautiful Soup

安裝 BeautifulSoup 很簡單,下載 BeautifulSoup  原始碼。解壓執行

python setup.py install 即可。

測試安裝是否成功。鍵入 import BeautifulSoup 如果沒有異常,即成功安裝

二 使用 BeautifulSoup

1. 匯入BeautifulSoup ,建立BeautifulSoup 物件

1 2 3 4 5 6 7 8 9 10 11 12 from BeautifulSoup import BeautifulSoup           # HTML from BeautifulSoup import BeautifulStoneSoup      # XML import BeautifulSoup                             
# ALL doc = [ '<html><head><title>Page title</title></head>', '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.', '<p id="secondpara" align="blah">This is paragraph <b>two</b>.', '</html>'
] # BeautifulSoup 接受一個字串引數 soup = BeautifulSoup(''.join(doc))

2. BeautifulSoup物件簡介

用BeautifulSoup 解析 html文件時,BeautifulSoup將 html文件類似 dom文件樹一樣處理。BeautifulSoup文件樹有三種基本物件。

2.1. soup BeautifulSoup.BeautifulSoup

1 2 type(soup) <class 'BeautifulSoup.BeautifulSoup'>

2.2. 標記 BeautifulSoup.Tag

1 2 type(soup.html) <class 'BeautifulSoup.Tag'>

2.3 文字 BeautifulSoup.NavigableString

1 2 type(soup.title.string) <class

相關推薦

Python BeautifulSoup 簡單筆記

Beautiful Soup 是用 Python 寫的一個 HTML/XML 的解析器,它可以很好的處理不規範標記並生成剖析樹。通常用來分析爬蟲抓取的web文件。對於 不規則的 Html文件,也有很多的補全功能,節省了開發者的時間和精力。 Beautif

python簡單筆記

針對 是的 機制 函數作為參數 編寫 usr 之間 r語 alt 叠代器 叠代是Python最強大的功能之一,是訪問集合元素的一種方式。 叠代器是一個可以記住遍歷的位置的對象。 叠代器對象從集合等第一個元素開始訪問,直到所有的元素被訪問結束,叠代器只能往前不會後退。 叠代器

Python爬蟲實習筆記 | Week2 Python正則和BeautifulSoup學習與試煉

2018/10/22 23 1.所思所想:今天狀態一直不佳,一是因為自己晚上晚睡,睡眠不足,比較睏倦;二是自己爬蟲基礎還不牢靠,還需要努力學習,比較慚愧;三是之前的專案,組長趙某乃不值得信賴之人物,使得自己多生煩憂,《MySQL》也上交了。。還好下午把學長寫的爬蟲跑通了,今天下午把程式碼理解一遍,然

python bs4模組 BeautifulSoup 學習筆記

bs4 模組的 BeautifulSoup 可以用來爬取html頁面的內容,配合requests庫可以寫簡單的爬蟲。 1、利用requests請求html頁面,獲取HTML頁面內容 import requests from bs4 import BeautifulSoup

Python BeautifulSoup 爬蟲入門筆記 --- 新聞爬蟲

    BeautifulSoup可以解析html檔案,配合request庫可以簡單快速地爬取一些網頁資訊。     BeautifulSoup 參考資料:     htt

python爬蟲學習筆記四:BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤,就可以很好的解析 怎麼使用BeautifulSoup庫? from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser') 例如: import

python課程設計筆記(五) ----Resuests+BeautifulSoup (爬蟲入門)

官方參考文件(中文版): requests:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html beautifulsoup:https://www.crummy.com/software/BeautifulSoup/bs4/d

機器學習學習筆記之一——用python實現簡單一元函式、二元函式的梯度下降

  今天開始正正經經,好好的寫機器學習的筆記。   再一次從頭翻過來學機器學習,在有一些python和大學數學的基礎下,首先要搞的果然還是梯度下降,本篇記錄的是用jupyter完成的一次作業:python實現一維陣列和二維陣列的梯度下降,目的只在於熟悉梯度下降。 第一部分

python爬蟲學習筆記-使用BeautifulSoup解析html

之前抓取豆瓣圖書Top250的時候,獲取內容使用的方法是正則表示式匹配,看上去是一種比較簡潔的方法,但問題在於,正則表示式的編寫必須非常細心,一旦出了任何小問題,就會導致得不到想要的結果。熟悉html的話,不難想到可以利用節點之間的結構和層級關係來作區分並進一步獲取節點內想要的文字。 於是B

Python使用BeautifulSoup簡單實現爬取妹子mm圖片--初級篇

先來個效果截圖(屈服在我的淫威之下吧!壞壞...嘿0.0) 因為是簡易版而且是自己寫著玩玩而已,自己也剛學,亦是筆記亦是分享,大佬輕噴就好。主要目的是希望更多人能夠體驗爬取一些seqing圖片的 快樂  ??哈哈 完整程式碼:文末已貼出 應該安裝個bs4的包就可

Python爬蟲入門筆記:一個簡單的爬蟲架構

      上次我們從對爬蟲進行簡單的介紹,今天我們引入一個簡單爬蟲的技術架構,解釋爬蟲技術架構中的幾個模組,對爬蟲先有一個整體的認知,方便對爬蟲的理解和後面的程式設計。      簡單的爬蟲架構:URL管理、網頁下載、網頁解析、輸出部分,如下圖:       1、UR

python+selenium win32gui實現檔案上傳 enumerate() Unity3d中SendMessage 用法簡單筆記

upload = dr.find_element_by_id('exampleInputFile0') upload.click() time.sleep(1) # win32gui dialog = win32gui.FindWindow('#32770', u'開啟') # 對話方塊 ComboBoxE

python BeautifulSoup簡單使用

.com targe pytho span sans get 規範 html soft   官網:https://www.crummy.com/software/BeautifulSoup/bs4/doc/      什麽是BeautifulSoup?     Bea

python BeautifulSoup簡單用法

from bs4 import BeautifulSoup import re html = """ <html><head><title>The Dormouse's story</title></head> <body> <p

python︱HTML網頁解析BeautifulSoup學習筆記

一、載入html頁面資訊 一種是網站線上的網頁、一種是下載下來的靜態網頁。 1、線上網頁 import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozill

python爬蟲學習筆記3:bs4及BeautifulSoup庫學習

Beuatiful Soup bs類對應一個HTML/xml文件的全部內容 from bs4 import BeautifulSoup import bs4 soup=BeautifulSoup('<p>data</p>','ht

python 裝飾器簡單筆記(附 *args **kw)

1. 裝飾器 由於函式也是一個物件,而且函式物件可以被賦值給變數,所以,通過變數也能呼叫該函式。 現在,假設我們要增強函式的功能,比如,在函式呼叫前後自動列印日誌,但又不希望修改函式的定義,這種在程式碼執行期間動態增加功能的方式,稱之為“裝飾器”(Decor

python 編寫簡單的setup.py

ria 如何 代碼 使用 文本 highlight ttl pac 文件夾   學習python也已經有一段時間了,發現python作為腳本語言一個很重要的特點就是簡單易用,而且擁有巨多的第三方庫,幾乎方方面面的庫都有,無論你處於哪個行業,想做什麽工作,幾乎都能找到對應的第

python完全學習筆記

tee lsp 般的 posix adding efi 屬性 路徑 block dir(__builtins__) help(input) ‘let\‘s go‘ #轉義字符 \ r‘c:\now‘ #字符串前加r 自動轉義 str= ‘‘‘

Python學習手冊筆記(1):Python對象類型

python 在Python中一切皆對象,Python程序可以分解為模塊、語句、表達式及對象。如下所示:1 程序由模塊組成2 模塊包含語句3 語句包含表達式4 表達式建立並處理對象 內置對象(核心類型):1)數字:>>> 2+2 #整數加法4>>&g