Python學習筆記——使用BeautifulSoup剖析頁面元素

阿新 • • 發佈：2018-12-12

將網頁讀入Beautisoup中

接上回的程式碼，得到新浪的網頁。

import requests
url = 'https://www.sina.com.cn/'
res = requests.get(url)
res.encoding = 'utf-8'
print(res.text)

將得到的頁面讀入BeautifulSoup中

from bs4 import BeautifulSoup
# 讀入網頁， res.text 傳入剖析的網頁，html.parser 是一個剖析器
soup = BeautifulSoup(res.text, 'html.parser') 

print(soup.text)

這裡的soup.text 和上面的res.text 是有區別的，將res.text讀入BeautifulSoup
中後，會把外部不需要的html ， body 等標籤去除。

取得包含制定標籤的html元素

使用select找出指定標籤元素

# 使用select找出含有a標籤的元素
finds= soup.select('a')
print(finds)

因為頁面中含有a標籤的元素不會只有一個，所以select預設的返回值是一個列表，我們可以通過下標的方式得到指定的標籤。

# 顯示找到的第一個含有a標籤的元素
print(finds[ 
0])
# 顯示第一個含有a標籤的元素的文字
print(finds[0].text)
# 取得a標籤內的連結
print(finds[0]['href'])

標籤內的屬性會被包裝成一個字典，所以我們可以通過中括號的形式取得裡面的值。

取得含有制定class屬性的元素

# 取得含有屬性 title 的元素
finds = soup.select('.title')
# 顯示所有class 為title的元素
for find in finds:
	print(find)

取得新浪頁面的標題和連結

import requests
from bs4 import BeautifulSoup

# 抓取的網頁的路徑  

url = 'https://news.sina.com.cn/china/'
# 爬取頁面，接收響應
res = requests.get(url)
# 設定頁面編碼
res.encoding = 'utf-8'
# 將爬取的頁面放入BeautifulSoup
soup = BeautifulSoup(res.text, 'html.parser')
# 篩選頁面中的所有a標籤
links = soup.select('a')
# 顯示所有的a標籤和連結地址
for link in links:
	print(link.text, '/t',link['href'])

Python學習筆記——使用BeautifulSoup剖析頁面元素

將網頁讀入Beautisoup中接上回的程式碼，得到新浪的網頁。 import requests url = 'https://www.sina.com.cn/' res = requests.get(url) res.encoding = 'utf-8' print(res.te

Python學習筆記控制流的元素

根據 style color 一個 utf 布爾表達式 password 決定 span 隨筆記錄方便自己和同路人查閱。 #------------------------------------------------我是可恥的分割線-------------------

【python學習筆記】38：使用Selenium抓取去哪兒網動態頁面

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。在去哪兒網PC端自由行頁面，使用者需要輸入出發地和目的地，點選開始定製，然後就可以看到一系列相關的旅遊產品。在這個旅遊產品頁換頁不會改變URL，而是重新載入，這時頁碼沒有體現在URL中，這種動態頁面用傳統的爬蟲

Python學習筆記：儲存最後N個元素

儲存yo有限的歷史記錄是collection.deque的完美應用場景。下面的程式碼對一系列文字行做簡單的文字匹配操作，當發現有匹配時就輸出當前的匹配行以及最後檢查過的N行文字， from collections import deque def search(lines,

Python學習筆記一：Python中列表元素轉為數字

numbers = ['1', '5', '10', '8']; 方法一： numbers = [ int(x) for x in numbers ] 方法二： umbers = list(map(int, numbers))

DOM學習筆記---遍歷頁面所有元素節點

//遍歷頁面所有元素節點 var blanks=[]; function getChildren(parent){ console.log(blanks.join("")+"|_"+(parent

【python學習筆記】3：LRU(最近最少使用頁面置換)演算法

題目描述：一程序剛獲得3個主存塊的使用權，若該程序訪問頁面的次序是1,2,3,4,1,2,5,1,2,3,4,5。當採用LRU演算法時發生的缺頁次數是多少？ LRU是最近最少使用頁面置換演算法，該演算法用一個開放的棧來儲存當前正在使用的各個頁面號。當有一個新的頁面要被訪

Python學習筆記-2017.5.4

列表 lin 覆蓋範圍復習處理 pytho 內部 global txt 本文章記錄學習過程中的細節和心得：復習所學課程： 1、文件的操作：　　打開文件，對文件的操作打開方式有兩種：　　第一種：　　　　 f = open("test.txt", "r")#以只讀

Principle of Computing (Python)學習筆記(7) DFS Search + Tic Tac Toe use MiniMax Stratedy

ide out generate depth sku color ati cond with 1. Trees Tree is a recursive structure. 1.1 math nodes https://class.coursera.org/prin

Python學習筆記-基礎Day01

虛擬機 python 處理器 Python與其他語言的對比：C 和 Python、Java、C#對比C語言:代碼編譯得到機器碼,機器碼在處理器上直接執行。其他語言:代碼編譯得到字節碼，虛擬機執行字節碼並轉換成機器碼然後在處理器上執行Python之類的高級語言相對C語言開發效率較高，不需要開發者考慮

Python學習筆記——叠代器和生成器

返回對象 node manual 通過 line 計數 bject repr 對象 1、手動遍歷叠代器　　使用next函數，並捕獲StopIteration異常。 def manual_iter(): with open(‘./test.py‘) as f:

python學習筆記

pythonpython數據類型python邏輯操作符身份操作符is比較操作符< > <= >= != ==成員操作符in not in邏輯運算符and or notpython學習筆記

python學習筆記7-異常處理

exec blog span log exception pytho clas 處理 cep 1 寫弄成了讀1 try: 2 fh = open("testfile", "r") 3 fh.write("This is my test file for exc

python學習筆記5-自定義函數

函數調用筆記取值修改 args pytho class 名稱 func 1 自定義函數　　(1)函數代碼塊以def關鍵字開頭，然後函數標識符名稱和圓括號　　(2)任何傳入參數和自變量必須放在圓括號中間。圓括號之間可以用於定義參數　　(3)函數的第一行語句可以選擇

Python學習筆記1

bsp 面向對象解釋型基本 ges mon xxx str text 一、什麽是Python 　　Python是面向對象、解釋型的計算機語言；語法簡潔、優雅、易學。　　在1989誕生，Guido(龜叔)開發。龜叔非常喜歡一部叫做《Monty Python飛行馬戲團》的

python學習筆記2：字符串

nbsp 大小 alpha .com format 大小寫 fin 判斷大小 key python學習筆記2：字符串總結：字符串是不可變變量，不能通過下標修改其值　　　字符串的方法都不會改變字符串原來的值，而是新生成一個字符串一、3種寫法——單引號，雙引號，三引號　

Python學習筆記六：文件處理

alt 筆記 lin 系統顯式當前位置 open 刷新大小一：打開文件 open(name,mode,[bufferSize]) name：文件路徑 mode：文件打開方式二：文件讀取 read()方法：可以一次讀取文件的全部內容，Python把內容讀到

python 學習筆記 12 -- 寫一個腳本獲取城市天氣信息

unit real bin 程序用例性感小時 == exit 近期在玩樹莓派，前面寫過一篇在樹莓派上使用1602液晶顯示屏，那麽可以顯示後最重要的就是顯示什麽的問題了。最easy想到的就是顯示時間啊，CPU利用率啊。IP地址之類的。那麽我認為呢，假設可以顯示當前時

Python學習筆記(異常處理)

except exc 剛才 file director pri 中斷 opened rec 用戶輸入了一個不合規定的值，或者需要打開的文件不存在。這些情況被稱作“異常”，一個好的程序需要能處理可能發生的異常，避免程序因此而中斷。例如我們去打開一個文件： f = f

python學習筆記第三節

循環字典一個取出 src 默認 ont fin 數據類型 1 循環while 條件：循環體while True：循環體（死循環） for i in range(1,3):print(i) 遍歷hello for循環遍歷 break 跳出本層循環，本層循環徹底結束c

Python學習筆記——使用BeautifulSoup剖析頁面元素

將網頁讀入Beautisoup中

取得包含制定標籤的html元素

使用select找出指定標籤元素

取得含有制定class屬性的元素

取得新浪頁面的標題和連結

相關推薦