Python3爬蟲從入門到自殘（二）：HTML及其解析

阿新 • • 發佈：2019-01-17

一.HTML標記語言基礎

要從網頁中抽取資料出來,那麼瞭解HTML標記語言是很重要的,但是這個系列的部落格並不是要專門講HTML的,所以,不會講過多的HTML的細節.對於很熟悉HTML的人就不說啦,對於不熟悉HTML語言的同學,這裡推薦一個教程,精簡,方便查閱.HTML 教程
也就是說,之後的所有操作都是預設大家有HTML的一些知識的.

二.BeautifulSoup常見API

對於一個Beautiful物件，經常用到的兩個函式是find()和findAll()函式，下面講解一下這兩個函式的原型和一些用法。
Beautiful Soup官方文件

Ⅰ.find_all()

函式原型：
find_all( name , attrs , recursive , text , **kwargs

)

作用：find_all()方法搜尋當前tag的所有tag子節點,並判斷是否符合過濾器的條件.
引數：

name：查詢所有名字為 name 的tag,字串物件會被自動忽略掉.
attrs：用python字典封裝一個標籤的若干屬性和這些屬性分別對應的值。
recursive：布林變數，一般來說，find_all()方法會檢索當前tag的所有子孫結點。因為recursive預設是True

接下里講例子，這個例子使用的網頁是《python資料採集》這本書提供的網頁。我覺得還可以，就用這個網頁作為例子。
War and Peace
這裡寫圖片描述
網頁的原始碼是這個樣子：

例一：name引數使用

import 
 urllib.request
import urllib.parse
import urllib.error
import urllib.response
from bs4 import BeautifulSoup

request=urllib.request.Request(url="http://www.pythonscraping.com/pages/warandpeace.html")
response=urllib.request.urlopen(request)
bs=BeautifulSoup(response.read())
namelist=bs.find_all(name="h1" 
)
print(namelist)
print("type of name list:",type(namelist))

這裡寫圖片描述
在這個例子裡面，傳遞的名字（標籤）就只有h1，namelist=bs.find_all(name="h1") 然後這個語句的作用就是在當前的tag（這裡的tag是html）下面找所有的（子標籤以及不停遞迴下去，名字滿足就行）h1 標籤的元素，返回預設是存在一個列表裡面的，意味著你能夠查詢多個tag。比如上面這個就返回了原始碼的h1.

例二.attrs的使用
我們現在想從這個網頁上面找到所有綠色字型的部分，應該怎麼找呢？首先看一下粗略看一下網站的原始碼，發現一個規律，就是顏色的資訊與span這個標籤關聯。所以，我們只要找到span這個標籤，傳入相應的屬性就行了。

import urllib.request
import urllib.parse
import urllib.error
import urllib.response
from bs4 import BeautifulSoup

request=urllib.request.Request(url="http://www.pythonscraping.com/pages/warandpeace.html")
response=urllib.request.urlopen(request)
bs=BeautifulSoup(response.read())
namelist=bs.find_all(name="span",attrs={"class":"green"})
for name in namelist:
    print(name)

結果：
這裡寫圖片描述

從原來的網頁和接過來看，確實是成功了，事實上，也就加了一個引數而已。
Ⅱ.

三.正則表示式

首先正則表示式的基礎以及想讓你預設通過python使用正則表示式請參看，這裡只是直接用正則表示式來完整爬蟲功能。
正則表示式有什麼用呢？下面通過一個例子來說明。
先給出一個圖片網站的網頁：
現代科技圖片
開啟之後是這個樣子。
這裡寫圖片描述
我現在想得到這個網頁中所有展示的圖片的連結應該怎麼辦呢？
很簡單，首先看網站的原始碼

粗略的看了一下，圖片檔案都可以通過搜尋img這個標籤來找到。那麼就好辦了。之前例子的程式碼幾乎可以不加改動的用到這裡來，只需要改一點其中的引數的值就行。
程式碼：

import urllib.request
import urllib.parse
import urllib.error
import urllib.response
from bs4 import BeautifulSoup

request=urllib.request.Request(url="http://www.nipic.com/photo/xiandai/index.html")
response=urllib.request.urlopen(request)
bs=BeautifulSoup(response.read())
namelist=bs.find_all(name="img")
for name in namelist:
    print(name)

這裡寫圖片描述
得到的結果不差，想要的圖片的連結都得到了。但是，最後面的幾個連結是什麼鬼。後面的幾個連結是我並不想要的。你當然可以把所有的連結都得到，然後手動去掉。但是為什麼要手動呢？
所以這個時候就要找規律了。其實你一眼看過去，正文圖片的連結都是很有規律工整的，所以這裡就可以直接用到正則表示式啦。
直接看結果的連結規律，我們就可以構造這樣一個正則表示式：

http:\/\/img80\.nipic\.com\/file\/.+\/.+\.jpg

程式碼：

import urllib.request
import urllib.parse
import urllib.error
import urllib.response
from bs4 import BeautifulSoup
import re

request=urllib.request.Request(url="http://www.nipic.com/photo/xiandai/index.html")
response=urllib.request.urlopen(request)
bs=BeautifulSoup(response.read())
namelist=bs.find_all(name="img",attrs={"src":re.compile("http\:\/\/img80\.nipic\.com\/file\/.+\/.+\.jpg")})
for name in namelist:
    print(name)

結果：
這裡寫圖片描述
就成功啦。是不是很簡單。

Python3爬蟲從入門到自殘（二）：HTML及其解析

一.HTML標記語言基礎

二.BeautifulSoup常見API

Ⅰ.find_all()

三.正則表示式

Python3爬蟲從入門到自殘（二）：HTML及其解析

python爬蟲從入門到放棄（二）之爬蟲的原理

Linux從入門到適應（二）：更換清華源

TensorFlow 從入門到精通（二）：MNIST 例程原始碼分析

Python爬蟲從入門到放棄（二十二）之爬蟲與反爬蟲大戰

Python爬蟲從入門到放棄（二十三）之 Scrapy的中間件Downloader Middleware實現User-Agent隨機切換

Python爬蟲從入門到放棄（二十四）之 Scrapy登錄知乎

Python爬蟲從入門到放棄（二十一）之 Scrapy分布式部署

python爬蟲從入門到放棄（五）之正則的基本使用

python爬蟲從入門到放棄（六）之 BeautifulSoup庫的使用

python爬蟲從入門到放棄（八）之 Selenium庫的使用

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

反射從入門到精通（二）

Docker從入門到實戰（二）

node.js從入門到放棄（二）

python-類-從入門到精通（二）

Matlab從入門到精通（二）

Tensorflowsharp從入門到放棄（二）——這次有個手寫數字識別

Node.js從入門到實戰（二）Node.js基本用法

springboot從入門到精通（二）

Python3爬蟲從入門到自殘（二）：HTML及其解析

一.HTML標記語言基礎

二.BeautifulSoup常見API

Ⅰ.find_all()

三.正則表示式

相關推薦