Python網路爬蟲實戰(二)資料解析

阿新 • • 發佈：2019-09-17

上一篇說完了如何爬取一個網頁，以及爬取中可能遇到的幾個問題。那麼接下來我們就需要對已經爬取下來的網頁進行解析，從中提取出我們想要的資料。

根據爬取下來的資料，我們需要寫不同的解析方式，最常見的一般都是HTML資料，也就是網頁的原始碼，還有一些可能是Json資料，Json資料是一種輕量級的資料交換格式，相對來說容易解析，它的格式如下。

{
    "name": "中國",
    "province": [{
        "name": "黑龍江",
        "cities": {
            "city": ["哈爾濱", "大慶"]
        }
    }, {
        "name": "廣東",
        "cities": {
            "city": ["廣州", "深圳", "珠海"]
        }
    }, {
        "name": "臺灣",
        "cities": {
            "city": ["臺北", "高雄"]
        }
    }, {
        "name": "新疆",
        "cities": {
            "city": ["烏魯木齊"]
        }
    }]
}

上一篇說到的爬取攜程載入不出來的那部分資料就是非同步請求Json返回給我們的，對於這類資料，Python有著十分便捷的解析庫，所以我們相對不用寫多少程式碼。

但是對於爬取下來是一個HTML資料，其中標籤結構可能十分複雜，而且不同HTML的結構可能存在差異，所以解析方式也需要看情況而定。

相對方便的解析方式有正則表示式，xPath和BeautifulSoup4庫。

三者的執行速度相比當然是正則表示式最快，xPath其次，Bs4最慢了，因為Bs4是經過封裝的庫，相對於另外兩個，無疑是重灌坦克一般，但Bs4確實使用最簡單的一個，而正則表示式是最麻煩的一個。

正則表示式幾乎所有程式語言都支援，每一種語言的正則表示式都存在一點差異但大同小異。如果你是在設計一個複雜系統，就不要考慮正則表示式了，因為這種方法太過於不穩定，你永遠不敢保證你寫的正則規則是對應當前系統完全不會報錯的。

xPath 是一門在XML文件中查詢資訊的語言。xPath可用來在XML文件中對元素和屬性進行遍歷。

關於正則表示式和xPath在之後的實戰中再做詳解，現在主要是掌握Bs4的使用。

我們首先需要下載Bs4的庫。

pip install lxml
pip install beautifulsoup4

當我們爬取下來一整個網頁的HTML之後，Bs4就可以根據標籤的相對定位來找準你要爬取的資料了。

這個相對定位類似於如下：

body > div.banner > div > div.celeInfo-right.clearfix > div.movie-stats-container > div > div > span > span

可以理解把HTML頁面當做洋蔥一層一層剝開。

這種定位叫做selector，我們可以不用自己編寫它，比較HTML結構可能比較複雜，很容易寫錯。

我們可以開啟瀏覽器的控制檯(F12)，然後Elements裡面找到我們想要爬取之後解析的內容，這時候你滑鼠放上去的位置對應頁面內容會變成藍色讓你來對比，如下圖。

可以發現，這些dd標籤裡面就是當前頁面所有的電影資訊了。哪吒之魔童降世你可以理解為dd-1，巨鱷風暴可以當做dd-2，以此類推。

然後你把滑鼠放在dd標籤上右鍵，會有一個copy選項，裡面有一個selector，就是將它的selector複製下來。

下面分別是哪吒之魔童降世和巨鱷風暴的selector，可以發現，只有最後的dd:nth-child不同。

#app > div > div.movies-panel > div.movies-list > dl > dd:nth-child(1)

#app > div > div.movies-panel > div.movies-list > dl > dd:nth-child(2)

有了這個規律，我們就可以很容易的一次性解析那種列表型網頁了。

# -*- coding: utf-8 -*-
import os
import re
from bs4 import BeautifulSoup
import requests

# 請求頭設定
header = {
    'Accept': '*/*;',
    'Connection': 'keep-alive',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Host': 'maoyan.com',
    'Referer': 'http://maoyan.com/',
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}

data = requests.get('https://maoyan.com/films', headers=header)
soup = BeautifulSoup(data.text, 'lxml')
titles = soup.select('#app > div > div.movies-panel > div.movies-list > dl > dd ')

print(titles)

來仔細講解一下上面這些程式碼。

request.get(url,headers)是昨天說過的了，headers就是請求頭資訊，裡面包含了我們客戶端的資訊以及請求方式是Get還是Post等。

返回的data就是響應了，你可以直接print這個資料，但是這個響應體裡面不止包含網頁的HTML，還有這次請求的相關資料，比如響應碼，200說明成功，404說明沒有找到資源等。

data.text就是從響應體中拿到網頁HTML程式碼了。

BeautifulSoup就是我們的主要解析物件，lxml是相應的解析方式。

通過呼叫BeautifulSoup的select選擇器方法，來從之前傳入的HTML中獲取相應的標籤。

這麼一看其實Bs4還是很簡單的，但這只是Bs4的基礎應用了，對於我們普通解析一個網頁已經足夠用了，如果感興趣可以去深入去了解一下，不過這個這麼說也只是工具庫，如果你不嫌麻煩可以自己解析。

看完程式碼，如果現在我要拿到這個頁面的電影名稱，這時候上面這個selector就不能用了，因為它不夠精確，它只到了'

'，而我們要精確到電影名稱。

用這個selector。

#app > div > div.movies-panel > div.movies-list > dl > dd:nth-child(1) > div.channel-detail.movie-item-title > a

其它方式幾乎都大同小異了。

以上是HTML的解析，我們爬取的資料有時還會是Json資料，這類資料相對來說十分規則，我倒是很希望目標資料會是Json格式。

比如上篇中的攜程。

它的航班資訊就是請求Json返回的。

Python中正則表示式的解析十分簡單，你把它當做字典資料型別就可以了。

最開始你獲得的Json是一串字串，通過Python的Json.loads(jsonData)之後，返回的其實就是字典資料型別，直接操作就可以了。

import json

jsonData = '{
        "name":"gzj",
        "age":"23",
        "sex":"man",
        "mail":{
            "gmail":"[email protected]",
            "qmail":"[email protected]"
            }
        }'

res = json.loads(jsonData)

print(res['mail']['qmail'])

(最近在想實戰部分要不要錄視訊和文章兩部分，歡迎關注公眾號來康康

Python網路爬蟲實戰(二)資料解析

上一篇說完了如何爬取一個網頁，以及爬取中可能遇到的幾個問題。那麼接下來我們就需要對已經爬取下來的網頁進行解析，從中提取出我們想要的資料。根據爬取下來的資料，我們需要寫不同的解析方式，最常見的一般都是HTML資料，也就是網頁的原始碼，還有一些可能是Json資料，Json資料是一種輕量級的資料交換格式，相對來說

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Python 網路爬蟲實戰：爬取 B站《全職高手》20萬條評論資料

本週我們的目標是：B站（嗶哩嗶哩彈幕網 https://www.bilibili.com ）視訊評論資料。我們都知道，B站有很多號稱“鎮站之寶”的視訊，擁有著數量極其恐怖的評論和彈幕。所以這次我們的目標就是，爬取B站視訊的評論資料，分析其為何會深受大家喜愛。首先去調研一下，B站評論數量最多的視訊是哪一

Python網路爬蟲實戰

阿里雲大學：Python網路爬蟲實戰網路爬蟲（又被稱為網頁蜘蛛，網路機器人），是一種按照一定的規則，自動的抓取資訊的程式或者指令碼。網路爬蟲是網際網路上進行資訊採集的通用手段，在網際網路的各個專業方向上都是不可或缺的底層技術支撐。本課程從爬蟲基礎開始，全面介紹了Python網路爬蟲技術，

python網路爬蟲磁碟快取資料

import os import re import urllib.parse import pickle class DiskCache: def __init__(self,cache_dir='cache'): self.cache_dir=cache_dir

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

Python網路爬蟲實戰專案程式碼大全

WechatSogou [1]- 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬蟲，返回結果是列表，每一項均是公眾號具體資訊字典。 DouBanSpider [2]- 豆瓣讀書爬蟲。可以爬下豆瓣讀書標籤下的所有圖書，按評分排名依次儲存，儲

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

Python網路爬蟲--歷史天氣資料採集

在很多機器學習應用中，天氣資料為重要的輔助特徵資料，故本文主要介紹如何利用Python獲取歷史天氣資料。目標網站資料爬取的目標網站為天氣網程式設計實現匯入相關包 import requests # 匯入reques

python-網路爬蟲初學二:headers的設定和一些高階特性

一、設定headers url = "http://www.server.com/login" # 設定請求的身份，如果沒有，伺服器可能會沒有響應 user_agent = "Mozilla/4.0 (compatible; MSIE 5.5; Windows N

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

python網路爬蟲實戰——實時抓取西刺免費代理ip

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

python網路爬蟲實戰--重點整理

第四章--python爬蟲常用模組 urllib2.urlopen(url,timeout)請求返回響應，timeout是超時時間設定#! python2.7 #-*- coding:utf-8 -*- import urllib2 def linkBaidu()

Python網路爬蟲實戰(一)快速入門

本系列從零開始闡述如何編寫Python網路爬蟲，以及網路爬蟲中容易遇到的問題，比如具有反爬,加密的網站，還有爬蟲拿不到資料，以及登入驗證等問題，會伴隨大量網站的爬蟲實戰來進行。我們編寫網路爬蟲最主要的目的是爬取想要的資料還有通過爬蟲去自動完成我們想在網站中做的一些事情。從今天開始我會從基礎開始講解如何通過

Python網路爬蟲實戰(三)照片定位與B站彈幕

之前兩篇已經說完了如何爬取網頁以及如何解析其中的資料，那麼今天我們就可以開始第一次實戰了。這篇實戰包含兩個內容。 * 利用爬蟲呼叫Api來解析照片的拍攝位置 * 利用爬蟲爬取Bilibili視訊中的彈幕關於爬蟲呼叫Api這一說法，其實就是通過get或者post請求攜帶著引數，將內容發給對方伺服器，伺服器會

Python網路爬蟲實戰(四)模擬登入

對於一個網站的首頁來說，它可能需要你進行登入，比如知乎，同一個URL下，你登入與未登入當然在右上角個人資訊那裡是不一樣的。 (登入過) (未登入) 那麼你在用爬蟲爬取的時候獲得的頁面究竟是哪個呢？肯定是第二個，不可能說你不用登入就可以訪問到一個使用者自己的主頁資訊，那麼是什麼讓同一個URL在爬蟲訪問

Python網路爬蟲實戰(五)批量下載B站收藏夾視訊

我們除了爬取文字資訊，有的時候還需要爬媒體資訊，比如視訊圖片音樂等。就拿B站來說，我的收藏夾內的視訊可能隨時會失效，所以把它們下載到本地是非常保險的一件事。對於這種大量列表型的資料，可以猜測B站收藏夾的請求中，詳細的收藏詳細可能會是非同步載入的，因為這部分資料可能比較龐大。我們來分析一下網路請求。可

Python網路爬蟲實戰(二)資料解析

相關推薦