Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

阿新 • • 發佈：2019-01-17

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。

執行平臺：windows
**Python版本： Python3.x **

一、依賴庫的安裝

在本節實戰之前，請確保已經正確安裝了requests庫
requests庫的安裝

pip3 install requests

如果您使用的是conda環境，可以選擇使用以下安裝方法

conda install requests

###二、抓取分析
貓眼電影TOP100的目標站點為http://maoyan.com/board/4?offset=0
這裡寫圖片描述
將網頁滾動到最下方，點選第二頁。
當網頁跳轉後，發現頁面的URL發生如下變化

每一頁顯示的電影排名數目為10，而offset便代表著偏移量。
根據我們的推測，點選第三頁後，網頁URL中offset的值便會變成20，檢驗後沒有問題。
因此，我們想獲得TOP100的電影資訊，只需要分開請求10次，而這10次的offset引數分別設定為0，10，20…90即可。這樣獲取不同的頁面之後，利用正則表示式提取相關資訊，即可爬取電影排行榜電影資訊。

###三、實戰進行中
首先，我們引入我們需要的庫檔案

import requests
import re
import json
import time
from requests.exceptions import RequestException

爬取首頁

def get_one_page(url):
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return 0
    except RequestExceptrion:
        return 0

新增headers報頭進行爬蟲偽裝，利用requests.get函式發起請求
如果網頁返回碼為200（成功），則return response.text，返回頁面原始碼

我們來輸出一下網頁的原始碼看以下

print(get_one_page('http://maoyan.com/board/4?offset=0'))

執行後，如下圖所示
這裡寫圖片描述
說明我們爬取成功，接下來我們只需要從網頁原始碼裡匹配我們需要的資訊即可。

正則提取
【前提：瞭解貪婪匹配/非貪婪匹配】
利用開發者模式下的Network監聽元件可以檢視網頁的真實原始碼
這裡寫圖片描述
我們可以看到，一部電影對應的原始碼便是一個dd節點，我們利用正則表示式來提取裡面的電影資訊。
正則表示式寫法不唯一，只要能夠提取到資訊即可，在這裡我主要使用的是.*?匹配方法。
舉個例子：

<dd>.*?board-index.*?>(.*?)</i>

（）裡的資訊便是我們匹配的資訊，在這裡我們匹配了排名，同樣的，電影名稱、演員表等資訊的匹配與之相同。
最後，正則表示式如下（不唯一，自己寫比較方便）：

<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i><i class="fraction">(\d+).*?</dd>

在這裡我們匹配了電影排名，電影名稱，電影封面圖，演員表，上映時間，評分。
compile()
在進行後續操作前，先簡單講解一下compile()方法，這個方法可以將正則字串編譯成正則表示式物件，以便在後續的匹配中複用。
因此，我們使用compile()方法編譯物件：

    pattern = re.compile(
        '<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i><i class="fraction">(\d+).*?</dd>',re.S
    )

re.S是修飾符：使.匹配包括換行符在內的所有字元
因此解析頁面的函式實現如下：

def parse_one_page(html):
    pattern = re.compile(
        '<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i><i class="fraction">(\d+).*?</dd>',re.S
    )
    items = re.findall(pattern,html)
    print(items)

此時，我們將程式碼合併，便是如下

import requests
import re
import json
import time
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return 0
    except RequestExceptrion:
        return 0
        
def parse_one_page(html):
    pattern = re.compile(
        '<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i><i class="fraction">(\d+).*?</dd>',re.S
    )
    items = re.findall(pattern,html)
    print(items)

html = get_one_page('http://maoyan.com/board/4?offset=0')
parse_one_page(html)

執行結果如下

這裡寫圖片描述
可以看到，我們已經成功爬取了本頁內電影的資訊，但是資料比較雜亂，因此我們需要將匹配結果處理以下，遍歷提取結果並生成字典。
此時parse_one_page函式改下如下：

def parse_one_page(html):
    pattern = re.compile(
        '<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i><i class="fraction">(\d+).*?</dd>',re.S
    )
    items = re.findall(pattern,html)
    for item in items:
        yield{
            'index':item[0],
            'title':item[1],
            'image':item[2],
            'actor':item[3].strip()[3:] if len(item[3]) > 3 else '',
            'time':item[4].strip()[5:] if len(item[4]) > 5 else '',
            'score':item[5].strip()+item[6].strip(),
        }

輸入以下程式碼執行

html = get_one_page('http://maoyan.com/board/4?offset=0')
for item in parse_one_page(html):
    print(item)

這裡寫圖片描述
這樣每個電影的資訊便會成為一個個字典，形成結構化資料。

寫入檔案
寫入檔案我們分為txt寫入和csv檔案寫入。
首先我們來講txt檔案寫入。
txt
通過JSON庫的dumps()方法實現字典的序列化，並指定ensure_ascii引數為FALSE，這樣可以保證輸出結果是中文形式而不是Unicode編碼

def write_to_file(content):
    with open('maoyanSpider.txt','a',encoding='utf-8')as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

csv
寫入csv檔案的話，我們還需要引入csv庫。

import csv
def write_to_file(content):
    with open('maoyanSpider.csv','a+',newline='')as csvfile:
        writer = csv.writer(csvfile)
        values = list(content.values())
        writer.writerow(values)

使用content.values()方法讀取json資料，然後轉換成列表。
接著使用writerow()將values資料一次一行的寫入csv中
在open中newline=’ '是為了防止寫入資料後多出空白行。

分頁爬取
這也是爬蟲的最後一步了，我們之前的操作都是爬取一個頁面，而我們需要抓取的TOP100中含有10個頁面，所以還需要遍歷一下。

def spider(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_to_file(item)

if __name__=='__main__':
    for i in range(10):
        spider(offset=10*i)
        time.sleep(1)

四、完整程式碼

爬取貓眼電影排行榜並存放於txt

import requests
import re
import json
import time
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return 0
    except RequestExceptrion:
        return 0


def spider(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

def parse_one_page(html):
    pattern = re.compile(
        '<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i><i class="fraction">(\d+).*?</dd>',re.S
    )
    items = re.findall(pattern,html)
    for item in items:
        yield{
            'index':item[0],
            'title':item[1],
            'image':item[2],
            'actor':item[3].strip()[3:] if len(item[3]) > 3 else '',
            'time':item[4].strip()[5:] if len(item[4]) > 5 else '',
            'score':item[5].strip()+item[6].strip(),
        }

def write_to_file(content):
    with open('maoyanSpider.txt','a',encoding='utf-8')as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')

if __name__=='__main__':
    for i in range(10):
        spider(offset=10*i)
        time.sleep(1)

爬取貓眼電影排行榜並存放於csv

import requests
import re
import json
import time
from requests.exceptions import RequestException
import csv

def get_one_page(url):
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'}
        response = requests.get(url,headers=headers)
        if response.status_code == 200:
            return response.text
        return 0
    except RequestExceptrion:
        return 0


def spider(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        write_to_file(item)

def parse_one_page(html):
    pattern = re.compile(
        '<dd>.*?board-index.*?>(.*?)</i>.*?title="(.*?)".*?img data-src="(.*?)".*?<p class="star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i><i class="fraction">(\d+).*?</dd>',re.S
    )
    items = re.findall(pattern,html)
    for item in items:
        yield{
            'index':item[0],
            'title':item[1],
            'image':item[2],
            'actor':item[3].strip()[3:] if len(item[3]) > 3 else '',
            'time':item[4].strip()[5:] if len(item[4]) > 5 else '',
            'score':item[5].strip()+item[6].strip(),
        }

def write_to_file(content):
    with open('maoyanSpider.csv','a+',newline='')as csvfile:
        writer = csv.writer(csvfile)
        values = list(content.values())
        writer.writerow(values)

if __name__=='__main__':
    for i in range(10):
        spider(offset=10*i)
        time.sleep(1)

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

一、依賴庫的安裝

四、完整程式碼

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

scrapy入門實戰練習（一）----爬取豆瓣電影top250

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

Python django 入門學習系列（二）

部落格搬家系列（二）-爬取CSDN部落格

Python爬蟲入門實戰--------一週天氣預報爬取

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

Python爬蟲框架Scrapy例項（二）

python爬蟲常見面試題（二）

Python學習入門之列表（二）

Netty4.x 原始碼實戰系列（二）：服務端bind流程詳解

python爬蟲之豆瓣圖片（二）

SparkSQL（Spark-1.4.0)實戰系列（二）——DataFrames進階

Python爬蟲包 BeautifulSoup 學習（二）異常處理

Python爬蟲的法律邊界（二）小爬怡情，大爬over！

python從入門到放棄（二）

IdentityServer4簡單入門demo系列（二）API資源端

SpringBoot基礎實戰系列（二）springboot解析json與HttpMessageConverter

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

一、依賴庫的安裝

四、完整程式碼

相關推薦