Python爬蟲之一：抓取貓眼電影TOP100

阿新 • • 發佈：2019-02-03

執行平臺： Windows
Python版本： Python3.6
IDE： Sublime Text
其他工具： Chrome瀏覽器

1. 抓取單頁內容

瀏覽器開啟貓眼電影首頁，點選“榜單”，然後再點選”TOP100榜”，就能看到想要的了。

1貓眼電影榜單頁

接下來通過程式碼來獲取網頁的HTML程式碼。

# 如果電腦裡沒有安裝requests，使用：pip install requests 進行安裝
import requests
from requests.exceptions import RequestException

def get_one_page(url):
    '''
    獲取網頁html內容並返回
    ''' 

    try:
        # 獲取網頁html內容
        response = requests.get(url)
        # 通過狀態碼判斷是否獲取成功
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    print(html)

if 
 __name__ == '__main__':
    main()

執行結果如下：

2抓取內容截圖

2. 正則表示式提取有用資訊

在上圖中，已經標註出我們將要提取的內容，下面用程式碼實現：

import re

def parse_one_page(html):
    '''
    解析HTML程式碼，提取有用資訊並返回
    '''
    # 正則表示式進行解析
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name">' 

        + '<a.*?>(.*?)</a>.*?"star">(.*?)</p>.*?releasetime">(.*?)</p>'
        + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    # 匹配所有符合條件的內容
    items = re.findall(pattern, html)

    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]
        }

# 修改main()函式
def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)

執行結果如下：

3獲取網頁資訊結果

3. 儲存資訊

獲取電影資訊之後，要儲存起來留用。要儲存的有文字資訊和電影封面。

import os

def write_to_file(content):
    '''
    將文字資訊寫入檔案
    '''
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close()

def save_image_file(url, path):
    '''
    儲存電影封面
    '''
    ir = requests.get(url)
    if ir.status_code == 200:
        with open(path, 'wb') as f:
            f.write(ir.content)
            f.close()

# 修改main()函式
def main():
    url = 'http://maoyan.com/board/4'
    html = get_one_page(url)
    # 封面資料夾不存在則建立
    if not os.path.exists('covers'):
        os.mkdir('covers')

    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
        save_image_file(item['image'], 'covers/' + '%03d'%int(item['index']) + item['title'] + '.jpg')

下面為儲存結果：

4文字儲存結果

5封面儲存結果

4.下載TOP100所有電影資訊

通過點選標籤頁發現只是URL變化了：

6不同頁面點選效果

修改main函式以動態改變URL：

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    # 封面資料夾不存在則建立
    if not os.path.exists('covers'):
        os.mkdir('covers')

    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
        save_image_file(item['image'], 'covers/' + '%03d'%int(item['index']) + item['title'] + '.jpg')

if __name__ == '__main__':
    for i in rang(10):
        main(i * 10)

到此我們已經將TOP100的電影資訊和封面全部得到了。

5.多執行緒抓取

此次抓取的資料不算多，但是為了學習，使用多程序進行抓取，以應對以後大量的資料抓取。

from multiprocessing import Pool

if __name__ == '__main__':
    pool = Pool()
    pool.map(main, [i*10 for i in range(10)])

下面為普通抓取和多程序抓取的時間對比：

7多程序速度對比

以下為完整程式碼：

#-*- coding: utf-8 -*-
import re
import os
import json
import requests
from multiprocessing import Pool
from requests.exceptions import RequestException

def get_one_page(url):
    '''
    獲取網頁html內容並返回
    '''
    try:
        # 獲取網頁html內容
        response = requests.get(url)
        # 通過狀態碼判斷是否獲取成功
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    '''
    解析HTML程式碼，提取有用資訊並返回
    '''
    # 正則表示式進行解析
    pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name">'
        + '<a.*?>(.*?)</a>.*?"star">(.*?)</p>.*?releasetime">(.*?)</p>'
        + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
    # 匹配所有符合條件的內容
    items = re.findall(pattern, html)

    for item in items:
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]
        }

def write_to_file(content):
    '''
    將文字資訊寫入檔案
    '''
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close()

def save_image_file(url, path):
    '''
    儲存電影封面
    '''
    ir = requests.get(url)
    if ir.status_code == 200:
        with open(path, 'wb') as f:
            f.write(ir.content)
            f.close()

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    # 封面資料夾不存在則建立
    if not os.path.exists('covers'):
        os.mkdir('covers')

    for item in parse_one_page(html):
        print(item)
        write_to_file(item)
        save_image_file(item['image'], 'covers/' + '%03d'%int(item['index']) + item['title'] + '.jpg')

if __name__ == '__main__':
    # 使用多程序提高效率
    pool = Pool()
    pool.map(main, [i*10 for i in range(10)])

Python爬蟲之一：抓取貓眼電影TOP100

執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器1. 抓取單頁內容瀏覽器開啟貓眼電影首頁，點選“榜單”，然後再點選”TOP100榜”，就能看到想要的了。接下來通過程式碼來獲取網頁的HTML

Python爬蟲之三：抓取貓眼電影TOP100

今天我要利用request庫和正則表示式抓取貓眼電影Top100榜單。執行平臺： Windows Python版本： Python3.6 IDE： Sublime Text 其他工具： Chrome瀏覽器 1. 抓取單頁內容瀏

Python爬蟲之requests+正則表示式抓取貓眼電影top100以及瓜子二手網二手車資訊(四)

{'index': '1', 'image': 'http://p1.meituan.net/movie/[email protected]_220h_1e_1c', 'title': '霸王別姬', 'actor': '張國榮,張豐毅,鞏俐', 'time': '1993-01-01', 'sc

Python爬蟲之抓取貓眼電影TOP100

執行平臺：windowsPython版本：Python 3.7.0IDE:Sublime Text瀏覽器：Chrome瀏覽器思路： 1.檢視網頁原始碼 2.抓取單頁內容 3.正則表示式提取資訊

簡單Python爬蟲例項：抓取豆瓣熱映電影資訊

最近在學習Python爬蟲基礎，僅用部落格記錄下學習的過程。學習過程基於麥子學院的課程，感謝麥子學院，感謝Joey老師。那麼我們來看一下，怎麼抓取資料。Chrome瀏覽器有一個開發者工具，很適合檢視網頁原始碼，所以我們用Chrome。開啟之後是這樣：然後我們在網頁位址列輸入豆

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

Python爬蟲案例：抓取豆瓣程式設計類高評分書籍

對於很多正在學習計算機的朋友來說，選擇合適的學習材料是非常重要的。本文將通過 Python 來爬取豆瓣程式設計類評分大於 9.0 的書籍。此案例很適合入門爬蟲的朋友學習，總共也就 3 個函式。下圖是最終的結果：下面進入正題：一、採集源分析：首先我們

反爬蟲-python3.6抓取貓眼電影資訊

思路分解： 1.頁面資訊 url:http://maoyan.com/cinema/24311?poi=164257570 檢視資訊發現價格存在亂碼現象：重新整理頁面找到亂碼的URL，下載woff格式檔案：方法：複製URL：右鍵單擊轉

Python爬蟲，用於抓取豆瓣電影Top前100的電影的名稱

初步接觸python爬蟲(其實python也是才起步)，發現一段程式碼研究了一下，覺得還比較有用處，Mark下。上程式碼： #!/usr/bin/python #coding=utf-8 #Author: Andrew_liu #mender：cy "

Python爬蟲三：抓取鏈家已成交二手房資訊（58W資料）

環境：Windows7+python3.6+Pycharm2017 目標：抓取鏈家北京地區已成交二手房資訊（無需登入），如下圖，戶型、朝向、成交時間價格等，儲存到csv。最後一共抓取約58W資料，程式執行8h。 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、

python爬蟲教程，爬取貓眼電影，一網打盡好電影

一、頁面分析首先開啟貓眼電影，然後點選一個正在熱播的電影（比如：毒液）。開啟開發者工具，點選左上角的箭頭，然後用滑鼠點選網頁上

【3月24日】Requests+正則表示式抓取貓眼電影Top100

本次實驗爬蟲任務工具較為簡單，主要是熟悉正則表示式的匹配： pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>

抓取貓眼電影top100

一、目標運用requests+正則表示式爬取貓眼電影top100的電影圖片、名稱、時間、評分等資訊，提取站點的url為"http://maoyan.com/board/4"，提取結果以文字的形式儲存下來。二、準備工作1. 安裝python 首先，下載Python3，這裡使用P

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

來源： https://zhuanlan.zhihu.com/c_149865214對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，戀習Python的手把手系列，手把手教你入門Python爬蟲，爬取貓眼電影TOP100榜資訊，將涉及到

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

Python-爬蟲-基本庫（requests）使用-抓取貓眼電影Too100榜

spa spi fire tools not agen ext get pytho 1 #抓取貓眼電影，https://maoyan.com/board/4 榜單電影列表 2 import requests 3 import re 4 from requests

Python爬蟲練習之一：抓取美團資料

{'poiId': 1653468, 'frontImg': 'http://p0.meituan.net/600.600/mogu/7f102559bd246c78d7f2d2ab066a12d0139144.jpg', 'title': '火宴山（大悅城店）', 'avgScore': 4.9, 'all

python爬蟲：爬取貓眼電影（分數的處理和多執行緒）

爬取用的庫是requests和beautifulsoup，程式碼編寫不難，主要是個別的細節處理需要注意 1、電影得分的處理右鍵審查元素，我們看到分數的整數部分和小數部分是分開的，在beautifulsoup中，我們可以用（.strings或者.stripped_stri

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

Python爬蟲之一：抓取貓眼電影TOP100

1. 抓取單頁內容

2. 正則表示式提取有用資訊

3. 儲存資訊

4.下載TOP100所有電影資訊

5.多執行緒抓取

相關推薦