python爬蟲教程，爬取貓眼電影，一網打盡好電影

一、頁面分析

首先開啟貓眼電影，然後點選一個正在熱播的電影（比如：毒液）。開啟開發者工具，點選左上角的箭頭，然後用滑鼠點選網頁上的票價，可以看到原始碼中顯示的不是數字，而是某些根本看不懂的字元，這是因為使用了font-face定義字符集，並通過unicode去對映展示，所以我們在網頁上看到的是數字，但是在原始碼中看到的卻是別的字元。

碰到這些根本看不懂的字元怎麼辦呢？不慌，右鍵選擇檢視網頁原始碼，然後找到相應的位置（如下圖）。那麼是不是“”映射出來就是28呢？

通過檢視原始碼，可以找到如下內容，而當我們訪問這裡面的連結的時候，就可以下載相應的字型檔案，關於font-face可以點選這裡查看了解：

當我下載好字型檔案後，滿心歡喜的雙擊想要點開的時候，卻發現無法開啟（T_T）。查閱資料之後知道了一個叫做FontCreator的軟體，用這個軟體可以開啟我們下載的字型檔案，沒有安裝這個軟體的可以進入官網https://www.high-logic.com/下載安裝，如果下載得很慢的可以用百度雲下載（連結：https://pan.baidu.com/s/1ImxwPhKdzZo2g4bIjiGCZw ，提取碼：m0yf ）。下載好之後開啟軟體，看到如下介面，選擇Use Evaluation Version，這個軟體我們可以免費使用三十天。

開啟軟體後，再開啟我們下載的字型檔案，可以看到數字2和8分別對應的是uniE83B和uniE375，和前面看到的編碼是一致的。

那麼我們下載好字符集之後，只要將其中的字元編碼和數字對應的資訊提取出來，再把網頁原始碼中的字元編碼替換掉，就能得到我們想要的資料了。這裡要用到一個三方庫fontTools，利用fontTools可以獲取每一個字元物件，這個物件你可以簡單的理解為儲存著這個字元的形狀資訊，而且編碼可以作為這個物件的id，具有一一對應的關係。不過這裡還有一個問題，就是網頁每次使用的字符集是隨機變化的，我們也就無法使用一個固定的字符集去做到反爬。

解決思路如下：先儲存一個字型檔案（比如base.woff），然後解析其數字和編碼的對應關係，然後爬取的時候把新的字型檔案下載下來（比如online.woff），網頁中的一個數字的編碼（比如ABCD），我們先通過編碼ABCD找到這個字元在online.woff中的物件，並且把它和base.woff中的物件逐個對比，直到找到相同的物件，然後獲取這個物件在base.woff中的編碼，再通過編碼確認是哪個數字。

二、主要程式碼解析下載的字型檔案，由於字型檔案中有多餘的字元，需要捨棄掉。

'''
在學習過程中有什麼不懂得可以加我的python學習交流扣扣qun，934109170，群裡有不錯的學習教程、開發工具與電子書籍。
與你分享python企業當下人才需求及怎麼從零基礎學習好python，和學習什麼內容。
'''
# 解析字型庫
def parse_ttf(font_name):
    """
    :param font_name: 字型檔名
    :return: 字元-數字字典
    """
    base_nums = ['3', '0', '1', '6', '4', '2', '5', '8', '9', '7']
    base_fonts = ['uniEB84', 'uniF8CA', 'uniEB66', 'uniE9DB', 'uniE03C',
                  'uniF778', 'uniE590', 'uniED12', 'uniEA5E', 'uniE172']
    font1 = TTFont('base.woff')  # 本地儲存的字型檔案
    font2 = TTFont(font_name)  # 網上下載的字型檔案
 
    uni_list = font2.getGlyphNames()[1:-1]  # 去掉頭尾的多餘字元
    temp = {}
    # 解析字型庫
    for i in range(10):
        uni2 = font2['glyf'][uni_list[i]]
        for j in range(10):
            uni1 = font1['glyf'][base_fonts[j]]
            if uni2 == uni1:
                temp["&#x" + uni_list[i][3:].lower() + ";"] = base_nums[j]
    return temp

解析網頁原始碼，把其中的編碼替換成數字，這裡選擇把網頁原始碼儲存下來，這樣的話編碼就不會改變，也就能正確的解析。

# 解析網頁得到數字資訊
def get_nums(font_dict):
    """
    :param font_dict: 字元-數字字典
    :return: 由評分、評分人數、票房和票價組成的列表
    """
    num_list = []
    with open('html', 'r', encoding='utf-8') as f:
        for line in f.readlines():
            lst = re.findall('(&#x.*?)<', line)
            if lst:
                num = lst[0]
                for i in font_dict.keys():
                    if i in num:
                        num = num.replace(i, font_dict[i])
                num_list.append(num)
    return num_list

完整程式碼

import re
import requests
from lxml import etree
from fontTools.ttLib import TTFont
'''
在學習過程中有什麼不懂得可以加我的python學習交流扣扣qun，934109170，群裡有不錯的學習教程、開發工具與電子書籍。
與你分享python企業當下人才需求及怎麼從零基礎學習好python，和學習什麼內容。
'''
headers = {
    "Host": "maoyan.com",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 "
                  "Safari/537.36"
}
 
 
# 解析字型庫
def parse_ttf(font_name):
    """
    :param font_name: 字型檔名
    :return: 字元-數字字典
    """
    base_nums = ['3', '0', '1', '6', '4', '2', '5', '8', '9', '7']
    base_fonts = ['uniEB84', 'uniF8CA', 'uniEB66', 'uniE9DB', 'uniE03C',
                  'uniF778', 'uniE590', 'uniED12', 'uniEA5E', 'uniE172']
    font1 = TTFont('base.woff')  # 本地儲存的字型檔案
    font2 = TTFont(font_name)  # 網上下載的字型檔案
 
    uni_list = font2.getGlyphNames()[1:-1]  # 去掉頭尾的多餘字元
    temp = {}
    # 解析字型庫
    for i in range(10):
        uni2 = font2['glyf'][uni_list[i]]
        for j in range(10):
            uni1 = font1['glyf'][base_fonts[j]]
            if uni2 == uni1:
                temp["&#x" + uni_list[i][3:].lower() + ";"] = base_nums[j]
    return temp
 
 
# 解析網頁得到數字資訊
def get_nums(font_dict):
    """
    :param font_dict: 字元-數字字典
    :return: 由評分、評分人數、票房和票價組成的列表
    """
    num_list = []
    with open('html', 'r', encoding='utf-8') as f:
        for line in f.readlines():
            lst = re.findall('(&#x.*?)<', line)
            if lst:
                num = lst[0]
                for i in font_dict.keys():
                    if i in num:
                        num = num.replace(i, font_dict[i])
                num_list.append(num)
    return num_list
 
 
# 爬取頁面
def get_page():
    url = "http://maoyan.com/cinemas?movieId=42964"
    res = requests.get(url, headers=headers)
    # 提取woff字型的連結
    woff_url = re.findall(r"vfile.*?woff", res.text)[0]
    # 下載字型檔案
    font_name = 'online.woff'
    with open(font_name, 'wb') as f:
        f.write(requests.get("http://" + woff_url).content)
    # 儲存res.text用於後面解析
    with open('html', 'w', encoding='utf-8') as f:
        f.write(res.text)
    # 解析字型檔案
    font_dict = parse_ttf(font_name)
    nums = get_nums(font_dict)
    price_list = nums[3:]  # 得到票價資訊列表
    s = etree.HTML(res.text)
    movie_name = s.xpath('/html/body/div[3]/div/div[2]/div[1]/h3/text()')[0]  # 名字
    movie_type = s.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[1]/text()')[0]  # 型別
    info = s.xpath('/html/body/div[3]/div/div[2]/div[1]/ul/li[2]/text()')[0]
    movie_country = info.strip().split('\n')[0]  # 國家
    movie_time = info.strip().split('\n')[1].split('/ ')[-1]  # 時長
    movie_score = nums[0] + '(評分人數：{})'.format(nums[1])  # 評分
    box_office = nums[2] + s.xpath('/html/body/div[3]/div/div[2]/div[3]/div[2]/div/span[2]/text()')[0]  # 票房
    cinema_list = s.xpath('//*[@id="app"]/div[2]/div/div[1]/a/text()')
    address_list = s.xpath('//*[@id="app"]/div[2]/div/div[1]/p/text()')
    print(movie_name)
    print(movie_type + "/" + movie_country + "/" + movie_time)
    print("評分："+movie_score, "票房："+box_office)
    for cinema, address, price in zip(cinema_list, address_list, price_list):
        print(cinema, address, "票價：" + price + "元")
 
 
if __name__ == '__main__':
    get_page()

三、執行結果

python爬蟲教程，爬取貓眼電影，一網打盡好電影

Python爬蟲教程：爬取百度貼吧

Python爬蟲教程：爬取崗位分析報告

python爬蟲教程，爬取貓眼電影，一網打盡好電影

python爬蟲，爬取貓眼電影top100

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

[Python/爬蟲]利用xpath爬取豆瓣電影top250

Python爬蟲之一：抓取貓眼電影TOP100

Python爬蟲入門 | 2 爬取豆瓣電影資訊

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地

python 爬蟲實戰4 爬取淘寶MM照片

python爬蟲--打開爬取頁面

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

Python爬蟲入門 | 5 爬取小豬短租租房信息

Python 爬蟲入門(一)——爬取糗百

Python爬蟲項目--爬取自如網房源信息

Python 爬蟲入門之爬取妹子圖

python爬蟲教程，爬取貓眼電影 ，一網打盡好電影

相關推薦

python爬蟲教程，爬取貓眼電影，一網打盡好電影