python網路爬蟲（11）近期電影票房或熱度資訊爬取

阿新 • • 發佈：2019-07-12

目標意義

為了理解動態網站中一些資料如何獲取，做一個簡單的分析。

說明

思路，原始程式碼來源於：https://book.douban.com/subject/27061630/。

構造-下載器

構造分下載器，下載原始網頁，用於原始網頁的獲取，動態網頁中，js部分的響應獲取。

通過瀏覽器模仿，合理製作請求頭，獲取網頁資訊即可。

程式碼如下：

import requests
import chardet
class HtmlDownloader(object):
    def download(self,url):
        if url is None:
            return None
        user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
        headers={'User-Agent':user_agent}
        r=requests.get(url,headers=headers)
        if r.status_code is 200:
            r.encoding=chardet.detect(r.content)['encoding']
            return r.text
        return None

構造-解析器

解析器解析資料使用。

獲取的票房資訊，電影名稱等，使用解析器完成。

被解析的動態資料來源於js部分的程式碼。

js地址的獲取則通過F12控制檯-->網路-->JS，然後觀察，得到。

地址如正上映的電影：

http://service.library.mtime.com/Movie.api?Ajax_CallBack=true&Ajax_CallBackType=Mtime.Library.Services&Ajax_CallBackMethod=GetMovieOverviewRating&Ajax_CrossDomain=1&Ajax_RequestUrl=http://movie.mtime.com/257982/&t=201907121611461266&Ajax_CallBackArgument0=257982

返回資訊中，解析出json格式的部分，通過json的一些方法，獲取其中的票房等資訊。

其中，json解析工具地址如：https://www.json.cn/

未上映的電影是同理的。

這些資料的解析有差異，所以定製了函式分支，處理解析過程中可能遇到的不同情景。

程式碼如下：

import re
import json
class HtmlParser(object):
    def parser_url(self,page_url,response):
        pattern=re.compile(r'(http://movie.mtime.com/(\d+)/)')
        urls=pattern.findall(response)
        if urls != None:
            return list(set(urls))#Duplicate removal
        else:
            return None
        
    def parser_json(self,url,response):
        #parsing json. input page_url as js url and response for parsing
        pattern=re.compile(r'=(.*?);')
        result=pattern.findall(response)[0]
        if result != None:
            value=json.loads(result)
            isRelease=value.get('value').get('isRelease')
            if isRelease:
                isRelease=1
                return self.parser_json_release(value,url)
            else:
                isRelease=0
                return self.parser_json_notRelease(value,url)
        return None
    def parser_json_release(self,value,url):
        isRelease=1
        movieTitle=value.get('value').get('movieTitle')
        RatingFinal=value.get('value').get('movieRating').get('RatingFinal')
        try:
            TotalBoxOffice=value.get('value').get('boxOffice').get('TotalBoxOffice')
            TotalBoxOfficeUnit=value.get('value').get('boxOffice').get('TotalBoxOfficeUnit')
        except:
            TotalBoxOffice="None"
            TotalBoxOfficeUnit="None"
        return isRelease,movieTitle,RatingFinal,TotalBoxOffice,TotalBoxOfficeUnit,url
        
    def parser_json_notRelease(self,value,url):
        isRelease=0
        movieTitle=value.get('value').get('movieTitle')
        try:
            RatingFinal=Ranking=value.get('value').get('hotValue').get('Ranking')
        except:
            RatingFinal=-1
        TotalBoxOffice='None'
        TotalBoxOfficeUnit='None'
        return isRelease,movieTitle,RatingFinal,TotalBoxOffice,TotalBoxOfficeUnit,url

構造-儲存器

儲存方案為Sqlite，所以在解析器中isRelease部分，使用了0和1進行的儲存。

儲存需要連線sqlite3，建立資料庫，獲取執行資料庫語句的方法，插入資料等。

按照原作者思路，儲存時，先暫時儲存到記憶體中，條數大於10以後，將記憶體中的資料插入到sqlite資料庫中。

程式碼如下：

import sqlite3
class DataOutput(object):
    def __init__(self):
        self.cx=sqlite3.connect("MTime.db")
        self.create_table('MTime')
        self.datas=[]
    
    def create_table(self,table_name):
        values='''
        id integer primary key autoincrement,
        isRelease boolean not null,
        movieTitle varchar(50) not null,
        RatingFinal_HotValue real not null default 0.0,
        TotalBoxOffice varchar(20),
        TotalBoxOfficeUnit varchar(10),
        sourceUrl varchar(300)
        '''
        self.cx.execute('create table if not exists %s(%s)' %(table_name,values))
        
    def store_data(self,data):
        if data is None:
            return
        self.datas.append(data)
        if len(self.datas)>10:
            self.output_db('MTime')
            
    def output_db(self,table_name):
        for data in self.datas:
            cmd="insert into %s (isRelease,movieTitle,RatingFinal_HotValue,TotalBoxOffice,TotalBoxOfficeUnit,sourceUrl) values %s" %(table_name,data)
            self.cx.execute(cmd)
            self.datas.remove(data)
        self.cx.commit()
        
    def output_end(self):
        if len(self.datas)>0:
            self.output_db('MTime')
        self.cx.close()

主函式部分

建立以上物件作為初始化

然後獲取根路徑。從根路徑下找到百餘條電影網址資訊。

對每個電影網址資訊一一解析，然後儲存。

import HtmlDownloader
import HtmlParser
import DataOutput
import time
class Spider(object):
    def __init__(self):
        self.downloader=HtmlDownloader.HtmlDownloader()
        self.parser=HtmlParser.HtmlParser()
        self.output=DataOutput.DataOutput()
    
    def crawl(self,root_url):
        content=self.downloader.download(root_url)
        urls=self.parser.parser_url(root_url, content)
        for url in urls:
            print('.')
            t=time.strftime("%Y%m%d%H%M%S1266",time.localtime())
            rank_url='http://service.library.mtime.com/Movie.api'\
            '?Ajax_CallBack=true'\
            '&Ajax_CallBackType=Mtime.Library.Services'\
            '&Ajax_CallBackMethod=GetMovieOverviewRating'\
            '&Ajax_CrossDomain=1'\
            '&Ajax_RequestUrl=%s'\
            '&t=%s'\
            '&Ajax_CallBackArgument0=%s' %(url[0],t,url[1])
            rank_content=self.downloader.download(rank_url)
            try:
                data=self.parser.parser_json(rank_url, rank_content)
            except:
                print(rank_url)
            self.output.store_data(data)

        self.output.output_end()
        print('ed')
if __name__=='__main__':
    spider=Spider()
    spider.crawl('http://theater.mtime.com/China_Beijing/')

當前效果

如下：

python網路爬蟲（11）近期電影票房或熱度資訊爬取

目標意義為了理解動態網站中一些資料如何獲取，做一個簡單的分析。說明思路，原始程式碼來源於：https://book.douban.com/subject/27061630/。構造-下載器構造分下載器，下載原始網頁，用於原始網頁的獲取，動態網頁中，js部分的響應獲取。通過瀏覽器模仿，合理

python網路爬蟲（一）

網路爬蟲之前奏網路爬蟲之規則 Requests庫入門 requests庫的安裝 requests的詳細資訊 Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。 requests庫安裝成功與否的測試

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細節。 1.Proxy 的設定 urllib2 預設會使用環境變數 http_proxy 來設定 HTTP Proxy。如果想在程式中明確控制 Proxy 而不受環境變數的影響，可以使用代理。

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

前言：最近正在學習Python網路爬蟲，學到selenium，需要用到chrome瀏覽器的驅動，但是網上的很多地址都被牆了，而且沒有準確的驅動和chrome版本的對映，很麻煩。現在我已經解決了這些問題，現在把對映和下載連結分享出來。（一）檢視chrome

python網路爬蟲（五）:併發抓取

在進行單個爬蟲抓取的時候，我們不可能按照一次抓取一個url的方式進行網頁抓取，這樣效率低，也浪費了cpu的資源。目前python上面進行併發抓取的實現方式主要有以下幾種：程序，執行緒，協程。程序不在的討論範圍之內，一般來說，程序是用來開啟多個spider，比如我

Python網路爬蟲（四）：視訊下載器

這一節實現一個下載 iqiyi VIP視訊的爬蟲。需要的準備：旋風視訊VIP解析網站或其他解析網站原理理解：在視訊解析網站獲取視訊的過程中，首先會向視訊伺服器傳送GET請求，獲得伺服器發來的資訊；接到資訊後，再向伺服器POST資料，即將類似於密碼

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

Python網路爬蟲（1）--url訪問及引數設定

標籤：環境：Python2.7.9 / Sublime Text 2 / Chrome 1.url訪問，直接呼叫urllib庫函式即可 import urllib2 url=‘http://www.baidu.com/‘ response = urllib2.urlopen(url) html=re

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

Python網路爬蟲（七）：解決ImportError:DLL load failed：作業系統無法執行問題

背景： Python版本：Anaconda3 問題描述：最近在執行scrapy專案時，本來安裝好好的scrapy框架突然報錯，猝不及防， ImportError:DLL load failed：作業系統無法執行%1 如圖：自己也是百思

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麼接下來我們一起來看一下Cookie的使用。為什麼要使用Cookie呢？ Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）比如說有些網站需要登入後才

[Python]網路爬蟲（四）：Opener與Handler

在開始後面的內容之前，先來解釋一下urllib2中的兩個個方法：info and geturl urlopen返回的應答物件response(或者HTTPError例項)有兩個很有用的方法info()和geturl() 1.geturl()： geturl()返回獲

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

python網路爬蟲（9）構建基礎爬蟲思路

目的意義基礎爬蟲分5個模組，使用多個檔案相互配合，實現一個相對完善的資料爬取方案，便於以後更完善的爬蟲做準備。這裡目的是爬取200條百度百科資訊，並生成一個html檔案，儲存爬取的站點，詞條，解釋。本文思路來源書籍。其程式碼部分來源書籍。https://book.douban.com/subjec

python網路爬蟲（10）分散式爬蟲爬取靜態資料

目的意義爬蟲應該能夠快速高效的完成資料爬取和分析任務。使用多個程序協同完成一個任務，提高了資料爬取的效率。以百度百科的一條為起點，抓取百度百科2000左右詞條資料。說明參閱模仿了：https://book.douban.com/subject/27061630/。作者說是簡單的分散式爬蟲（

python網路爬蟲（14）使用Scrapy搭建爬蟲框架

目的意義爬蟲框架也許能簡化工作量，提高效率等。scrapy是一款方便好用，拓展方便的框架。本文將使用scrapy框架，示例爬取自己部落格中的文章內容。說明學習和模仿來源：https://book.douban.com/subject/27061630/。建立scrapy工程首先當然要確

Python3網路爬蟲——（1）利用urllib進行簡單的網頁抓取

利用urllib進行簡單的網頁抓取urllib是Python提供的用於操作URL的模組l、快速使用urllib爬取網頁# -*- coding: UTF-8 -*- from urllib import

python網路爬蟲（11）近期電影票房或熱度資訊爬取

目標意義

說明

構造-下載器

構造-解析器

構造-儲存器

主函式部分

當前效果

相關推薦