Python爬蟲(二十)_動態爬取影評信息

阿新 • • 發佈：2018-12-18

type 8.0 out span none function title hot output

本案例介紹從JavaScript中采集加載的數據。更多內容請參考:Python學習指南

#-*-  coding:utf-8 -*-
import requests
import re
import time
import json

#數據下載器
class HtmlDownloader(object):
    def download(self, url, params=None):
        if url is None:
            return None
        user_agent = ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0‘
        headers = {‘User-Agent‘:user_agent}
        if params is None:
            r = requests.get(url, headers = headers)
        else:
            r = requests.get(url, headers = headers, params = params)
        if r.status_code == 200:
            r.encoding = ‘utf-8‘
            return r.text
        return None

#數據存儲器
class HtmlParser(object):

    #從選購電影頁面中解析出所有電影信息，組成一個list
    def parser_url(self, page_url, response):
        pattern = re.compile(r‘(http://movie.mtime.com/(\d+)/)‘)
        urls = pattern.findall(response)
        if urls != None:
            #將urls去重
            return list(set(urls))
        else:
            return None

    #解析正在上映的電影
    def __parser_release(self, page_url, value):
        ‘‘‘
            解析已經上映的電影
            :param page_url：電影鏈接
            :param value: json數據
            :return
        ‘‘‘
        try:
            isRelease = 1
            movieRating = value.get(‘value‘).get(‘movieRating‘)
            boxOffice = value.get(‘value‘).get(‘boxOffice‘)
            movieTitle = value.get(‘value‘).get(‘movieTitle‘)
            
            RPictureFinal = movieRating.get(‘RPictureFinal‘)
            RStoryFinal = movieRating.get(‘RStoryFinal‘)
            RDirectorFinal = movieRating.get(‘RDirectorFinal‘)
            ROtherFinal = movieRating.get(‘ROtherFinal‘)
            RatingFinal = movieRating.get(‘RatingFinal‘)

            MovieId = movieRating.get("MovieId")
            UserCount = movieRating.get("Usercount")
            AttitudeCount = movieRating.get("AttitudeCount")

            TotalBoxOffice = boxOffice.get("TotalBoxOffice")
            TotalBoxOfficeUnit = boxOffice.get("TotalBoxOfficeUnit")
            TodayBoxOffice = boxOffice.get("TodayBoxOffice")
            TodayBoxOfficeUnit = boxOffice.get("TodayBoxOfficeUnit")

            ShowDays = boxOffice.get(‘ShowDays‘)
            try:
                Rank = boxOffice.get(‘Rank‘)
            except Exception,e:
                Rank = 0
            #返回所提取的內容
            return (MovieId, movieTitle, RatingFinal, ROtherFinal, RPictureFinal, RDirectorFinal, RStoryFinal, UserCount, AttitudeCount, TotalBoxOffice+TotalBoxOfficeUnit, TodayBoxOffice+TodayBoxOfficeUnit, Rank, ShowDays, isRelease)
        except Exception, e:
            print e, page_url, value
            return None

    #解析未上映的電影
    def __parser_no_release(self, page_url, value, isRelease=0):
        ‘‘‘
            解析未上映的電影信息
            :param page_url
            :param value
            : return
        ‘‘‘
        try:
            movieRating = value.get(‘value‘).get(‘movieRating‘)
            movieTitle = value.get(‘value‘).get(‘movieTitle‘)
            
            RPictureFinal = movieRating.get(‘RPictureFinal‘)
            RStoryFinal = movieRating.get(‘RStoryFinal‘)
            RDirectorFinal = movieRating.get(‘RDirectorFinal‘)
            ROtherFinal = movieRating.get(‘ROtherFinal‘)
            RatingFinal = movieRating.get(‘RatingFinal‘)

            MovieId = movieRating.get("MovieId")
            UserCount = movieRating.get("Usercount")
            AttitudeCount = movieRating.get("AttitudeCount")

            try:
                Rank = value.get(‘value‘).get(‘hotValue‘).get(‘Ranking‘)
            except Exception,e:
                Rank = 0
            #返回所提取的內容
            return (MovieId, movieTitle, RatingFinal, ROtherFinal, RPictureFinal, RDirectorFinal, RStoryFinal, UserCount, AttitudeCount, u‘無‘, u‘無‘, Rank, 0, isRelease)
        except Exception, e:
            print e, page_url, value
            return None

    #解析電影中的json信息
    def parser_json(self, page_url, response):
        """
            解析響應
            :param response
            :return
        """
        #將"="和";"之間的內容提取出來
        pattern = re.compile(r‘=(.*?);‘)
        result = pattern.findall(response)[0]
        if result != None:
            #json模塊加載字符串
            value = json.loads(result)
            # print(result)
            try:
                isRelease = value.get(‘value‘).get(‘isRelease‘)
            except Exception, e:
                print e
                return None
            if isRelease:
                ‘‘‘
                    isRelease:0 很長時間都不會上映的電影；1 已經上映的電影； 2 即將上映的電影
                ‘‘‘
                if value.get(‘value‘).get(‘hotValue‘) == None:
                    #解析正在上映的電影
                    # print(self.__parser_release(page_url, value))
                    return self.__parser_release(page_url, value)
                else:
                    #解析即將上映的電影
                    # print(self.__parser_no_release(page_url, value, isRelease = 2))
                    return self.__parser_no_release(page_url, value, isRelease = 2)
            else:
                #解析還有很長時間才能上映的電影
                return self.__parser_no_release(page_url, value)

#數據存儲器
#數據存儲器將返回的數據插入mysql數據庫中，主要包括建表，插入和關閉數據庫等操作，表中設置了15個字段，用來存儲電影信息，代碼如下：  
#這裏以後補充

class SpiderMain(object):
    def __init__(self):
        self.downloader = HtmlDownloader()
        self.parser = HtmlParser()

    def crawl(self, root_url):
        content = self.downloader.download(root_url)
        urls = self.parser.parser_url(root_url, content)

        #構造一個活的評分和票房鏈接
        for url in urls:
            try:
                t = time.strftime("%Y%m%d%H%M%S3282", time.localtime())
                param = {
                    ‘Ajax_CallBack‘:‘true‘,
                    ‘Ajax_CallBackType‘: ‘Mtime.Library.Services‘,
                    ‘Ajax_CallBackMethod‘: ‘GetMovieOverviewRating‘,
                    ‘Ajax_CallBackArgument0‘ : ‘%s‘%(url[1]),
                    ‘Ajax_RequestUrl‘ : ‘%s‘%(url[0]),
                    ‘Ajax_CrossDomain‘ : ‘1‘,
                    ‘t‘ : ‘%s‘%t
                }
                rank_url = ‘http://service.library.mtime.com/Movie.api?‘
                rank_content = self.downloader.download(rank_url, param)
                data = self.parser.parser_json(rank_url, rank_content)

                self.output.output_end()
            except Exception, e:
                print("Crawl failed")

if __name__ == ‘__main__‘:
    spier = SpiderMain()
    spier.crawl(‘http://theater.mtime.com/China_Jiangsu_Province_Nanjing/‘)

type 8.0 out span none function title hot output 本案例介紹從JavaScript中采集加載的數據。更多內容請參考:Python學習指南 #-*- coding:utf-8 -*- import requests imp

推薦｜23個Python爬蟲開源專案程式碼：爬取微信、淘寶、豆瓣、知乎、微博等

今天為大家整理了23個Python爬蟲專案。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有連結指向GitHub，祝大家玩的愉快 1、WechatSogou [1]– 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬

大神教你如果學習Python爬蟲如何才能高效地爬取海量數據

Python 爬蟲分布式大數據編程 Python如何才能高效地爬取海量數據我們都知道在互聯網時代，數據才是最重要的，而且如果把數據用用得好的話，會創造很大的價值空間。但是沒有大量的數據，怎麽來創建價值呢？如果是自己的業務每天都能產生大量的數據，那麽數據量的來源問題就解決啦，但是沒有數

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

Python爬蟲初探 - selenium+beautifulsoup4+chromedriver爬取需要登錄的網頁信息

-- pro tag bug gui 結果 .com 工作 ges 目標之前的自動答復機器人需要從一個內部網頁上獲取的消息用於回復一些問題，但是沒有對應的查詢api，於是想到了用腳本模擬瀏覽器訪問網站爬取內容返回給用戶。詳細介紹了第一次探索python爬蟲的坑。準備工作

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲實習筆記 | Week3 資料爬取和正則再學習

2018/10/29 1.所思所想：雖然自己的考試在即，但工作上不能有半點馬虎，要認真努力，不辜負期望。中午和他們去吃飯，算是吃飯創新吧。下午爬了雞西的網站，還有一些欄位沒爬出來，正則用的不熟悉，此時終於露出端倪，心情不是很好。。明天上午把正則好好看看。 2.工作： [1].哈爾濱：html p

Python爬蟲系列之小說網爬取

今日爬蟲—小說網再次宣告所有爬蟲僅僅為技術交流，沒有任何惡意，若有侵權請☞私信☚ 此次爬取由主頁爬取到各本小說地址，然後通過這些地址獲取到小說目錄結構，在通過目錄結構獲取章節內容，同時以小說名字為資料夾，每一個章節為txt文字儲存到本地。話不多說，直接上程式碼

Python爬蟲實戰 requests+beautifulsoup+ajax 爬取半次元Top100的cos美圖

1.Python版本以及庫說明 Python3.7.1 Python版本urlencode 可將字串以URL編碼，用於編碼處理bs4 解析html的利器re 正則表示式，用於查詢頁面的一些特定內容requests 得到網頁html、jpg等資源的

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm，python3，工具的安裝在這就不多說了，之所以採用python3是因為python2只更新維護到2020年。新建python專案 File-Settings-project interpreter，點右上角+號，安裝requests，lx

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

Python爬蟲(二十四)_selenium案例：執行javascript指令碼

本章叫介紹如何使用selenium在瀏覽器中使用js指令碼，更多內容請參考：Python學習指南隱藏百度圖片 #-*- coding:utf-8 -*- #本篇將模擬執行javascript語句 from selenium import webdriver fro

Python爬蟲(二十二)_selenium案例：模擬登陸豆瓣

本篇部落格主要用於介紹如何使用selenium+phantomJS模擬登陸豆瓣，沒有考慮驗證碼的問題，更多內容，請參考：Python學習指南 #-*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.

python爬蟲建立代理池，爬取5000個代理IP並進行驗證！

前面已經介紹了urllib+正則表示式和BeautifulSoup進行爬取資料的方法，今天再解決一個實際問題——構建自己的代理池。通過爬蟲在網上進行資料的獲取，由於效率很快，換言之，訪問的速度過快，導致一段時間內的流量過大，會使得對方的伺服器壓力過

python爬蟲學習筆記分析Ajax爬取果殼網文章

有時在使用requests抓取頁面會遇到得到的結果與在瀏覽器中看到的結果不一樣，在瀏覽器檢查元素中可以看到的正常的顯示的網頁資料，但是requests請求得到的結果卻沒有。這是因為requests請求得到的時原始的html文件，而瀏覽器中的介面確實經過JavaScript處理資料生成的結果

python爬蟲——模擬登入教務系統爬取成績

主要思路 1.模擬登入到教務處，獲取登入的cookie值，用獲取到的cookie值，訪問成績的網址，分析成績頁面，獲取成績資訊。 2.打包成exe檔案，方便使用，我們可以用自己寫的程式快速查詢我們的成績，速度要比正常登入教務處網址查詢快很多，也比超級課程表

Python爬蟲分享(一天可爬取500萬以上的視訊)

PornHubBot原始碼地址：https://github.com/xiyouMc/WebHubBotPornHubBot專案主要是爬取全球最大成人網站PornHub的視訊標題、時長、mp4連結、封面URL和具體的PornHub連結專案爬的是PornHub.com，結構簡單

PYTHON爬蟲——必應圖片關鍵詞爬取

這段時間在實習，在做一些各大網站圖片爬取的工作，基本告一段落，現在分別對百度圖片，google圖片，並應（Bing）圖片三個網站的圖片搜尋結果進行爬取和下載。首先通過爬蟲過程中遇到的問題，總結如下： 1、一次頁面載入的圖片數量各個網站是

python爬蟲框架Scrapy安裝與爬取示例

環境：python3.6，自帶pip # 安裝 pip install scrapy 自動下載所需元件 Installing collected packages: lxml, cssselect, six, w3lib, parsel, pyasn1, attrs, idn

Python爬蟲(二十)_動態爬取影評信息

相關推薦