python學習(23)requests庫爬取貓眼電影

阿新 • • 發佈：2018-11-11

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。

用requests寫一個基本的爬蟲

排行資訊大致如下圖


網址連結為http://maoyan.com/board/4?offset=0
我們通過點選檢視原始檔，可以看到網頁資訊

每一個電影的html資訊都是下邊的這種結構

<i class="board-index board-index-3">3</i>
    <a href="/films/2641" title="羅馬假日" class="image-link" data-act="boarditem-click 
" data-val="{movieId:2641}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p0.meituan.net/movie/[email protected]_220h_1e_1c" alt="羅馬假日" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class 
="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/2641" title="羅馬假日" data-act="boarditem-click" data-val="{movieId:2641}">羅馬假日</a></p>
        <p class="star">
                主演：格利高裡·派克,奧黛麗·赫本,埃迪·艾伯特
         
</p>

其實對我們有用的就是 img src(圖片地址) title 電影名 star 主演。

所以根據前邊介紹過的正則表示式寫法，可以推匯出正則表示式

compilestr = r'''<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">
(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'''

‘.’表示匹配任意字元，如果正則表示式用re.S模式，.還可以匹配換行符，’‘表示匹配前一個字元0到n個，’？’表示非貪婪匹配，

所以’.?’可以理解為匹配任意字元。接下來寫程式碼列印我們匹配的條目

import requests
import re
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

if __name__ == "__main__":
    headers={'User-Agent':USER_AGENT,
           }
    session = requests.Session()
    req = session.get('http://maoyan.com/board/4?offset=0',headers = headers, timeout = 5)
    compilestr = r'<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'
    #print(req.content)
    pattern = re.compile(compilestr,re.S)
    #print(req.content.decode('utf-8'))
    lists = re.findall(pattern,req.content.decode('utf-8'))
    for item in lists:
        #print(item)
        print(item[0].strip())
        print(item[1].strip())
        print(item[2].strip())
        print(item[3].strip())
        print('\n')

執行一下，結果如下

看來我們抓取到資料了，我們只爬取了這一頁的資訊，接下來我們分析第二頁，第三頁的規律，點選第二頁，網址變為’http://maoyan.com/board/4?offset=10',點選第三頁網址變為'http://maoyan.com/board/4?offset=20'，所以每一頁的offset偏移量為20，這樣我們可以計算偏移量達到抓取不同頁碼的資料，將上一個程式稍作修改，變為可以爬取n頁資料的程式

import requests
import re
import time
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

class MaoYanScrapy(object):
    def __init__(self,pages=1):
        self.m_session = requests.Session()
        self.m_headers = {'User-Agent':USER_AGENT,}
        self.m_compilestr = r'<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'
        self.m_pattern = re.compile(self.m_compilestr,re.S)
        self.m_pages = pages
    
    def getPageData(self):
        try:
            for i in range(self.m_pages):
                httpstr = 'http://maoyan.com/board/4?offset='+str(i)
                req = self.m_session.get(httpstr,headers=self.m_headers,timeout=5)
                lists = re.findall(self.m_pattern,req.content.decode('utf-8'))
                time.sleep(1)
                for item in lists:
                    img = item[0]
                    print(img.strip()+'\n')
                    name = item[1]
                    print(name.strip()+'\n')
                    actor = item[2]
                    print(actor.strip()+'\n')
                    fiemtime = item[3]
                    print(fiemtime.strip()+'\n')
                

        except:
            print('get error')

if __name__ == "__main__":
    maoyanscrapy = MaoYanScrapy()
    maoyanscrapy.getPageData()

執行下，效果和之前一樣，只是支援了頁碼的傳參了。

下面繼續完善下程式，把每個電影的圖片抓取並儲存下來，這裡面用到了建立資料夾，路徑拼接，檔案儲存的基礎知識，綜合運用如下

import requests
import re
import time
import os
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'

class MaoYanScrapy(object):
    def __init__(self,pages=1):
        self.m_session = requests.Session()
        self.m_headers = {'User-Agent':USER_AGENT,}
        self.m_compilestr = r'<dd>.*?<i class="board-index.*?<img data-src="(.*?)@.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">.*?(.*?)</p'
        self.m_pattern = re.compile(self.m_compilestr,re.S)
        self.m_pages = pages
        self.dirpath = os.path.split(os.path.abspath(__file__))[0]
        
    
    def getPageData(self):
        try:
            for i in range(self.m_pages):
                httpstr = 'http://maoyan.com/board/4?offset='+str(i)
                req = self.m_session.get(httpstr,headers=self.m_headers,timeout=5)
                lists = re.findall(self.m_pattern,req.content.decode('utf-8'))
                time.sleep(1)
                for item in lists:
                    img = item[0]
                    print(img.strip()+'\n')
                    name = item[1]
                    dirpath = os.path.join(self.dirpath,name)
                    if(os.path.exists(dirpath)==False):
                        os.makedirs(dirpath)
                    print(name.strip()+'\n')
                    actor = item[2]
                    print(actor.strip()+'\n')
                    fiemtime = item[3]
                    print(fiemtime.strip()+'\n')
                    txtname = name+'.txt'
                    txtname = os.path.join(dirpath,txtname)
                    if(os.path.exists(txtname)==True):
                        os.remove(txtname)
                    with open (txtname,'w') as f:
                        f.write(img.strip()+'\n')
                        f.write(name.strip()+'\n')
                        f.write(actor.strip()+'\n')
                        f.write(fiemtime.strip()+'\n')
                    picname=os.path.join(dirpath,name+'.'+img.split('.')[-1])
                    if(os.path.exists(picname)):
                        os.remove(picname)
                    req=self.m_session.get(img,headers=self.m_headers,timeout=5)
                    time.sleep(1)
                    with open(picname,'wb') as f:
                        f.write(req.content)
        except:
            print('get error')

if __name__ == "__main__":
    maoyanscrapy = MaoYanScrapy()
    maoyanscrapy.getPageData()

執行一下，可以看到在檔案的目錄裡多了幾個資料夾

點選一個資料夾，看到裡邊有我們儲存的圖片和資訊

好了，到此為止，正則表示式和requests結合，做的爬蟲實戰完成。
謝謝關注我的公眾號：

python學習(23)requests庫爬取貓眼電影

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。用requests寫一個基本的爬蟲排行資訊大致如下圖網址連結為http://maoyan.com/board/4?offset=0我們通過點選檢視原始檔，可以看到網頁資訊每一

一起學爬蟲——使用xpath庫爬取貓眼電影國內票房榜

之前分享了一篇使用requests庫爬取豆瓣電影250的文章，今天繼續分享使用xpath爬取貓眼電影熱播口碑榜 XPATH語法 XPATH(XML Path Language)是一門用於從XML檔案中查詢資訊的語言。通用適用於從HTML檔案中查詢資料。工欲善其事必先利其器，我們首先來了解XPATH常用的語法

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

【Python】Requests+正則表示式爬取貓眼電影TOP100

1.先獲取到一個頁面，狀態碼200是成功返回 def get_one_page(url): # 獲取一個頁面 try: response = requests.get(url) if response.status_cod

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

【爬蟲學習1】正則表示式加Requests爬取貓眼電影排行

Requests獲取網頁資料運用Requests獲得網頁 import requests ##獲取單個網頁資料 def get_one_page(url): response = requests.get(url) r

python使用requests庫爬取網頁的小實例：爬取京東網頁

try Coding get 代碼 cep .get style ppa print 爬取京東網頁的全代碼： #爬取京東頁面的全代碼 import requests url="https://item.jd.com/2967929.html" try:

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

Requests+正則表達式爬取貓眼電影

movies core http status roc find apple ascii int 代碼: import re import json from multiprocessing import Pool import requests from reque

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

14-Requests+正則表示式爬取貓眼電影

'''Requests+正則表示式爬取貓眼電影TOP100''''''流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML程式碼，返回結果。正則表示式分析：根據HTML程式碼分析得到電影的名稱、主演、上映時間、評分、圖片連結等資訊。儲存至檔案：通過檔案的形式儲存結果，每一部電影一個結

14-Requests+正則表達式爬取貓眼電影

ons 亂碼 aci resp 正則 app 名稱 header ascii ‘‘‘Requests+正則表達式爬取貓眼電影TOP100‘‘‘‘‘‘流程框架：抓去單頁內容：利用requests請求目標站點，得到單個網頁HTML代碼，返回結果。正則表達式分析：根據HTML代碼

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

python學習(23)requests庫爬取貓眼電影

用requests寫一個基本的爬蟲

相關推薦