使用requests爬取貓眼電影TOP100榜單

阿新 • • 發佈：2017-06-09

esp 進行得到 ensure .com key d+ odin pickle

　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。

　　這一節使用requests庫對貓眼電影的TOP100榜進行抓取。

1 獲得頁面。

首先確定要爬取的url為http://maoyan.com/board/4，通過requests模塊，打印出頁面的信息

def get_a_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:#狀態碼，200表示請求成功
             
return response.text #返回頁面信息
        return None
    except RequestException :
        return  None

上面是代碼及註釋，為了防止再抓取時候出現異常，requests的異常有這些,其中RequestException是異常的父類，故我們直接導入

from requests.exceptions import RequestException

作為異常處理。這樣就得到了該url地址的網頁內容。

2 分析頁面

　　首先看一些頁面的大致情況，其中【霸王別姬】就是我們要抓取的欄目，欄目下面又分了一些小內容，如下面黑色箭頭所示。

技術分享

先看一下頁面大致情況，右鍵【審查元素】

技術分享

可以看出<dd>標簽包裹著每一個電影的信息，用正則表達式找到想要的元素。

reg = re.compile(‘<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name">‘
                     + ‘<a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>‘ 
                     + ‘.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd> 
‘,re.S)

依次捕獲的是排名，地址，名稱，主演，時間，整數評分，小數評分。這裏我用字典的形式存儲，返回一個生成器。

items = reg.findall(html)
    for item in items:
        yield{
            "index":item[0],
            "image":item[1],
            "title":item[2],
            "actor":item[3].strip()[3:],
            "time":item[4].strip()[5:],
            "score":item[5]+item[6]
            }

3 寫入文件

抓取到電影列表，剩下就是將電影列表寫入文件中，由於返回的是一個字典對象，可以使用pickle方法進行序列化，但為了方便以後的查閱，這裏用文本方式保存

def write_to_file(contents):
    c = ""
    with codecs.open("result.txt",‘a‘,encoding="utf-8",errors="ignore") as f:
        for key,value in contents.items():
            c += key + ":" + value +"\t"
        f.write(c + "\n")

返回的是一個字典格式，可是借助json方法進行序列化

def write_to_file(contents):
    with codecs.open("result.txt",‘a‘,encoding="utf-8",errors="ignore") as f:
        f.write(json.dumps(contents,ensure_ascii=False) + ‘\n‘)

其中的dumps方法是將obj序列化為JSON格式的字符串，這裏面要註意的是編碼問題。最後就是抓取整個榜單了，可以加入多線程策略，最後的完整代碼

# -*- coding: utf-8 -*-

import requests,re
import codecs
from requests.exceptions import RequestException
from multiprocessing import Pool

import json
def get_a_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException :
        return  None
def parse_a_page(html):
    #排名，地址，名稱，主演，時間，評分1，評分2
    reg = re.compile(‘<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name">‘
                     + ‘<a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>‘ 
                     + ‘.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>‘,re.S)
    items = reg.findall(html)
    for item in items:
        yield{
            "index":item[0],
            "image":item[1],
            "title":item[2],
            "actor":item[3].strip()[3:],
            "time":item[4].strip()[5:],
            "score":item[5]+item[6]
            }
    
    
def write_to_file(contents):#這裏面兩個方法。一種是用json，一種是轉為字符串
    c = ""
    with codecs.open("result.txt",‘a‘,encoding="utf-8",errors="ignore") as f:
        #for key,value in contents.items():
            #c += key + ":" + value +"\t"
        f.write(json.dumps(contents,ensure_ascii=False) + ‘\n‘)
        #print c
        #f.write(c + "\n")
def main(offset):
    url = "http://maoyan.com/board/4?offset=%s" %offset
    print url
    html = get_a_page(url)
    for item in parse_a_page(html):
        write_to_file(item)

if __name__ == "__main__":
    ‘‘‘
    for i in range(10):
        main(i*10)
    ‘‘‘
        
    pool = Pool()#多線程
    pool.map(main,[i*10 for i in range(10)])

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

Python爬蟲-爬取貓眼電影Top100榜單

貓眼電影的網站html組成十分簡單。地址就是很簡單的offset=x 這個x引數更改即可翻頁。下面的資訊使用正則表示式很快就可以得出結果。直接放程式碼： import json

python爬蟲實戰：利用pyquery爬取貓眼電影TOP100榜單內容-2

上次利用pyquery爬取貓眼電影TOP100榜單內容的爬蟲程式碼中點選開啟連結存在幾個不合理點。1. 第一個就是自定義的create_file（檔案存在判斷及建立）函式。我在後來的python檔案功能相關學習中，發現這個自定義函式屬於重複造輪子功能。因為 for data

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

來源： https://zhuanlan.zhihu.com/c_149865214對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，戀習Python的手把手系列，手把手教你入門Python爬蟲，爬取貓眼電影TOP100榜資訊，將涉及到

python爬取貓眼電影top100榜

python版本：3.6 程式碼如下 import json from multiprocessing.pool import Pool from requests.exceptions impo

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Requests+正則表示式爬取貓眼電影top100

#!/usr/bin/python #coding=utf-8 # import requests from requests.exceptions import RequestException import re import json from multiproces

【Python】Requests+正則表示式爬取貓眼電影TOP100

1.先獲取到一個頁面，狀態碼200是成功返回 def get_one_page(url): # 獲取一個頁面 try: response = requests.get(url) if response.status_cod

requests+re+multiprocessing爬取貓眼電影top100

core except exce mat RoCE yield tle itl pan import re import json import requests from multiprocessing import Pool from requests.

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

爬蟲練習 | 爬取貓眼電影Top100

#coding=utf-8 _date_ = '2018/12/9 16:18' import requests import re import json import time def get_one_page(url): headers={ 'User-Agent':'Mozil

python爬蟲，爬取貓眼電影top100

import requests from bs4 import BeautifulSoup url_list = [] all_name = [] all_num = [] all_actor = [] all_score = [] class Product_url():

python爬蟲爬取貓眼電影top100

這個爬蟲我是跟著教程做的，也是第一次用python的re和multiprocessing（多執行緒），還知道了yield生成器的用法。不過re正則表示式真的厲害，但是學起來比較難，還在學習中。import requests import re import pymysql f

多種方法爬取貓眼電影Top100排行榜,儲存到csv檔案,下載封面圖

參考連結:https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/83663400 因貓眼網站有些更新,參考連結中的部分程式碼執行報錯,特修改一下 #!/usr/bin/env python # -*- coding: utf-8

requests爬取貓眼電影403錯誤解決方法

原始碼如下: import requests from requests.exceptions import RequestException def one_page_code(url): try: &n

使用requests爬取貓眼電影TOP100榜單

1 獲得頁面。

2 分析頁面

3 寫入文件

相關推薦