爬取貓眼電影前100名（獲取圖片並記錄名字跟排名）

阿新 • • 發佈：2019-01-10

簡述

程式碼實現上，這個可以說是不難的。但是需要注意的是，這裡的有一些細節得注意一下。

協程的，gevent.joinall() 需要的是一個可以迭代的物件，但是內容必須是gevent.spawn()這個類
這裡有些小東西，比如在network上得到的包的內的資料（也就是直接爬取得到的資料，其實不是完全的資料，會有一些對於原始碼的部分的修改）。這種修改導致一開始，如果是看著檢查的話，就會有bug。

程式碼

import requests
import re
import gevent
from gevent import monkey

monkey.patch_all(select=False 
)


def getPicture(url, name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
    }
    res = requests.get(url, headers=headers)
    if res.status_code == 200:
        with open('./picture/' + name + '.png', 'wb' 
) as f:
            f.write(res.content)
    else:
        print(url)


def get_one_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
    }
    res = requests.get(url, headers=headers)
    if res.status_code == 200 
:
        pattern = re.compile('<dd>.*?board-index-.*?>(.*?)</i>.*?data-src="(.*?)".*?alt="(.*?)"', re.S)
        data = re.findall(pattern, res.text)
        waitlist = [gevent.spawn(getPicture, d[1], d[0] + '-' + d[2]) for d in data]
        gevent.joinall(waitlist)
    else:
        print(url)


if __name__ == '__main__':
    url = 'http://maoyan.com/board/4?offset=%d'
    waitlist = [gevent.spawn(get_one_page, url % (d * 10)) for d in range(10)]
    gevent.joinall(waitlist)

import os
import requests
from lxml import etree
import gevent
from gevent import monkey

monkey.patch_all(select=False)

def getPicture(url, name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
    }
    res = requests.get(url, headers=headers)
    if res.status_code == 200:
        with open('./picture/' + name + '.png', 'wb') as f:
            f.write(res.content)
    else:
        print(url)

def get_one_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
    }
    res = requests.get(url, headers=headers)
    if res.status_code == 200:
        html = etree.HTML(res.text)
        i = html.xpath('//i[contains(@class, "board")]/text()')
        title = html.xpath('//a[contains(@class, "image")]/@title')
        img = html.xpath('//img/@data-src')
        waitlist = [gevent.spawn(getPicture, img[t], i[t] + '-' + title[t]) for t in range(10)]
        gevent.joinall(waitlist)
    else:
        print(url)

def createfile():
    if not os.path.exists('./picture/'):
        os.mkdir('./picture')

if __name__ == '__main__':
    createfile()
    url = 'http://maoyan.com/board/4?offset=%d'
    waitlist = [gevent.spawn(get_one_page, url % (d * 10)) for d in range(10)]
    gevent.joinall(waitlist)

爬取貓眼電影前100名（獲取圖片並記錄名字跟排名）

簡述程式碼實現上，這個可以說是不難的。但是需要注意的是，這裡的有一些細節得注意一下。協程的，gevent.joinall() 需要的是一個可以迭代的物件，但是內容必須是gevent.spawn

python爬取貓眼電影 top 100 儲存到CSV

開啟是個執行緒，把迴圈事件匯入到執行緒中。 import threading from bs4 import BeautifulSoup import requests, csv from lxml i

爬取貓眼電影網前100的電影排名

爬取貓眼電影網前100的電影排名貓眼電影網:http://maoyan.com/board/4 確定要爬取的資料： 1：排名 2：電影名稱 3：主演 4：上映舌尖 5：評分構造下一頁url 首頁:http://maoyan.com/board/4?offset=0 第二

爬蟲（七）：爬取貓眼電影top100

all for rip pattern 分享爬取 values findall proc 一：分析網站目標站和目標數據目標地址：http://maoyan.com/board/4?offset=20目標數據：目標地址頁面的電影列表，包括電影名，電影圖片，主演，上映日期以

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows **Python版本： Python3.x ** 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 i

python爬蟲：爬取貓眼電影（分數的處理和多執行緒）

爬取用的庫是requests和beautifulsoup，程式碼編寫不難，主要是個別的細節處理需要注意 1、電影得分的處理右鍵審查元素，我們看到分數的整數部分和小數部分是分開的，在beautifulsoup中，我們可以用（.strings或者.stripped_stri

Python爬取貓眼電影100榜並儲存到excel表格

首先我們前期要匯入的第三方類庫有; 通過貓眼電影100榜的原始碼可以看到很有規律如: 亦或者是: 根據規律我們可以得到非貪婪的正則表示式 """<

20170513爬取貓眼電影Top100

top compile bs4 etime http res XML n) quest import jsonimport reimport requestsfrom bs4 import BeautifulSoupfrom requests import RequestE

使用requests爬取貓眼電影TOP100榜單

esp 進行得到 ensure .com key d+ odin pickle 　　Requests是一個很方便的python網絡編程庫，用官方的話是“非轉基因，可以安全食用”。裏面封裝了很多的方法，避免了urllib/urllib2的繁瑣。　　這一節使用request

Requests+正則表達式爬取貓眼電影

movies core http status roc find apple ascii int 代碼: import re import json from multiprocessing import Pool import requests from reque

靜覓爬蟲學習筆記8-爬取貓眼電影

nal rip score item 之前 req exceptio pool html 　　不知道是不是我學習太晚的原因，貓眼電影這網站我用requests進行爬取源碼直接返回給我一個您的訪問被禁止。作為萌新的我登時就傻了，還好認真聽了之前的課，直接換selenium抓了

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

Scrapy爬取貓眼電影評論

Scrapy爬取貓眼電影評論文章目錄 Scrapy爬取貓眼電影評論 1、尋找評論介面 2、分析介面URL 介面URL規律構造URL介面分析JSON引數 3、Scrapy程式碼

python學習(23)requests庫爬取貓眼電影

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。用requests寫一個基本的爬蟲排行資訊大致如下圖網址連結為http://maoyan.com/board/4?offset=0我們通過點選檢視原始檔，可以看到網頁資訊每一

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

爬取貓眼電影前100名（獲取圖片並記錄名字跟排名）

簡述

程式碼

相關推薦