python爬取貓眼電影資訊

阿新 • • 發佈：2019-01-30

爬取TOP100所有電影的資訊,(電影名, 主演，上映時間)
爬取該電影的宣傳封面的圖片, 儲存到本地/mnt/img/目錄中;
將獲取的資訊, 儲存到mysql資料庫中(電影名, 主演，上映時間, 封面圖片的本地路徑)

import re

#<p class="releasetime">上映時間：1998-04-03</p>
from concurrent.futures import ThreadPoolExecutor

import time
import json
import pymysql
from gevent import monkey
monkey.patch_socket()
import gevent


url='http://maoyan.com/board/4?offset=0'

from urllib.request import urlopen


def get_page(url):
    page_li=[]
    for i in range(0,10):
        new_url=url+str(i*10)
        page_li.append(new_url)
    return page_li

def load_page_content(url):
    with urlopen(url,timeout=40) as f:
        content= str(f.read().decode('utf-8'))
        return content.replace('\n','').replace('\t','')

def get_info(url):
    """爬取每個網頁電影的名字，主演以及上映時間"""
    content=load_page_content(url)
    pattern_rank = r'<i class="board-index board-index-(\d+)">'
    film_rank= re.findall(pattern_rank, content)
    #電影名
    pattern_name=r'alt="(\w+·?：?\w*)'
    film_name=re.findall(pattern_name,content)
    #電影主演
    pattern_actor=r'class="star">\s*\w+：([\w+·?\w*·?\w*,?]+)'
    film_actor=re.findall(pattern_actor,content)
    #電影上映時間
    pattern_time=r'上映時間：(\w+-?\w*-?\w*\(?\w*\)?)'
    film_time=re.findall(pattern_time,content)
    info=[i for i in zip(film_rank,film_name,film_actor,film_time)]
    return info


# #將爬取到的資訊存入資料庫
def Mysql_reserve(url):
    conn=pymysql.connect(host='localhost',user='root',passwd='123',
                         db='westos01',charset='utf8')

    cur=conn.cursor()
    try:
        insert_sql='insert into filminfo values(%s,%s,%s,%s);'
        info=get_info(url)

        cur.executemany(insert_sql,info)
        conn.commit()
    except Exception as e:
        print('To lead mysql failure',e)
    else:
        print('To lead mysql success')


    cur.close()
    conn.close()
    
#
def main(url):
    page_li=get_page(url)
    for page_url in page_li:
      Mysql_reserve(page_url)


# 使用多執行緒爬取
def useTreading(url):
    page_li = get_page(url)
    with ThreadPoolExecutor(max_workers=4) as pool:
        pool.map(Mysql_reserve,page_li)

#使用協程爬取,順序不定
def geventMain(url):
    page_li = get_page(url)
    gevents=[gevent.spawn(Mysql_reserve,page_url)for page_url in page_li]
    gevent.joinall(gevents)

start=time.time()
main(url)
end=time.time()
print('%s run %s' %(main.__name__,end-start))


start=time.time()
useTreading(url)
end=time.time()
print('%s run %s' %(useTreading.__name__,end-start))

start=time.time()
geventMain(url)
end=time.time()
print('%s run %s' %(geventMain.__name__,end-start))

python爬取貓眼電影資訊

爬取TOP100所有電影的資訊,(電影名, 主演，上映時間) 爬取該電影的宣傳封面的圖片, 儲存到本地/mnt/img/目錄中; 將獲取的資訊, 儲存到mysql資料庫中(電影名, 主演，上映時間, 封面圖片的本地路徑) import re #<

python爬取貓眼電影top100排行榜

技術所有結果 mys url with 地址保存 pic 爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存到mariadb數據庫中;2). 所有的圖片保

python爬取豆瓣電影資訊

''' 用到的主要知識：(詳情見官方文件） 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

python爬取貓眼電影top100榜

python版本：3.6 程式碼如下 import json from multiprocessing.pool import Pool from requests.exceptions impo

python爬取貓眼電影 top 100 儲存到CSV

開啟是個執行緒，把迴圈事件匯入到執行緒中。 import threading from bs4 import BeautifulSoup import requests, csv from lxml i

Python爬取貓眼電影Ｔop100

import requests import re # 抓取貓眼TOP100的資料 # 第一步：下載頁面 #0-100: 0,10,20,...,90 #http://maoyan.com/board/4?offset=90 def get_one_page(url):

Python爬取貓眼電影100榜並儲存到excel表格

首先我們前期要匯入的第三方類庫有; 通過貓眼電影100榜的原始碼可以看到很有規律如: 亦或者是: 根據規律我們可以得到非貪婪的正則表示式 """<

50行Python程式碼教你爬取貓眼電影TOP100榜所有資訊

來源： https://zhuanlan.zhihu.com/c_149865214對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天，戀習Python的手把手系列，手把手教你入門Python爬蟲，爬取貓眼電影TOP100榜資訊，將涉及到

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

python學習(23)requests庫爬取貓眼電影

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。用requests寫一個基本的爬蟲排行資訊大致如下圖網址連結為http://maoyan.com/board/4?offset=0我們通過點選檢視原始檔，可以看到網頁資訊每一

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python爬蟲，爬取貓眼電影top100

import requests from bs4 import BeautifulSoup url_list = [] all_name = [] all_num = [] all_actor = [] all_score = [] class Product_url():

python爬蟲爬取貓眼電影top100

這個爬蟲我是跟著教程做的，也是第一次用python的re和multiprocessing（多執行緒），還知道了yield生成器的用法。不過re正則表示式真的厲害，但是學起來比較難，還在學習中。import requests import re import pymysql f

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows **Python版本： Python3.x ** 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 i

Python爬蟲-爬取貓眼電影Top100榜單

貓眼電影的網站html組成十分簡單。地址就是很簡單的offset=x 這個x引數更改即可翻頁。下面的資訊使用正則表示式很快就可以得出結果。直接放程式碼： import json

python爬取貓眼電影資訊

相關推薦