python爬蟲電影頁面資訊 xpath csv寫入圖片儲存到本地

阿新 • • 發佈：2018-11-24

import re
import requests
from  lxml import etree
import time
import urllib.request
import csv
import os

# 獲取電影詳情
def getMoviesDetail(id,score):
    movies_id = re.sub(r'/films/', '', id)
    details_url = 'http://maoyan.com/films/' + movies_id
    print(details_url)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'
    }
    # 定義代理
    proxy_addr = {
        'http': '88.146.227.253:8080'
    }
    details_content = requests.get(details_url, headers=headers,proxies = proxy_addr).text
    html = etree.HTML(details_content)
    # 過濾出電影名稱
    name = html.xpath('//div[@class="movie-brief-container"]/h3/text()')[0]
    # 過濾出地區 上映時間
    region_showTime = html.xpath('//div[@class="movie-brief-container"]/ul/li[3]/text()')[0]
    pattern = re.compile(u"[\u4e00-\u9fa5]+")
    region = re.findall(pattern, region_showTime)[0]
    pattern = re.compile(u"[\u4e00-\u9fa5]+")
    show_time = re.sub(pattern,"",region_showTime)
    # 過濾出電影時長
    duartion = html.xpath('//div[@class="movie-brief-container"]/ul/li[2]/text()')[0]
    pattern = re.compile(r"\d+")
    duartion = re.findall(pattern, duartion)[0]
    # 過濾出圖片連結
    image_url = html.xpath('//div[@class="avatar-shadow"]/img/@src')[0]

    # 將電影資訊寫入csv文件
    data = [name, score, region, show_time, duartion]
    writerDataTocsv(data)
    # 將圖片下載操本地
    dowloadImage(image_url,name)





# 獲取電影id
def getMoviesId():
    url = "http://maoyan.com/films"
    #設定請求頭
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'
    }
    # 定義代理
    proxy_addr ={
        'http': '88.146.227.253:8080'
    }
    content = requests.get(url,headers= headers,proxies = proxy_addr).text.encode('utf-8')
    html = etree.HTML(content)
    # xpath過濾
    films_list =html.xpath('//div[@class = "movies-list"]/dl//div[@class="movie-item"]/a/@href')
    # 將標題先存入
    data = ['電影名稱', '電影評分', '上映地區', '上映時間', '電影時長']
    writerDataTocsv(data)
    # 通過id迴圈呼叫下載詳情頁
    for i in  films_list:
       getMoviesDetail(i,90)
       time.sleep(3)

# 資料寫入csv
def writerDataTocsv(data):
    try:
        with open('movie_info.csv', 'a+') as csvfile:
            writer = csv.writer(csvfile)
            writer.writerow(data)
            csvfile.close()
    except:
        print("寫入檔案錯誤")

# 下載圖片到本地
def dowloadImage(image_url,name):
    file_path = 'moviesImage'
    try:
        if not os.path.exists(file_path):
             os.makedirs(file_path)
        filename = '{}{}{}{}'.format(file_path,os.sep,name,'.jpg',)
        urllib.request.urlretrieve(image_url,filename=filename)
    except IOError as e:
        print('檔案操作失敗',e)

getMoviesId()

python爬蟲電影頁面資訊 xpath csv寫入圖片儲存到本地

import re import requests from lxml import etree import time import urllib.request import csv import os # 獲取電影詳情 def getMoviesDetail(id,score):

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

python爬蟲系列(3.1-xpath語法的介紹)

一、關於xpath的認識 xpath（XML Path Language）是一門在XML和HTML文件中查詢資訊的語言，可用來在XML和HTML文件中對元素和屬性進行遍歷。二、xpath的基本語法 1、選擇節點 2、謂語謂語是用來找出某個特定的

2.1-Python爬蟲-正則/XML/XPath/CSS選擇器-案例演示

Python爬蟲-正則/XML/XPath/CSS選擇器正則表示式案例v23,re的基本使用流程 ''' python中正則模組是re 使用大致步驟： 1. compile函式講正則表示式的字串便以為一個Pattern物件 2. 通過Pattern物件的一些列方法對文字進行匹配，匹配結果是一個Mat

（二）Python爬蟲-----基礎頁面——headers請求頭

今天我們要講的是headers請求頭，這個通常是一些頁面用來分辨爬蟲的方法 requests庫可以通過加請求頭然後去請求頁面，如下 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows

Python爬蟲框架 scrapy之xpath選擇器 css選擇器

文章目錄一、xpath 1、節點選擇二、 css css選擇三、xpath函式操作 1

python爬蟲-通過bs4和xpath分析html程式碼

我感覺作者用xpath分析程式碼的時候不是很好，下面是我重新改善的一、用lxml模組分析程式碼 #!/usr/bin/env python #-*- coding:utf-8 -*- import requests import time,os from

Python爬蟲之糗事百科段子寫入MySQL資料庫

在《Python爬取糗事百科段子》這篇文章中，我們獲取到了每一個段子的內容（content）、作者(auth)、作者主頁(home)、點贊數(votes)、評論數(comments)、段子地址(content_href)等資訊，現在我們只需要根據以上欄位名，建立資料庫表，將資訊逐條寫入資料庫就可以了

python爬蟲：scrapy框架xpath和css選擇器語法

Xpath基本語法一、常用的路徑表示式：表示式描述例項 nodename 選取nodename節點的所有子節點 //div / 從根節點選取

Python爬蟲獲取樓盤資訊

在一家線上租房的公司已經實習兩週了。作為實習生，所以日常的工作主要是收集和整理全國各小區的資訊，比如小區的建成年代，是否有電梯，小區的門牌數等。因為我不太喜歡用複製貼上這種效率低的工作方式，所以寫了一個簡單的Python程式，相對那些高階爬蟲比較簡單，但是還挺實用。通

python——爬蟲實現網頁資訊抓取

首先實現關於網頁解析、讀取等操作我們要用到以下幾個模組 import urllib import urllib2 import re 我們可以嘗試一下用readline方法讀某個網站，比如說百度 def test(): f=urllib.urlopen('http:/

python爬蟲（三）xpath與lxml

XPath XPath是一種在xml中查詢資訊的語言，可以用來在xml文件中對元素和屬性進行遍歷。 XPath使用路徑表示式在xml文件中選取節點，這裡注意需要逐級表現要選取節點的父子關係。 XPath符號 nodename 選取此節點的所有子節點 /

python爬蟲採集網路資訊

from bs4 import BeautifulSoup import re import urllib.parse import urllib.request import os import datetime import json # params

python爬蟲和網絡營銷等場景下更換本地IP地址的幾種辦法

log 批量操作 lan 去百度 body 小說賬號常用註冊想必大家在使用python爬蟲和在網絡營銷中註冊多個賬號等操作時，都遇到過IP限制的問題。這個IP不是小說動漫娛樂電影等IP，而是計算機的IP。道高一尺，魔高一丈。系統再怎麽牛也是程序員哥哥敲出來的。之前牛

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB任務目標：爬取豆瓣電影top250，將資料儲存到MongoDB中。 items.py檔案複製程式碼# -*- coding: utf-8 -*-import scrapy class DoubanItem(scrapy.Item): # d

Python：關於命令列引數argparse寫入圖片路徑

什麼是命令列引數？命令列引數是在執行時給予程式/指令碼的標誌。它們包含我們程式的附加資訊，以便它可以執行。並非所有程式都有命令列引數，因為並非所有程式都需要它們。為什麼我們使用命令列引數？如上所述，命令列引數在執行時為程式提供附加資訊。這允許我們在不改變程式碼的情況下動

【Python爬蟲】下載微信公眾號圖片

大家用爬蟲下載圖片時肯定遇到過https://demo?wx_fmt=jpeg連結的圖片，常見的就是微信公眾號的圖片。遇到連結圖片用普通的方式是無法爬取下來的，我們可以用urllib.request進

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

python爬蟲 電影頁面資訊 xpath csv寫入 圖片儲存到本地

相關推薦

python爬蟲電影頁面資訊 xpath csv寫入圖片儲存到本地