scrapy爬蟲爬取動態網站

阿新 • • 發佈：2018-12-31

爬取360圖片上的美女圖片

360圖片網站上的圖片是動態載入的，動態載入就是通過ajax請求介面拿到資料喧染在網頁上。我們就可以通過遊覽器的開發者工具分析，在我們向下拉動視窗時就會出現這麼個請求，如圖所示：
這裡寫圖片描述

所以就判定這個url就是ajax請求的介面:,http://image.so.com/zj?ch=beauty&sn=30&listtype=new&temp=1,通過分析，sn=30 表示取的是前面30條資料，sn=60取的是30到60條的資料，我們就可以通過改變sn的數來拿到不同的資料，下面就開始我們的scrap專案：

# 在虛擬環境裡建立專案
scrapy startproject  image360
# 建立蜘蛛 

scrapy  genspider image  image.so.com

專案目錄結構如下：
這裡寫圖片描述

首先建立儲存資料的模型：在items.py檔案中

import scrapy


class ImageItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field() # 圖片的標題
    tag = scrapy.Field() # 圖片的標籤
    width = scrapy.Field() # 圖片的寬度
    height = scrapy.Field 
() # 圖片的高度
    url = scrapy.Field() # 圖片的url

開始寫蜘蛛：在iamge.py檔案中

import scrapy
from urllib.parse import urlencode
from json import loads

class ImageSpider(scrapy.Spider):
    name = 'image' # 蜘蛛的名字
    allowed_domains = ['image.so.com'] # 允許訪問的域名

    # 因為不和以前一樣給一個初始url，所以需要重寫父類的start_requests方法 

    def strat_requests(self):
        # 定義一個基礎的url
        base_url = 'http://image.so.com/zj?'
        # 把固定的引數儲存在一個字典裡
        param = {'ch': 'beauty', 'listtype': 'new', 'temp': 1}
        # 我們拿資料只需要改變sn的值，所以我們來個迴圈，我們拿300條資料
        for page in range(10):
            # 把sn和對應的數新增到字典裡
            param['sn'] = page * 30
            # 一個完整的url   
            full_url = base_url + urlencode(param)
            # 返回一個生成器，
             yield scrapy.Request(url=full_url, callback=self.parse)

    def     def parse(self, response):
        # 把從接口裡拿到的資料轉成字典
        model_dict = loads(response.text)
        # 找到對應的資料放在item裡
        for elem in model_dict['list']:
            item = ImageItem()
            item['title'] = elem['group_title']
            item['tag'] = elem['tag']
            item['width'] = elem['cover_width']
            item['height'] = elem['cover_height']
            item['url'] = elem['qhimg_url']
            yield item

資料的持久化：在pipelines.py檔案中

from scrapy import Request
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline
from pymongo import MongoClient


# 下載圖片的類，繼承了scrap的ImagesPipeline類，並且重寫了裡面3個方法
class SaveImagePipeline(ImagesPipeline):

    def get_media_requests(self, item, info):
        yield Request(url=item['url'])

    def item_completed(self, results, item, info):
        if not results[0][0]:
            raise DropItem('下載失敗')
        return item

    # 獲取檔案的檔名的方法
    def file_path(self, request, response=None, info=None):
        return request.url.split('/')[-1]


# 儲存到資料庫的類
class SaveToMongoPipeline(object):

    def __init__(self, mongo_url, db_name):
        self.mongo_url = mongo_url
        self.db_name = db_name
        self.client = None
        self.db = None
        self.collect = None

    # 把item資料存入mongo資料庫裡
    def process_item(self, item, spider):
        # item['image_name'] = item['url'].split('/')[-1]
        # self.db.image.insert(dict(item))

        self.collect.insert_one(dict(item))
        return item

    # 建立連線mongo資料庫的方法，在開始爬蟲程式時自動呼叫
    def open_spider(self, spider):
        self.client = MongoClient(self.mongo_url)
        self.db = self.client[self.db_name]
        self.collect = self.db.image

    # 關閉連線的方法，在爬蟲程式結束時自動呼叫
    def close_spider(self, spider):
        self.client.close()

    # 這是個類方法
    @classmethod
    def from_crawler(cls, crawler):
        # 當return cls時就會呼叫該類的初始方法__init__,就把連線mango資料庫的引數和資料庫名字傳過去
        # crawler.setting.get('MONGO_URL')就是拿到settings.py檔案裡設定的 MONGO_URL
        return cls(crawler.settings.get('MONGO_URL'),
                   crawler.settings.get('MONGO_DB'))

在配置檔案中開啟pipelines

這裡寫圖片描述

使用webdriver

from selenium import webdriver
from bs4 import BeautifulSoup
import requests

def main():
    driver = webdriver.Chrome()
    driver.get('https://v.taobao.com/v/content/live?catetype=704&from=taonvlang')
    soup = BeautifulSoup(driver.page_source, 'lxml')
    for img_tag in soup.body.select('img[src]'):
        url = img_tag.attrs['src']
        try:
            if not str(url).startswith('http'):
                url = 'http:' + url
                filename = url[url.rfind('/') + 1:]
                resp = requests.get(url)
                with open('../images/' + filename,'wb') as f:
                    f.write(resp.content)
        except OSError:
            print(filename + '下載失敗')
    print('圖片下載完成')


if __name__ == '__main__':
    main()

scrapy爬蟲爬取動態網站

爬取360圖片上的美女圖片 360圖片網站上的圖片是動態載入的，動態載入就是通過ajax請求介面拿到資料喧染在網頁上。我們就可以通過遊覽器的開發者工具分析，在我們向下拉動視窗時就會出現這麼個請求，如圖所示：所以就判定這個url就是ajax請求的介面:

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

福利向---Scrapy爬蟲爬取多級圖片網站

1.目標站分析目標站網址為https://52zfl.vip/zhaifuli/list_2_1.html 每頁網址有若干連結，點選每個連結，是每部圖片資源的詳情頁面，由於圖片數量較多，涉及到翻頁操作。通過分析頁面html程式碼，提取有用部分如下：

Scrapy ：爬取培訓網站講師資訊

Scrapy 框架 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy 使用

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識Scrapy爬蟲安裝書上說在pip安裝會有問題，直接在Anaconda裡安裝。建立Scrapy專案 PyCharm裡沒有直接的建立入口，在命令列建立（從Anaconda安裝後似乎自動就

爬取動態網站資料（soup的css方式處理資料）

import requests from bs4 import BeautifulSoup url = 'https://knewone.com/discover?page=' def get_in

python 爬蟲爬取某網站的漫畫

文章目錄宣告前言思路流程程式結果宣告為了表示對網站的尊重，已將網站地址隱藏，下載的漫畫之前我就看過了，所以也會刪掉，絕不侵犯網站的利益。前言

Python爬蟲爬取動態頁面思路+例項（一）

簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，儘管它們在瀏覽器裡看起來唾手可得。這說明我們想要的元素是在我們的某些操作下通過js事件動態生成的。舉個例子，我們在刷Q

利用scrapy輕鬆爬取招聘網站資訊並存入MySQL

前言 Scrapy版本：1.4； Python版本：3.6； OS：win10；本文完整專案程式碼：完整示例；本文目標：通過爬取騰訊招聘網站招聘崗位，熟悉scrapy，並掌握資料庫儲存操作；一、準備工作 ♣ 基礎工作首先你要安裝S

爬蟲爬取動態網頁下載美女圖片

scrapy爬取動態網頁下載圖片靜態頁面練習了後，我們開始來爬取動態頁面，為了滿足廣大程式猿的需求，在這裡就選擇360圖片吧，網址是image.so.com。希望大家學會後身體一天不如一天。首先我們來分析這個網頁，開啟開發者工具，滑動頁面等加載出新的圖片

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

Python3網路爬蟲：Scrapy入門實戰之爬取動態網頁圖片

Python版本： python3.+ 執行環境： Mac OS IDE： pycharm 一前言二 Scrapy相關方法介紹 1 搭建Scrapy專案 2 shell分析三網頁分析

[Python爬蟲]Scrapy配合Selenium和PhantomJS爬取動態網頁

Python世界中Scrapy一直是爬蟲的一個較為成熟的解決方案，目前javascript在網頁中應用越來越廣泛，越來越多的網站選擇使用javascript動態的生成網頁的內容，使得很多純html的爬蟲解決方案失效。針對這種動態網站的爬取，目前也有很多解決方案。

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

一個爬取法律網站的爬蟲

重連 light str 避免 log nic urllib python 文件的因為各種原因，需要建立一個法律大全的庫，方便做匹配等。重新拿起了python，發現忘的差不多了。網上找了一下，這是一個大佬做的一個最簡單的爬蟲，http://www.cnblogs.com

如何利用Python網絡爬蟲爬取微信朋友圈動態--附代碼（下）

CA external 令行 sta 項目程序 str 輸入 tar 前天給大家分享了如何利用Python網絡爬蟲爬取微信朋友圈數據的上篇（理論篇），今天給大家分享一下代碼實現（實戰篇），接著上篇往下繼續深入。一、代碼實現 1、修改Scrapy項目中的ite

爬蟲框架Scrapy入門——爬取acg12某頁面

ima 需要 random 代碼定義 ons tps 框架 resp 1.安裝1.1自行安裝python3環境1.2ide使用pycharm1.3安裝scrapy框架2.入門案例2.1新建項目工程2.2配置settings文件2.3新建爬蟲app新建app將start_u

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

scrapy爬蟲爬取動態網站

爬取360圖片上的美女圖片

使用webdriver

相關推薦