Python Scrapy 煎蛋網妹子圖例項

阿新 • • 發佈：2018-11-29

前面介紹了爬蟲框架的一個例項，那個比較簡單，這裡在介紹一個例項

爬取煎蛋網妹子圖，遺憾的是上週煎蛋網還有妹子圖了，但是這周妹子圖變成了隨手拍，

不過沒關係，我們爬圖的目的是為了加強實戰應用，管他什麼圖了先爬下來再說。

言歸正傳

這個例項，主要是講將圖片爬了下來，儲存到本地，這個在上週已經實現了，這周有進一步做了講圖片資訊儲存到了資料庫中。

程式碼結構

如上圖

common 用來存放共程式碼，如上篇對資料庫的操作進行了封裝，這裡直接就放到了common 資料夾下，方便呼叫。

緊接著下面兩個資料夾是用來存放爬取的圖片的，第一個是這周爬的隨手拍的圖片，第二個是妹子圖的圖片。

然後下面就是爬蟲檔案了。

一下貼出對應檔案的程式碼

JdwSpider.py

# -*- coding: utf-8 -*-
import base64


import scrapy

import JianDanW.items as items
from bs4 import BeautifulSoup


class JdwspiderSpider(scrapy.Spider):
    name = 'JdwSpider'
    allowed_domains = ['jandan.net']
    start_urls = ['http://jandan.net/ooxx/ 
']

    # start_urls = ['http://jandan.net/ooxx/page-1#comments']



    def parse(self, response):

        item = items.JiandanwItem()

        # 通過 response.text 獲取 html 原始檔
        html = response.text

        # 使用 lxml 解析器解析 html 此時 soup 為 html 樣式檔案。
        soup = BeautifulSoup(html, ' 
lxml')
        # 查詢 html 中的 img-hash 返回 包含 class="img-hash" 的 列表
        tags = soup.select('.img-hash')
        imgUrlList = []
        for tag in tags:
            #  tag  為 <span class="img-hash">Ly93eDQuc2luYWltZy5jbi9tdzYwMC82NmIzZGUxN2d5MWZ4bzZqaXM0aWVqMjFtYTB1MHg2ci5qcGc=</span>
            # img_hash = Ly93eDQuc2luYWltZy5jbi9tdzYwMC82NmIzZGUxN2d5MWZ4bzZqaXM0aWVqMjFtYTB1MHg2ci5qcGc=
            img_hash = tag.text
            # img_hash 進行解密 為 //wx4.sinaimg.cn/mw600/66b3de17gy1fxo6jis4iej21ma0u0x6r.jpg
            img_url = base64.b64decode(img_hash).decode('utf-8')
            # 將結果載入到列表
            imgUrlList.append(img_url)

        # print(img_urls)
        # 將列表複製給item 對應的 image_urls
        item['image_urls'] = imgUrlList

        yield item

        # 獲取翻頁 下一頁 連線
        p_url = response.xpath('//a[@class="previous-comment-page"]//@href').extract_first()
        # 如果存在下一頁
        if p_url:

            p_url = str(p_url)
            hurl = 'http:'
            page_url = hurl + p_url
            # 如果存在下一頁，回撥 parse 函式
            yield scrapy.Request(page_url,callback=self.parse)

items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class JiandanwItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    image_urls = scrapy.Field()#圖片的連結

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import os
import urllib

import common.DBHandle as DBHandle

class JiandanwPipeline(object):
    def process_item(self, item, spider):

        # 資料庫連線
        host = '127.0.0.1'
        username = 'adil'
        password = 'helloyyj'
        database = 'AdilTest'
        port = 3306
        DbHandle = DBHandle.DataBaseHandle(host, username, password, database, port)
        for image_url in item['image_urls']:
            # 截圖圖片連結
            list_name = image_url.split('/')
            # 獲取圖片名稱
            file_name = list_name[len(list_name) - 1]  # 圖片名稱
            # 獲取當前路徑
            currentPath = os.getcwd()
            # 拼接圖片存放路徑
            file_path = os.path.join(currentPath,spider.name)
            # 如果圖片路徑不存在，建立該檔案路徑
            if not os.path.exists(file_path):
                os.makedirs(file_path)
            # 補全圖片路徑
            path_name = os.path.join(file_path,file_name)
            # 獲取有效的url 因為 image_url = //wx4.sinaimg.cn/mw600/66b3de17gy1fxo6jis4iej21ma0u0x6r.jpg
            image_url = 'http:' + image_url
            # 此處執行 資料庫插入，將 圖片名稱、url 插入到資料庫   注意 這裡的 values('佔位符 一定要用 引號引起來，要不然執行不成功，血的教訓')
            sql = "insert into JdwSpider(image_name,image_url) values ('%s','%s')" % (file_name,image_url)
            # 如果不執行插入，可以註釋改該行程式碼
            DbHandle.insertDB(sql)

            # 圖片儲存
            with open(path_name, 'wb') as file_writer:
                conn = urllib.request.urlopen(image_url)  # 下載圖片
                # 儲存圖片
                file_writer.write(conn.read())
            file_writer.close()
        # 關閉資料庫
        DbHandle.closeDb()
        return item

配置 setting.py

# -*- coding: utf-8 -*-

# Scrapy settings for JianDanW project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'JianDanW'

SPIDER_MODULES = ['JianDanW.spiders']
NEWSPIDER_MODULE = 'JianDanW.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'JianDanW (+http://www.yourdomain.com)'

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs

DOWNLOAD_DELAY = 3

# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'JianDanW.middlewares.JiandanwSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'JianDanW.middlewares.JiandanwDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'JianDanW.pipelines.JiandanwPipeline': 300,
}

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

遇到的問題

因為煎蛋網使用了反爬蟲策略，所以導致常規的爬蟲失敗

需要增加 url 解密操作，具體爬蟲程式碼裡有介紹

關於資料庫操作的封裝請看上篇介紹。

如果還有什麼問題，可以評論區內提問，或是QQ 聯絡。

如果覺得有用，歡迎打賞哦，哈哈哈~

Python Scrapy 煎蛋網妹子圖例項

前面介紹了爬蟲框架的一個例項，那個比較簡單，這裡在介紹一個例項爬取煎蛋網妹子圖，遺憾的是上週煎蛋網還有妹子圖了，但是這周妹子圖變成了隨手拍，不過沒關係，我們爬圖的目的是為了加強實戰應用，管他什麼圖了先爬下來再說。言歸正傳這個例項，主要是講將圖片爬了下來，儲存到本地，這個

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python爬蟲--下載煎蛋網妹子圖到本地

eve 元素 download down find .get fault log arc 1 #coding:utf-8 2 """ 3 下載煎蛋妹子到本地，通過selenium、正則表達式、phantomjs、Beautifulsoup實現 4 """ 5

python爬取煎蛋網妹子圖，已解密圖片~~~~~

本來想爬一波無聊圖，唉，竟然加密了。。。。還好是base64 不說了，程式碼獻上 2018.12.14 有效。。。。。 import requests from bs4 import BeautifulSoup import base64,time base64_l

python 爬蟲爬取煎蛋網妹子圖

前言大家好，這裡是「Python知識圈」爬蟲系列教程。此文首發於「brucepk」公眾號，歡迎大家去關注。此係列教程以例項專案為材料進行分析，從專案中學習 python 爬蟲，跟著我一起學習，每天進步一點點。煎蛋網站煎蛋網.png 很多朋友都反應學 pyt

爬蟲之煎蛋網妹子圖大爬哦

ima 應該 h+ pan class net 處理 num close 今天為了測試一下urllib2模塊中的headers部分，也就是模擬客戶端登陸的那個東東，就對煎蛋網妹子圖練了一下手，感覺還可以吧。分享一下！代碼如下 # coding:UTF-8 impor

python 爬取煎蛋ooxx妹子圖

煎蛋網妹子圖首頁（http://jandan.net/ooxx），這個連結看起來怎麼那麼邪惡呢？經分析網站隱藏了圖片地址。心一橫，採取曲線路線，成功爬取大量妹子圖~ 原始碼如下： 1 import requests 2 import re 3 import os 4 import base6

python3 15行程式碼爬取煎蛋網大圖(原圖)--基礎逆向破解js-------------------玉米都督

如果您覺得我的文章對您有用,請您給我一個關注,您的每一個關注都是對我極大的支援,我也會極大的提高產出效率,To_share_code 做爬蟲基本功就是逆向js, ps: 其實沒必要關心js函式的內部細節，只要找到函式的輸入輸出點就可以了。萬變不離其宗，只要在輸入、輸出的地方下斷點，

Python爬蟲入門教程，突破煎蛋網反爬措施，妹子圖批量抓取！

今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用 selenium 在揍他一波。

Python爬蟲(6):煎蛋網全站妹子圖爬蟲

上一篇文章中我們抓取了豆瓣圖書的資料，如果大家執行成功，並且看到資料夾下的 txt 檔案了。是不是有一種剛接觸程式設計，第一次輸出Hello world!時的欣喜。和上一篇實踐不同，我們這一次來爬取煎蛋網全站妹子圖，並且儲存到指定資料夾下。爬取流程從煎蛋網妹子圖第一頁開始抓取；爬取分頁標籤獲得最後一頁數字

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

用python來抓取“煎蛋網”上面的美女圖片，尺度很大哦！哈哈

each file like http add 寫入 header 。。 num 廢話不多說，先上代碼： import urllib.request import re #獲得當前頁面的頁數page_name def get_pagenum(url): req

Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

寫在前面很高興我這系列的文章寫道第18篇了，今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用selenium在揍他一波

python爬蟲之反爬蟲情況下的煎蛋網圖片爬取初步探索

本次爬蟲網址：http://jandan.net/ooxx 前言：前段時間一直在折騰基於qqbot的QQ機器人，昨天用itchat在微信上也寫了一個機器人，相比webqq，微信的web端功能比較豐富，圖片、檔案等都可以傳輸。今天閒來無事準備給寫個爬蟲豐富微信機器

Python協程爬取妹子圖(內有福利，你懂得~)

split 基本保存文件切換代碼執行怎麽辦什麽 head .cn 項目說明：　　1、項目介紹　　　本項目使用Python提供的協程+scrapy中的選擇器的使用(相當好用)實現爬取妹子圖的(福利圖)圖片，這個學會了，某榴什麽的、pow(2, 10)是吧！

python3爬蟲爬取煎蛋網妹紙圖片

port 商業技術分享爬取其中 lar c函數 base 技術其實之前實現過這個功能，是使用selenium模擬瀏覽器頁面點擊來完成的，但是效率實際上相對來說較低。本次以解密參數來完成爬取的過程。首先打開煎蛋網http://jandan.net/ooxx，查看網頁

利用C#爬取煎蛋網圖片

本程式還有待優化，我只爬取了每個頁面的第一張圖片，你們可以自己更新優化程式碼以實現全站爬取的功能。主要用到的名稱空間有： using System; using System.Collections.Generic; using System.ComponentModel; usi

python 多程序爬取妹子圖

程式碼需要自行修改的有：圖片儲存位置、程序池的容量（建議cpu幾個核就設定為少，我的是4核）可以在主函式簡單修改 ''' author:James-J time:2018/09/20 version: v2

爬取煎蛋隨手拍圖

爬取煎蛋隨手拍圖使用 requests + selenium 來進行圖片的爬取爬取結果爬取思路使用 selenium 發起請求對頁面進行資料的提取取到頁面上每個圖片的 url 使用 requests 發起請求

Python又來爬取妹子圖啦，一個T的硬盤都不夠用

chrome 三方動態加載 python bsp img 第三方庫 post請求 mode 淘女郎爬蟲，可動態抓取淘女郎的信息和照片。需要額外安裝的第三方庫 requests pip install requests pymongo pip install p

Python Scrapy 煎蛋網妹子圖例項

程式碼結構

相關推薦