python3爬取女神圖片，破解盜鏈問題

阿新 • • 發佈：2018-04-22

什麽 agen lock 基本 avi rt thread agent 使用 icm

title: python3爬取女神圖片，破解盜鏈問題

date: 2018-04-22 08:26:00

tags: [python3,美女,圖片抓取，爬蟲，盜鏈]

comments: true

前言

其實，抓取圖片和抓取小說內容沒有任何本質的區別，步驟都是一樣的。

但是圖片讀取的時候，會遇到一個盜鏈問題。這個問題是花的解決時間最長的。

環境

語言: python3

操作系統: mac 10.12.16

自定義工具包：soup_tool

其依賴工具如下：
from urllib import request
from urllib.parse import quote
from bs4 import BeautifulSoup
import os
import threading
import re
import ssl 

version 0.1 單個網址鏈接抓取所有特定圖片

抓取分析

首先打開單個美女圖片集
https://www.nvshens.com/g/24816

可以看到我標註的

使用chrome的檢查功能，可以看到當前頁有3張我們想要的圖片

其中，可以以第二張圖片的格式作為模板

只要替換001直到002、003、……、044

再找下圖片總共有多少張，看我標註的count就可以了

這樣就可以不用分頁去抓取了。

至此，基本分析完畢，開始動手吧

動手實戰

因為之前爬取小說網站的積累，寫了一個工具類，主要就是用了request請求鏈接，BeautifulSoup解析網頁，ssl解決https問題

工具類代碼不一一貼出來了，最後會給個本項目github的地址

1.首先是初始化，建立class

class Capture:

引用自定義工具類

from soup_tool import Soup

from soup_tool import MyThread

然後定義初始化的一些參數

def __init__(self):
    self.index_page_url = ‘http://www.nvshens.com‘
    # 作品內容主頁
    self.one_page_url = ‘https://www.nvshens.com/g/:key/‘
    # root folder
    self.folder_path = ‘nvshens/‘
    # 每個線程的沈睡時間
    self.sleep_time = 2
    # 後綴
    self.file_hz = ‘.img‘

2.根據key來檢索分析圖集主頁

接著，我們得將本網頁的獲取做成動態的，將網址

https://www.nvshens.com/g/24816

中的24816作為搜索key

定義一個方法 readPageFromSearch

def readPageFromSearch(self, search_key):
    """
    根據輸入key讀取搜索頁面
    :param search_key:
    :return:
    """

方法裏，第一個事，先建立個根目錄

     # 創建文件夾 /nvshens/search_key
    path = self.folder_path + search_key
    Soup.create_folder(path)

然後打開美女圖集第一頁，使用soup解析

     # 打開搜索頁面第1頁
    page_url = self.one_page_url.replace(‘:key‘, search_key)
    print(page_url)
    soup_html = Soup.get_soup(page_url)

從soup中取到id是dinfo的div，然後找到裏面的span，獲取其中的文本，再處理掉“張照片”幾個字，得到最大圖片張數

    text_page = soup_html.find("div", {‘id‘: ‘dinfo‘}).find(‘span‘).get_text()
    print(‘text_page‘, text_page)
    last = text_page.replace(‘張照片‘, ‘‘)
    item_size = int(last)

再接著，我們要找到模板，但是第一張照片也不能不管，所以先從第一張獲取，我們先看下規律

   # 第1張 
   https://img.onvshen.com:85/gallery/25366/24816/0.jpg
   # 第2張
   https://img.onvshen.com:85/gallery/25366/24816/001.jpg
   # 第3張
   ttps://img.onvshen.com:85/gallery/25366/24816/002.jpg

這樣，我們應該就知道怎麽辦了，取到第一張後，使用soup的find_next_sibling方法獲取下一個標簽節點

    # 第1張圖片
    image_one = soup_html.find("ul", {‘id‘: ‘hgallery‘}).find(‘img‘)
    image_one_url = image_one.get(‘src‘)
    print(‘image_one_url‘, image_one_url)

    # 第2張圖片鏈接作為模版
    image_two = image_one.find_next_sibling()
    image_two_url = image_two.get(‘src‘)
    print(‘image_two_url‘, image_two_url)

然後，根據第二章的url，首先用"/"分割，取最右一組數，得到“24816/001.jpg”,在用"."分割，獲取後綴，知道是jpg還是png

    # https://img.onvshen.com:85/gallery/25366/24816/001.jpg 
    # 24816/001.jpg
    img_hz = image_two_url.split("/")[-1]
    # jpg
    file_hz = img_hz.split(‘.‘)[1]
    # https://img.onvshen.com:85/gallery/25366
    img_mod_url = image_two_url.replace(img_hz, ‘‘)

3.多線程讀取圖片鏈接

定義readPageByThread 方法
將前面的

最大圖片數 item_size
文件存放目錄 path
模板url img_mod_url
文件後綴 file_hz

全部作為參數傳進來

# 多線程讀取，每個圖片下載都是一個線程
def readPageByThread(self, item_size, path, img_mod_url, file_hz):
    """
    :param item_size: 最大圖片數
    :param path: 文件存放目錄
    :param img_mod_url: 模板url 
    :param file_hz: 文件後綴 
    :return:
    """

循環 item_size,使用zfill方法左側補零

    # 循環打開圖片鏈接
    for item in range(1, item_size):
        # 左側補零 1->001,2->002,……,114->114
        page = str(item + 1).zfill(3)
        new_page_url = img_mod_url + page + ‘.‘ + file_hz
        new_path = path + ‘/‘ + page + ‘.‘ + file_hz
        print(new_path, ‘---‘, new_page_url)

使用自定義的多線程方法，將本次線程收集起來,參數傳進 readPagetoTxt 方法中

        t = MyThread(self.readPagetoTxt, (new_page_url, new_path, self.sleep_time), self.readPagetoTxt.__name__)
        threads.append(t)

開啟線程，並join阻塞

    for t in threads:
        t.start()
    for t in threads:
        t.join()

    print(‘all end‘, ctime())

4.讀取圖片內容並寫入

這是本次圖片抓取的重點了，在晚上搜索了很多內容，找到以下方法

urllib.request.urlretrieve

親測，對於破解盜鏈沒有任何作用

那麽，真正的破盜鏈怎麽搞呢？搜到了一個哥們的文章

go語言 grequests+goquery 簡單爬蟲，使用多協程並發爬取

其中有一段代碼是這樣的

  Headers:map[string]string{  
                            "Referer":"http://www.zngirls.com",  
                            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36"}})

這heads不只設置了User-Agent,還有Referer,艾？這是啥？我試試

將Referer設置為咱們的index_page_url（http://www.nvshens.com），果然可以了。為什麽呢？

原來Referer表示一個來源，代表是從哪個網站請求web服務器的，我們將Referer設置為http://www.nvshens.com，代表的其實是從它自身網站請求訪問的。

具體請參考這個哥們的文章什麽是HTTP Referer？

當然，這也主要是這個網站的開發人員只用了Referer來作為防盜鏈的判斷，如果不是Referer而是換成別的，那就又要重新破解了。

好了，寫我們的代碼吧，為head添加個Referer的屬性，這Soup_tool類中

_HEAD2 = {
    # Referer 抓取哪個網站的圖片，添加此頭部，可以破解盜鏈
    "Referer": "",
    ‘Accept-language‘: ‘zh-CN,zh;q=0.9‘
    ,
    ‘User-Agent‘: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36‘
}

@staticmethod
def open_url(query_url, referer=‘‘):
    Soup._HEAD2[‘Referer‘] = referer
    req = request.Request(quote(query_url, safe=‘/:?=‘), headers=Soup._HEAD2)
    webpage = request.urlopen(req)
    html = webpage.read()
    return html
    
@staticmethod
def write_img(query_url, file_name, referer):
    content = Soup.open_url(query_url, referer)
    with open(file_name, ‘wb‘) as f:
        f.write(content)

回到我們的Capture類：

    # 使用Request添加頭部的方法，讀取圖片鏈接再寫入，最重要的是加上Referer
    Soup.write_img(page_url, path, referer=self.index_page_url)

後記

還有v0.2、v0.3版本

這是v0.2的分析截圖

https://www.nvshens.com/gallery/

https://www.nvshens.com/gallery/dudou/

分析思路是一樣的，就不再細說了，自己看源碼

看下下載後呈現的效果

最後放出代碼鏈接

github

https://github.com/kiok1210/nvshens_img

參考文獻：

go語言 grequests+goquery 簡單爬蟲，使用多協程並發爬取

什麽是HTTP Referer？

python3爬取女神圖片，破解盜鏈問題

什麽 agen lock 基本 avi rt thread agent 使用 icm title: python3爬取女神圖片，破解盜鏈問題 date: 2018-04-22 08:26:00 tags: [python3,美女,圖片抓取，爬蟲，盜鏈] comments

Python 爬取美女圖片，分目錄多級存儲

port Language resp pac rst apt itl album domain 最近有個需求：下載https://mm.meiji2.com/網站的圖片。所以簡單研究了一下爬蟲。在此整理一下結果，一為自己記錄，二給後人一些方向。爬取結果如圖：

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

python3爬取國家統計局，區域城鄉程式碼

# -*- coding: utf-8 -*- # author：zjp """ 通過國家統計局官網獲取中國2017年所有城市資料 2017年統計用區劃程式碼和城鄉劃分程式碼(截止2017年10月31日) http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhf

python爬取美空網女神圖片，小心記憶體走火

爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/post/da39db… 在這個頁面中，咱們要找幾個核心的關鍵點，發現平面拍攝點選進入的是圖片列表頁面。接下來開始程式碼走起。獲取所有列表頁面我

python3 爬取圖片

.com ret reg eve code Coding aid quest fin #coding=utf-8import urllib.requestimport redef getHtml(url): page = urllib.request.urlopen(

python3爬取豆瓣圖書Top250圖片

本部落格只爬取豆瓣圖書Top250的圖片，各位愛書的小夥伴趕緊學起來，爬完的效果圖如下：我這段程式碼的目錄結構如下：程式碼在此： # -*- coding:utf-8 -*- import requests from lxml import etree def spid

利用python3爬取淘寶評論出問題了，求高手幫忙分析下，急！！！！

這是我按照視訊教程裡面，弄的程式碼，現在有兩個問題 1.程式碼只迴圈一次，而且只運行了最後一個數值 2.生成的Excel表格，不規律，都集中在第一行 coding:utf-8 import requests import re import time import random im

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

python 3.x 爬蟲基礎前言　　正則表示式是對字串的一種邏輯公式，用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則的字串”，此字串用來表示對字串的一種“過濾”邏輯。正在在很多開發語言中都存在，而非python獨有。對其知識點進行總結後，會寫一個demo。 1.正

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

Python3爬取起點中文網閱讀量資訊，解決文字反爬~~~附原始碼

起點中文網，在“數字”上設定了文字反爬，使用了自定義的文字檔案ttf通過瀏覽器的“檢查”顯示的是“□”，但是可以在網頁原始碼中找到對映後的數字正則爬的是網頁原始碼，xpath是預設utf-8解析網頁資料，用xpath爬出來的也是方框，因此只能使用正則匹配爬取關鍵數字資訊本例以小說《斗羅大陸》為例

Python3.6爬取網站圖片

最近幾天在學習python，寫了個簡單的爬蟲程式：成功執行程式碼的前提是安裝了Python需要的第三方庫，以下是程式碼： # -*- coding:utf8 -*- import os import re import requests as rq import urll

python3爬蟲爬取網頁圖片簡單示例

本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲，爬蟲一下貼吧的圖片吧。話不多說，我們開始。首先簡單來說說一下知識。一

Python3爬取起貓眼電影實時票房資訊，解決文字反爬~~~附原始碼

上文解決了起點中文網部分數字反爬的資訊，詳細連結https://www.cnblogs.com/aby321/p/10214123.html 本文研究另一種文字反爬的機制——貓眼電影實時票房反爬雖然都是僅僅在“數字”上設定了反爬，相同點與不同點如下：相同點：在“數字”上設定了文字反爬通過瀏覽器的

python3程式設計08-爬蟲實戰：爬取網路圖片

本篇部落格爬取內容如下：爬取校花網的圖片準備工作： 1.安裝python3 2.安裝pycharm 3.安裝Scrapy，參考：Scrapy安裝 cmd命令新建Scrapy工程 1. 在D:\PythonProjects目錄下新建

python3 爬取飛G圖girl13.com 圖片

python3 爬取飛G圖girl13.com 圖片簡介：爬取 http://www.girl13.com 圖片 self.time = 2 # 設定間隔時間，預設時間為2s，以防止封IP import os import time import request

正則應用--爬取天堂圖片網圖片（普通版本，函式版本，類版本）

第一部分：普通版本一.os包的用法先引入import os# 如果資料夾不存在，建立資料夾 if not os.path.exists(title): # 建立資料夾 os.makedirs(title)二.用urlopen發起請求發

發福利，Python3爬取MZITU

引言最近有點忙，沒怎麼學習python，心中無限的罪惡感油然而生，趁著週末打算沉下心學習學習，爬點好玩的東西給single dog發福利裝點工具庫 pip對win似乎並不是那麼友好，如果安裝一些庫失敗的話，可以嘗試升級pip或是以管

python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地

大家好我叫hardy 需求：爬取某個頁面，並把該頁面的圖片下載到本地思考：　　img標籤一個有多少種類型的src值？三種：1、以http開頭的網路連結。2、以“/”開頭絕對路徑。3、以“./”開頭相對路徑。當然還有其他型

python3爬取女神圖片，破解盜鏈問題

comments: true

前言

環境

version 0.1 單個網址鏈接抓取所有特定圖片

抓取分析

動手實戰

1.首先是初始化，建立class

2.根據key來檢索分析圖集主頁

3.多線程讀取圖片鏈接

4.讀取圖片內容並寫入

後記

參考文獻：

相關推薦