Python爬蟲之爬取煎蛋網妹子圖

阿新 • • 發佈：2017-08-07

創建目錄 req add 註意 not 相同 esp mpi python3

這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。

首先導入模塊：urllib.request、re、os

import urllib.request
import re
import os

urllib.request模塊用於獲取HTML頁面數據

re模塊用於通過正則表達式解析並截取HTML頁面圖片url

os模塊用於文件夾相關操作

代碼不多，直接貼出來，代碼解釋在註釋中：

def crawl_jiandan(page, path):
    """
    :param page:獲取指定頁面數據，值為0或超過最大值則爬取全部數據
    :param path:文件存儲路徑，沒有目錄則創建目錄
     
"""
    if page < 0:
        return
    # 路徑是否存在，不存在則創建目錄
    if not os.path.exists(path):
        os.mkdir(path)
    # 切換到目錄
    os.chdir(path)
    # 煎蛋網妹子圖首頁
    url = ‘http://jandan.net/ooxx/page-%d#comments‘ % page
    while True:
        request = urllib.request.Request(url)
        request.add_header( 
‘User-Agent‘,
                           ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:54.0) Gecko/20100101 Firefox/54.0‘)
        with urllib.request.urlopen(request) as response:
            html = response.read().decode(‘utf-8‘)
            # print(html)
            items = re.findall(re.compile(r‘<div class="text"><span class="righttext"><a  
‘
                               r‘href="http://.+">[0-9]+</a></span><p><a ‘
                               r‘href="//(.+\.jpg)" target="_blank" class="view_img_link">‘),
                               html)
            next_url = re.findall(re.compile(r‘<a title="Older Comments" href="(‘
                                  r‘http://jandan.net/ooxx/page-[0-9]+#comments)" ‘
                                  r‘class="previous-comment-page">‘), html)
            for item in items:
                filename = item.split(‘/‘)[-1]
                # 目錄下是否已存在相同文件名，不存在則下載
                if not os.path.exists(filename):
                    print(item)
                urllib.request.urlretrieve(‘http://‘ + item, filename)
            if not len(next_url):
                return
            else:
                url = next_url[0]

crawl_jiandan(1, ‘/Volumes/KE/IT源碼/Python3/Python爬蟲/煎蛋網妹子圖‘)

打開本次磁盤，效果如下：

技術分享

這裏只顯示了部分圖像，有興趣的可以下載煎蛋網所有妹子圖，只需在上述函數中第一個參數傳0即可

註意：此文僅供參考和娛樂，代碼還不夠嚴謹。

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python 爬蟲爬取煎蛋網妹子圖

前言大家好，這裡是「Python知識圈」爬蟲系列教程。此文首發於「brucepk」公眾號，歡迎大家去關注。此係列教程以例項專案為材料進行分析，從專案中學習 python 爬蟲，跟著我一起學習，每天進步一點點。煎蛋網站煎蛋網.png 很多朋友都反應學 pyt

python爬取煎蛋網妹子圖，已解密圖片~~~~~

本來想爬一波無聊圖，唉，竟然加密了。。。。還好是base64 不說了，程式碼獻上 2018.12.14 有效。。。。。 import requests from bs4 import BeautifulSoup import base64,time base64_l

python3 15行程式碼爬取煎蛋網大圖(原圖)--基礎逆向破解js-------------------玉米都督

如果您覺得我的文章對您有用,請您給我一個關注,您的每一個關注都是對我極大的支援,我也會極大的提高產出效率,To_share_code 做爬蟲基本功就是逆向js, ps: 其實沒必要關心js函式的內部細節，只要找到函式的輸入輸出點就可以了。萬變不離其宗，只要在輸入、輸出的地方下斷點，

python 爬取煎蛋ooxx妹子圖

煎蛋網妹子圖首頁（http://jandan.net/ooxx），這個連結看起來怎麼那麼邪惡呢？經分析網站隱藏了圖片地址。心一橫，採取曲線路線，成功爬取大量妹子圖~ 原始碼如下： 1 import requests 2 import re 3 import os 4 import base6

python3爬蟲爬取煎蛋網妹紙圖片

port 商業技術分享爬取其中 lar c函數 base 技術其實之前實現過這個功能，是使用selenium模擬瀏覽器頁面點擊來完成的，但是效率實際上相對來說較低。本次以解密參數來完成爬取的過程。首先打開煎蛋網http://jandan.net/ooxx，查看網頁

爬蟲之煎蛋網妹子圖大爬哦

ima 應該 h+ pan class net 處理 num close 今天為了測試一下urllib2模塊中的headers部分，也就是模擬客戶端登陸的那個東東，就對煎蛋網妹子圖練了一下手，感覺還可以吧。分享一下！代碼如下 # coding:UTF-8 impor

python爬蟲--下載煎蛋網妹子圖到本地

eve 元素 download down find .get fault log arc 1 #coding:utf-8 2 """ 3 下載煎蛋妹子到本地，通過selenium、正則表達式、phantomjs、Beautifulsoup實現 4 """ 5

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

利用C#爬取煎蛋網圖片

本程式還有待優化，我只爬取了每個頁面的第一張圖片，你們可以自己更新優化程式碼以實現全站爬取的功能。主要用到的名稱空間有： using System; using System.Collections.Generic; using System.ComponentModel; usi

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

Python爬蟲之爬取動態頁面資料

很多網站通常會用到Ajax和動態HTML技術，因而只是使用基於靜態頁面爬取的方法是行不通的。對於動態網站資訊的爬取需要使用另外的一些方法。先看看如何分辨網站時靜態的還是動態的，正常而言含有“檢視更多”字樣或者開啟網站時下拉才會載入內容出來的進本都是動態的，簡便的方法就是在

Python 爬蟲入門-爬取拉勾網實戰

這幾天學習了 python 爬蟲的入門知識，也遇到很多坑，開個貼記錄一下基本原理 Python 爬蟲基本要具備以下功能：（參考此回答）向伺服器傳送請求，伺服器響應你的請求。（你可能需要了解：網頁的基本知識）從抓取到的網頁中提取出需要

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

Python爬蟲之爬取瓜子二手車資訊- requests方法

最近在做二手車市場資料分析，試著爬取瓜子二手車在售車輛資訊，做一下記錄大致思路如下： 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊： car_model = Field() # 車型資訊 registe

爬取煎蛋網圖片的一種思路

任何一個學習的過程，都需要練手專案。學網路爬蟲就總會想去爬點什麼東西。網上更多介紹的就是爬取網站圖片，圖片網站一般都有會自己的一套反爬技術。昨天遇到有帖子在說爬煎蛋網圖片，也就去試了試。其中的反爬技術分析在 Python爬蟲(15):煎蛋網加密處理方式部落格

Python爬蟲之爬取內涵吧段子（urllib.request）

引言在寒假開始的時候就打算學習爬蟲了，但是沒有想到一入坑到現在還沒有出坑，說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的，比較古老，所以我只用了一兩次就轉向了requests了

Python爬蟲之爬取煎蛋網妹子圖

相關推薦