python爬蟲--下載煎蛋網妹子圖到本地

阿新 • • 發佈：2017-12-28

eve 元素 download down find .get fault log arc

 1 #coding:utf-8
 2 """
 3 下載煎蛋妹子到本地，通過selenium、正則表達式、phantomjs、Beautifulsoup實現
 4 """
 5 
 6 import re
 7 import os
 8 
 9 from selenium import webdriver
10 from selenium.webdriver.support.wait import WebDriverWait
11 from selenium.webdriver.support import expected_conditions as EC
12 from selenium.webdriver.common.by import 
 By
13 from selenium.common.exceptions import TimeoutException
14 from bs4 import BeautifulSoup
15 from urllib import urlretrieve
16 
17 #解決谷歌瀏覽器正受到自動測試軟件的控制
18 # options = webdriver.ChromeOptions()
19 # options.add_argument(‘disable-infobars‘)
20 
21 url = ‘http://jandan.net/ooxx‘
22 # driver = webdriver.Chrome(chrome_options=options) 

23 driver = webdriver.PhantomJS()
24 wait = WebDriverWait(driver, 30)
25 
26 #下載的煎蛋妹子保存的文件夾
27 img_save_file = ‘images‘
28 
29 #獲取總頁數。打開煎蛋網-妹子圖默認頁面可以獲取到總頁數
30 def get_default_page_num():
31     try:
32         driver.get(url)
33         page_element = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘ 
.current-comment-page‘)))
34         return page_element.text
35     except TimeoutException:
36         get_default_page_num()
37 
38 #獲取圖片的url
39 def get_img_url(page_number):
40     img_url_list = []
41     url = r‘http://jandan.net/ooxx/page-‘+ str(page_number) + r‘#comments‘
42     print url
43     # url = ‘http://www.baidu.com‘
44     html = driver.get(url)
45     try:
46         driver.get(url)
47         wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#comments > ol img‘)))
48     except TimeoutException:
49         print "打開頁面失敗，重新加載該頁面"
50         get_img_url(page_number)
51 
52     #獲取頁面html元素
53     html = driver.page_source
54     #通過BeautifulSoup解析
55     soup = BeautifulSoup(html, ‘html.parser‘)
56     #找出所有為img的標簽
57     imgs = soup.find_all(‘img‘)
58     #gif圖片需要獲取ora_src屬性，才是完整的gif圖片。has_attr 判斷是否有某個屬性，attrs可以獲取屬性值
59     for img in imgs:
60         if img.has_attr(‘org_src‘):
61             img_url = img.attrs[‘org_src‘]
62         else:
63             img_url = img.attrs[‘src‘]
64         img_url_list.append(img_url)
65     return img_url_list
66 
67 #下載圖片，通過urllib的urlretrieve實現
68 def download_img(img_url):
69     img_name = img_url.split(‘/‘)[-1]
70     img_save_path = img_save_file + ‘/‘ +img_name
71     urlretrieve(img_url, img_save_file + ‘/‘ + img_name)
72 
73 #創建圖片存儲所在的文件夾
74 def add_img_save_file(img_save_file):
75     if os.path.exists(img_save_file):
76         pass
77     else:
78         os.makedirs(img_save_file)
79 
80 def main():
81     add_img_save_file(img_save_file)
82     #通過正則表達式提取當前的頁數
83     partner = re.compile(r‘(\d+)‘)
84     content = get_default_page_num()
85     total_pages = partner.search(content).group()
86 
87     for i in range(1, int(total_pages) + 1):
88         print "正在下載第" + str(i) + ‘的圖片，url為：‘,
89         img_url_list = get_img_url(str(i))
90         for img_url in img_url_list:
91             download_img(img_url)
92 
93 if __name__ == ‘__main__‘:
94     main()

eve 元素 download down find .get fault log arc 1 #coding:utf-8 2 """ 3 下載煎蛋妹子到本地，通過selenium、正則表達式、phantomjs、Beautifulsoup實現 4 """ 5

python爬取煎蛋網妹子圖，已解密圖片~~~~~

本來想爬一波無聊圖，唉，竟然加密了。。。。還好是base64 不說了，程式碼獻上 2018.12.14 有效。。。。。 import requests from bs4 import BeautifulSoup import base64,time base64_l

爬蟲之煎蛋網妹子圖大爬哦

ima 應該 h+ pan class net 處理 num close 今天為了測試一下urllib2模塊中的headers部分，也就是模擬客戶端登陸的那個東東，就對煎蛋網妹子圖練了一下手，感覺還可以吧。分享一下！代碼如下 # coding:UTF-8 impor

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python 爬蟲爬取煎蛋網妹子圖

前言大家好，這裡是「Python知識圈」爬蟲系列教程。此文首發於「brucepk」公眾號，歡迎大家去關注。此係列教程以例項專案為材料進行分析，從專案中學習 python 爬蟲，跟著我一起學習，每天進步一點點。煎蛋網站煎蛋網.png 很多朋友都反應學 pyt

Python爬蟲(6):煎蛋網全站妹子圖爬蟲

上一篇文章中我們抓取了豆瓣圖書的資料，如果大家執行成功，並且看到資料夾下的 txt 檔案了。是不是有一種剛接觸程式設計，第一次輸出Hello world!時的欣喜。和上一篇實踐不同，我們這一次來爬取煎蛋網全站妹子圖，並且儲存到指定資料夾下。爬取流程從煎蛋網妹子圖第一頁開始抓取；爬取分頁標籤獲得最後一頁數字

Python Scrapy 煎蛋網妹子圖例項

前面介紹了爬蟲框架的一個例項，那個比較簡單，這裡在介紹一個例項爬取煎蛋網妹子圖，遺憾的是上週煎蛋網還有妹子圖了，但是這周妹子圖變成了隨手拍，不過沒關係，我們爬圖的目的是為了加強實戰應用，管他什麼圖了先爬下來再說。言歸正傳這個例項，主要是講將圖片爬了下來，儲存到本地，這個

python 爬取煎蛋ooxx妹子圖

煎蛋網妹子圖首頁（http://jandan.net/ooxx），這個連結看起來怎麼那麼邪惡呢？經分析網站隱藏了圖片地址。心一橫，採取曲線路線，成功爬取大量妹子圖~ 原始碼如下： 1 import requests 2 import re 3 import os 4 import base6

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

python3 15行程式碼爬取煎蛋網大圖(原圖)--基礎逆向破解js-------------------玉米都督

如果您覺得我的文章對您有用,請您給我一個關注,您的每一個關注都是對我極大的支援,我也會極大的提高產出效率,To_share_code 做爬蟲基本功就是逆向js, ps: 其實沒必要關心js函式的內部細節，只要找到函式的輸入輸出點就可以了。萬變不離其宗，只要在輸入、輸出的地方下斷點，

Python爬蟲入門教程 2-100 妹子圖網站爬取

字典註意 while import 我們分鐘基礎便是訪問前言從今天開始就要擼起袖子，直接寫Python爬蟲了，學習語言最好的辦法就是有目的的進行，所以，接下來我將用10+篇的博客，寫爬圖片這一件事情。希望可以做好。為了寫好爬蟲，我們需要準備一個火狐瀏覽器，還

Python爬蟲入門教程，突破煎蛋網反爬措施，妹子圖批量抓取！

今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用 selenium 在揍他一波。

python爬取煎蛋妹子圖（老司機養成之路）

chrom all with file windows import apple 妹子 lib 源碼： 1 import urllib.request 2 from bs4 import BeautifulSoup 3 import os 4 import io

Python 爬取煎蛋妹子圖

煎蛋妹子圖網站最近一直在通過爬蟲的練習，來鞏固自己的所學習到的 python 基礎，和爬蟲一些框架的使用。今天的程式就是最近在學習的 selenium 庫，通過利用 requests + beautifulsoup + selenium 庫來進行網站的抓取。抓取的物件是煎蛋網中的妹子板塊

Python爬取煎蛋妹子圖

煎蛋妹子圖網站最近一直在通過爬蟲的練習，來鞏固自己的所學習到的 python 基礎，和爬蟲一些框架的使用。今天的程式就是最近在學習的 selenium 庫，通過利用 requests + beautifulsoup + selenium 庫來進行網站的抓取。抓取的物件是煎蛋網中的妹子板塊，圖片的

Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

寫在前面很高興我這系列的文章寫道第18篇了，今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用selenium在揍他一波

python爬蟲之反爬蟲情況下的煎蛋網圖片爬取初步探索

本次爬蟲網址：http://jandan.net/ooxx 前言：前段時間一直在折騰基於qqbot的QQ機器人，昨天用itchat在微信上也寫了一個機器人，相比webqq，微信的web端功能比較豐富，圖片、檔案等都可以傳輸。今天閒來無事準備給寫個爬蟲豐富微信機器

用python來抓取“煎蛋網”上面的美女圖片，尺度很大哦！哈哈

each file like http add 寫入 header 。。 num 廢話不多說，先上代碼： import urllib.request import re #獲得當前頁面的頁數page_name def get_pagenum(url): req

python3爬蟲爬取煎蛋網妹紙圖片

port 商業技術分享爬取其中 lar c函數 base 技術其實之前實現過這個功能，是使用selenium模擬瀏覽器頁面點擊來完成的，但是效率實際上相對來說較低。本次以解密參數來完成爬取的過程。首先打開煎蛋網http://jandan.net/ooxx，查看網頁

Python3 Scrapy框架學習三：爬取煎蛋網加密妹子圖片(全爬)

以下操作基於Windows平臺。開啟CMD命令提示框：新建一個專案如下：開啟專案裡的setting檔案，新增如下程式碼 IMAGES_STORE = './XXOO' #在當前目錄下新建一個XXOO資料夾 MAX_PAGE = 40 #定義爬取的總得頁數

python爬蟲--下載煎蛋網妹子圖到本地

相關推薦