python+selenium爬取動漫圖片

阿新 • • 發佈：2018-11-14

#在風之動漫網上下載海賊王，輸入需要下載的章節，將漫畫下載的本地
#實現思路：
# 1 海賊王的漫畫目錄連結是：https://www.fzdm.com/manhua/02/
# 2 第X話的漫畫。連線是https://www.fzdm.com/manhua/02/X/，例如，924話連結是https://www.fzdm.com/manhua/02/924/
# 3 第X話漫畫中，第一頁的連結是：https://www.fzdm.com/manhua/02/924/，第二頁是https://www.fzdm.com/manhua/02/924/index_1.html
# 第三頁是https://www.fzdm.com/manhua/02/924/index_2.html，經嘗試，index_0.html就是第一頁的連結
#利用迭代，可以獲得一到最後一頁的圖片，但是無法準確知道那一頁是最後一頁，利用try..exception..函式，丟擲異常，並結束。
#因為，圖片的連結使用js指令碼載入的，無法直接在靜態網頁中獲得http連結，所以使用selenium定點陣圖片位置，然後使用get_attribute('src')
#獲得圖片的連結
#之後用resquests請求，將圖片下載的本地
#


from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
import requests
import time
import os
import sys
def manhua_download():
 option = webdriver.ChromeOptions()
 option.add_argument('disable-infobars') # 關閉自動化程式執行的提示
 # option.add_argument('--headless') #隱藏瀏覽器視窗
 driver=webdriver.Chrome(options=option)
 #上面三行可以使得瀏覽器不彈出自動化測試的攔截視窗
 x=input("請問要下載第幾話？請輸入：")
 url=os.path.join('https://manhua.fzdm.com/2/',x)
 # 建立章節目錄
 dirname = '第' + str(x) + '話'
　　#判斷資料夾是否已經存在
 if not os.path.exists(dirname):
 os.mkdir(dirname)
 print('資料夾建立完畢')

#因為海賊王的每一話，沒有超過30頁的，所以設定range是30，這樣可以保證每一頁都爬取下來，但是會導致超過最後一頁後，會異常。
 for i in range(30):

 index='index_'+str(i)+'.html'
 final_url=os.path.join(url,index)
 driver.get(final_url)
 try:
 img_path = driver.find_element_by_xpath(".//img[@id='mhpic']")
 except NoSuchElementException:
 print('下載完畢')
 driver.quit()
 sys.exit() #捕獲異常後退出程式
 img_url = img_path.get_attribute('src') # get_attribute('src') 獲取src內的內容
 print(img_url)
 time.sleep(0.1)
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0'}
 response = requests.get(img_url,headers=headers)
 image_name=dirname+'/'+str(i+1)+'.jpg' #實現下載的圖片存到指定的資料夾的功能
 with open(image_name,'wb') as f:
 f.write(response.content)
 print('第'+str(i+1)+'頁已下載')

manhua_download()

python+selenium爬取動漫圖片

#在風之動漫網上下載海賊王，輸入需要下載的章節，將漫畫下載的本地#實現思路：# 1 海賊王的漫畫目錄連結是：https://www.fzdm.com/manhua/02/# 2 第X話的漫畫。連線是https://www.fzdm.com/manhua/02/X/，例如，924話連結是https://www.

python selenium爬取QQ空間方法

class text 空間方法 ram () end cli bdr from selenium import webdriver import time # 打開瀏覽器 dr = webdriver.Chrome() # 打開某個網址 dr.get(‘https://

python+scrapy爬取鬥魚圖片

建立scrapy的專案請參考：https://blog.csdn.net/qq_35723619/article/details/83614670 items的實現： DouyumeinvSpider建立：這次我們爬去的是json資料包：我們可以通過network監控：

Python + selenium 爬取百度文庫Word文字

1 # -*- coding:utf-8 -*- 2 3 import time 4 from selenium import webdriver 5 from selenium.webdriver.chrome.options import Options 6 from seleniu

Python + selenium 爬取百度文庫Word文本

count btn nts odin ott webdriver pan from div 1 # -*- coding:utf-8 -*- 2 3 import time 4 from selenium import webdriver 5 from se

Python—selenium爬取快代理

本篇使用 selenium技術爬取快代理上的代理IP，並判斷其是否可用。 #爬取代理IP from selenium import webdriver from selenium.webdriver.common.proxy import Proxy fro

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

使用python+selenium爬取同城旅遊網機票資訊

最近使用python+selenium爬取了同城旅遊網機票資訊相關主要程式碼如下，通過模擬人為操作，拿下了這個機票列表的html程式碼，然後就可以使用xpath或者re等方式從中提取需要的欄位資訊了。 from selenium import webdriver

python+selenium——爬取網站

#coding:utf-8 import re import xlrd import xlwt import time import pandas as pds from selenium import webdriver from selenium.common.exception

Python + Selenium 爬取網易雲課堂課時標題及時長

Python + Selenium 爬取網易雲課堂課時標題及時長轉載請註明出處：https://blog.csdn.net/jpch89/article/details/84142555 文章目錄 Python + Selenium 爬取網易雲課堂課時標

Python實現爬取貼吧圖片

導讀：最近周邊朋友學python的越來越多，毫無意外的是，大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用，使得爬蟲的實現容易很多，學習之後，回報明顯，容易獲得成就感。總結起來就是：讓人有繼續學下去的慾望。我偏巧例外，先走了Python web。雖然

python爬蟲爬取百度圖片

爬蟲爬取百度圖片因公司業務需要，而且公司人手不足，我這個測試工程師需要臨時客串一下其他職位，所以，由我來爬取百度圖片。說明 1、最近稍微有點兒忙，沒顧得上整理。而且程式碼量比較少，所以註釋比較少。 2、如果需要直接使用我的程式碼，請將相應路徑檔名稱更改。具體

python爬蟲爬取好看的圖片

遇到好看的圖片你還在一張張用滑鼠點選儲存？作為一個IT從業者那就out了。。。必須高大上起來今天給大家介紹如何用爬蟲爬取好看的圖片，話不多說，開始。。。。。首先小夥伴們需要確保自己已經安裝了python和pip，並且已經配置好了環境變數，接下來需要安裝今天所用到的第

用Python批量爬取妹紙圖片

通過Python編寫爬蟲，批量爬取妹紙圖片，本文的爬蟲實現爬取妹子圖網站（http://www.mzitu.com/zipai/）中妹子自拍欄目中所有妹子的圖片。開啟自拍欄目地址http://www.mzitu.com/zipai/後，我們發現當前頁面預

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

今天想給我的電腦裡面多加點桌布，但是嫌棄一個個儲存太慢，於是想著寫個爬蟲直接批量爬取，因為爬蟲只是很久之前學過一些，很多基礎語句都不記得了，於是直接在網上找了個有基礎操作語句的爬蟲程式碼，在這上面進行修改以適應我的要求和爬取的網頁需求注意：這次爬取的

【爬蟲】python selenium 爬取資料

最近公司有一項爬取資料的工作，借鑑以往的程式碼將爬蟲重新更新並整理將現有爬蟲分成幾部分 0.檔案讀取器其實檔案讀取和4中的檔案儲存是在一個部分的這裡簡單介紹下xls的讀取def deal_xl

python把爬取到的圖片儲存到本地

把圖片儲存到本地的第一種方法：thisimgurl = "http:"+thisimg # 為網址新增上http協議 thisimgurl = thisimgurl.replace("\\","") 把轉義字元替換 # print(thisimgurl) #

Python selenium 爬取天天基金網股票型基金

對於股票市場長期的判斷，普通上班族沒有多少時間和資料可以分析。那麼，就應該藉助基金機構選擇的股票來分析，藉助各基金經理管理的股票基金來統計，哪些股票是基金經理或團隊分析購買的。所以選擇的是股票型基金，最終將分析得出哪類股票是機構最多選擇的，那隻股票是機構購買最多的。利用基金

python 3 爬取百度圖片

糾結於爬取百度圖片，竟然花費了一天的時間才讓程式順利跑起來。其中踩坑無數。而且還發現公司電腦實在是比較差勁。。。 import requests import urllib import os , re from os.path import join

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

python+selenium爬取動漫圖片

相關推薦