簡單爬蟲之爬取網站圖片

阿新 • • 發佈：2018-11-04

這裡選取的網址是 http://www.doutula.com 目的：爬取其中的圖片並且翻頁爬取

首頁圖片的規則

<img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f8oqmqwpjgj206o05k0ss.jpg" style="margin: 0px auto; min-height: inherit; height: 184.471px; display: block;" data-original="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f8oqmqwpjgj206o05k0ss.jpg" alt="不發別走！" class="img-responsive lazy image_dta" data-backup="http://img.doutula.com/production/uploads/image//2016/04/27/20160427715202_Oaoikb.jpg!dta">

所以正則表示式

ImgUrlList=re.findall(r'<img src=.*?data-original="(.*?.jpg)"',htmltext)

怎麼實現翻頁功能呢，因為每一頁的連結有規律，So

ToUrl='http://www.doutula.com/article/list/?page='

思路就是：

1.列舉每個頁面，用正則表示式獲取其中的img的url和img的名字列表

2.對於每img根據其urll將之下載至電腦，用requests的get方法需要加上請求頭偽裝成該資訊是瀏覽器發出的，並且是該網頁請求不然會被遮蔽請求

這裡有個坑點，其他頁面的img標籤與首頁的規則不同

<img class="lazy image_dtb img-responsive" src="https://ws2.sinaimg.cn/bmiddle/9150e4e5ly1fvscbyvi9mj206o06ot8n.jpg" data-original="https://ws2.sinaimg.cn/bmiddle/9150e4e5ly1fvscbyvi9mj206o06ot8n.jpg" data-backup="http://img.doutula.com/production/uploads/image//2018/10/11/20181011212059_SCoIQM.jpg!dta" alt="天鴨 - 鴨鴨表情" style="height: 170px; display: block;">

所以我把正則表示式改為了

  ImgUrlList=re.findall(r'<img.*?src=.*?data-original="(.*?.jpg)"',htmltext)

這樣就可以獲取每個頁面的img資訊（包括首頁）

import requests
import re
#UA卷則  代表請求由誰發出的
def Getimage(htmltext):#根據html程式碼   返回 圖片url列表和圖片名稱列表
    ImgUrlList=re.findall(r'<img.*?src=.*?data-original="(.*?.jpg)"',htmltext)#獲取img連結並且保證字尾為jpg
    ImgNameList=[]
    for url in ImgUrlList:
        url=url.split('/')
        ImgNameList.append(url[-1])
    return ImgUrlList,ImgNameList
def GetNexthtml(htmltext,url):#根據html程式碼 和總的url求出下一個next連結
    Nexthtml=re.findall(r'<a class="page-link" href="(/article/list/[?]page=\d+)',htmltext)
    print(Nexthtml)
    if len(Nexthtml)==0:
        raise Exception(u"don't next page  in GetNexthtml Fuction!")
    ToUrl=url+Nexthtml[0]
    return ToUrl
def Saveimg(Imgbit,Imgname):#根據二進位制檔案  和檔名字獲取圖片
    with open("imgs/{}".format(Imgname),"wb") as fp:
        fp.write(Imgbit)
RequestHeaders={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"
    ,'Referer': 'http://www.doutula.com/'
}#前導空格不能有  此時是瀏覽器發出的
url="http://www.doutula.com"
nowurl=url
response = requests.get(nowurl, headers=RequestHeaders)  # 發起一個請求 得到html
if response.status_code!=200:
    raise  Exception(u"url沒有訪問許可權")
ImgUrlList,ImgNameList=Getimage(response.text)#根據htmltext得到 裡面url列表 和名字列表
count=len(ImgUrlList)
print(count)
for i in range(count):
    response=requests.get(ImgUrlList[i],headers=RequestHeaders)#圖片的響應頭的二進位制檔案在成員變數content裡面
    print(ImgUrlList[i],ImgNameList[i])
    Saveimg(response.content,ImgNameList[i])
ToUrl='http://www.doutula.com/article/list/?page='
for i in range(2,1000):#根據nowurl 得到請求
    nowurl="{}{}".format(ToUrl,str(i))
    print("nowurl:",nowurl)
    response = requests.get(nowurl, headers=RequestHeaders)  # 發起一個請求
    if response.status_code!=200:
        continue
    ImgUrlList,ImgNameList=Getimage(response.text)#根據html得到圖片列表
    count=len(ImgUrlList)
    print(count)
    for i in range(count):
        response=requests.get(ImgUrlList[i],headers=RequestHeaders)#圖片的響應頭的二進位制檔案在成員變數content裡面
        print(ImgUrlList[i],ImgNameList[i])
        Saveimg(response.content,ImgNameList[i])

簡單爬蟲之爬取網站圖片

這裡選取的網址是 http://www.doutula.com 目的：爬取其中的圖片並且翻頁爬取首頁圖片的規則 <img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

Python爬蟲(1)------爬取網站圖片

初學爬蟲的學習流程環境 python 3.6 使用 urlib庫進行爬取內容熟悉爬蟲首先對百度進行爬取 # -*- coding: utf-8 -*- import urllib.request url = 'http://www

網路爬蟲之爬取網頁圖片並儲存

爬取網頁圖片並儲存在本地將網頁上的圖片爬取之後，以圖片原有名字儲存在本地程式碼： import requests import os url="http://p1.so.qhmsg.com/bdr/_240_/t01dab8b2e73fe661d6

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

Python爬蟲之爬取各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站瞭解爬蟲之後，我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理，提取我們想要的東西。靜態網站，我們往往利用requests庫提取網站html資訊，再通過正則表示式或BeautifulSoup庫提取我們

python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》

python基礎知識可以到廖雪峰大佬的官網學習哦！廖雪峰官網網址學完python就開始我們的實戰吧！首先我們就來學習下python爬蟲學習Python爬蟲，先是介紹一個最容易上手的庫urll

Python3爬蟲之爬取百度高清圖片

#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: OFZFZS # Datetime:2018/3/23 11:00 # Description: 百度圖片爬取這裡只做了簡單處理,注意百度圖片返回的資料是aja

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

python 3.3 爬蟲之爬取圖片

今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼，之前用正則也寫了一個，感覺用BeautifulSoup 更簡單了 import urllib import urllib.request as request from bs4 import Bea

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

Day11 (黑客成長日記) 爬取網站圖片

#匯入第三方庫# coding:utf-8import requests,re#找到需要爬取的網站'http://www.qqjia.com/sucai/sucai1210.htm'#1>獲取網站 2>正則表示式匹配不同圖片的地址 3>找到所有圖片的URL#開發講究見名識意#1.1 定

菜鳥學爬蟲之爬取網易新聞

學習了python基本語法後，對爬蟲產生了很大的興趣，廢話不多說，今天來爬取網易新聞，實戰出真知。開啟網易新聞（https://news.163.com/）可以發現新聞分為這樣的幾個板塊：這次選擇國內板塊來爬取文章。 1.準備環境：python3 編譯器：PyChar

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

爬蟲之爬取豆瓣電影的名字

import requests #requests模組用於傳送HTTP請求 import json #json模組用於對JSON資料進行編解碼 #新建陣列用於存放多個電影資料 movielist=[] #瀏覽器演示json crawlSite="https://api.douba

爬蟲之爬取豆瓣熱門圖書的名字

描述調用過濾 content tex pl2 main from code import requests #requests模塊用於HTTP請求 import codecs #codecs模塊用於文件操作 from bs4 import BeautifulS

爬蟲之爬取豆瓣圖書的評論

pen 數據 app bs4 lis 爬取 fix replace sub from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受關註圖書榜 resp = request.urlope

簡單爬蟲之爬取網站圖片

相關推薦