使用Python爬取網頁圖片

阿新 • • 發佈：2018-12-29

使用Python爬取網頁圖片

李曉文 21 天前

近一段時間在學習如何使用Python進行網路爬蟲，越來越覺得Python在處理爬蟲問題是非常便捷的，那麼接下來我就陸陸續續的將自己學習的爬蟲知識分享給大家。

首先在進行實戰前，我們需要了解幾個常用的函式和正則表示式：

一、幾個常用的函式

這裡介紹的函式是來自於requests擴充套件包，他們是findall，search和sub函式：

findall(pattern, string, flags=0)

pattern:

為正則表示式

string:為字串

search(pattern, string, flags=0)

pattern:為正則表示式

string:為字串

findall與search的區別

findall將遍歷所有滿足條件的內容，而search一般與group(n)搭配使用，選出滿足條件的某個內容。

sub(pattern, repl, string, count=0, flags=0)

pattern:為正則表示式

repl：需要替換的內容

string：為原字串

二、幾個常用的爬蟲正則表示式

Python爬蟲最常用的三個正則表示式為點號，星號，問號和圓括號：

點號：匹配除“\r\n”之外的任何單個字元，可以理解為一個佔位符

舉例：

x = '1q2wwyxliuwyx3e4rwyxshunwyx1q2wwyxxiangwyx3e4r'

re.findall('wyx.',x)

Out[1]: ['wyxl', 'wyx3', 'wyxs', 'wyx1', 'wyxx', 'wyx3']

返回"wyx"和緊跟其後的第一個字元

re.findall('wyx...',x)

Out[2]: ['wyxliu', 'wyx3e4', 'wyxshu', 'wyx1q2', 'wyxxia', 'wyx3e4']

返回"wyx"和緊跟其後的第一第二個字元

所以可以將點號(.)理解為一個佔位符，而且這個佔位符可以代表一切字元。

星號：匹配前一個字元任意次

x = '1q2wwyxliuwyx3e4rwyxshunwyx1q2wwyxxiangwyx3e4r'

re.findall('wyx*',x)

Out[3]: ['wyx', 'wyx', 'wyx', 'wyx', 'wyxx', 'wyx']

星號(*)前一個字元為x，所以返回結果中可以找到x的任意次，x字串中有兩個連續的x，所以返回結果中第5個元素就會有兩個x。

問號：匹配前一個字元0次或1次，與星號的不同在於其最多匹配一次。

x = '1q2wwyxliuwyx3e4rwyxshunwyx1q2wwyxxiangwyx3e4r'

re.findall('wyx?',x)

Out[4]: ['wyx', 'wyx', 'wyx', 'wyx', 'wyx', 'wyx']

結果顯示，返回結果的第五個元素僅含有一個x。

點星組合(.*)：貪婪演算法，儘可能多的匹配資料

re.findall('wyx.*wyx',x)

Out[5]: ['wyxliuwyx3e4rwyxshunwyx1q2wwyxxiangwyx']

從返回的結果就可以理解“貪婪”的概念了，結果一次性返回wyx與wyx之間的所有內容。

點星問組合(.*?)：非貪婪演算法，儘可能少的匹配資料

re.findall('wyx.*?wyx',x)

Out[6]: ['wyxliuwyx', 'wyxshunwyx', 'wyxxiangwyx']

而這次的返回結果就完全不同於上面的結果，它儘可能少的返回滿足正則表示式的結果，從而將1大串切割為3小串。

圓括號()：返回所需資訊

re.findall('wyx(.*?)wyx',x)

Out[7]: ['liu', 'shun', 'xiang']

很明顯，通過括號的操作，就直接將想提取的內容摳下來了。

三、半自動化的圖片爬蟲

本次爬蟲的實驗來自於噹噹網有關Python書籍的url，即：

url = Python-噹噹網

在爬取該網頁的圖片之前，我們需要了解一下網頁原始碼中有關圖片的模式：

發現關於圖片的連結存在兩種模式，即"<img src='(.*?)' alt"和"img data-original='(.*?)' src"，所以我們需要按兩種方式提取圖片。

首先，將網頁原始碼複製出來，貼上到Pic文字檔案中，並將內容讀取到Content物件中：

f = open('Pic.txt','r')

Content = f.read()

f.close

其次，分別用兩種模型提取出圖片連結

pic_url = re.findall("<img src='(.*?)' alt",Content)

print pic_url

pic_url2 = re.findall("img data-original='(.*?)' src",Content)

print pic_url2

以上兩種模式的圖片連結已下載好，接下來就是將這兩個列表合併：

pic_url.extend(pic_url2)

最後，通過遍歷pic_url中的圖片連結，將圖片下載並儲存到指定的目錄下：

import requests #匯入所需擴充套件包

i = 0

for url in pic_url: #開始遍歷pic_url中的每個元素

print 'Downloding: ' + url

Pic = requests.get(url)

fp = open('Pic\\' + str(i) + '.jpg','wb') #儲存檔案

fp.write(Pic.content) #將檔案寫入到指定的目錄資料夾下

fp.close()

i = i + 1

我們看看Pic資料夾是否含有下載好了的檔案呢？

Perfect，網頁中的圖片全都下載下來啦，很簡單吧。有興趣的同學還不趕快動手試試？

----------------------------------------------

python爬取網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式，一個小小的爬蟲，抓取百科詞條網頁的jpg圖片。下面就是我的代碼，作為參考： #coding=utf-8 # __author__ = ‘Hinfa‘ im

使用Python爬取網頁圖片

使用Python爬取網頁圖片李曉文 21 天前近一段時間在學習如何使用Python進行網路爬蟲，越來越覺得Python在處理爬蟲問題是非常便捷的，那麼接下來我就陸陸續續的將自己學習

Python 爬取網頁圖片

可以看到該頁面上每一個圖片點進去是一個套路連結，我想要爬取的是每一個套圖內的所有圖片。同時這個網頁是翻頁的，拉倒最後可以看到。因此我需要獲取每一頁的html，從這個html中得到所有套圖的連結。下載所有套圖。 1、在Chrome瀏覽器中，點選

用python 爬取網頁圖片

import re import string import sys import os import urllib url="http://tieba.baidu.com/p/2521298181"#這個是某貼吧地址 imgcontent=urllib.urlopen(

利用python爬取網頁圖片

學習python爬取網頁圖片的時候，可以通過這個工具去批量下載你想要的圖片開始正題：我從尤物網去爬取我喜歡的女神的寫真照，我們這裡主要用到的就兩個模組 re和urllib模組，有的時候可能會用

第十講：Python爬取網頁圖片並儲存到本地，包含次層頁面

上一講我們講到了從暱圖網的首頁下載圖片到本地，但是我們發現首頁上面的大部分連結其實都可以進入到二級頁面。在二級頁面裡面，我們也

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

Python爬取網頁的圖片資料

本案例是基於PyCharm開發的，也可以使用idea。在專案內新建一個python檔案TestCrawlers.py TestCrawlers.py # 匯入urllib下的request模組 import urllib.request # 匯入正則匹配包 import re

python 爬取網頁中的圖片到本地

最近在學習python,順便寫一個爬取網頁中圖片的程式練練手。主要分為兩個過程：第一，從給定域名的網頁中爬取圖片的連結第二，讀取連結對應的圖片，儲存到本地第一個過程需要匯入utllib包，在

python爬蟲小試例項--爬取網頁圖片並下載

一、python安裝在python的官網下載python版本，需要下載對應版本（在計算機-屬性中檢視自己是32位作業系統還是64位作業系統），我是64位的，就下載64位對應的安裝包了（如下圖：Windows x86-64 executable installer）。官網下載地

Python——網路爬蟲（爬取網頁圖片）

最近在學習 Python，然後就試著寫了一個簡單的Python小程式，爬取一個網頁的圖片，不得不說 Python 真的強大，以下是爬取 NEFU Online Judge 網站的程式碼。吐槽：其實

Python爬蟲實戰(三):簡單爬取網頁圖片

先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i

簡單的爬取網頁圖片

baidu alt idt ima 修改利用表達輸入 html import reimport urllib.request# ------ 獲取網頁源代碼的方法 ---def getHtml(url): page = urllib.request.urlope

Python 爬取美女圖片，分目錄多級存儲

port Language resp pac rst apt itl album domain 最近有個需求：下載https://mm.meiji2.com/網站的圖片。所以簡單研究了一下爬蟲。在此整理一下結果，一為自己記錄，二給後人一些方向。爬取結果如圖：

Python 爬取網頁中JavaScript動態添加的內容（二）

python tab sta exe div int rom ava script 使用 selenium + phantomjs 實現 1、準備環境 selenium（一個用於web應用程測試的工具）安裝：pip install seleniumphantomjs（是

requests與BeautifulSoup爬取網頁圖片

requests+BeautifulSoup爬取網頁圖片最近一直抽時間在看requests+BeautifulSoup爬取網頁內容這一塊的內容，所以，打算把自己看的總結一下，分享也是一種學醫，給自己做做筆記。 1.首先，我們看一下requests庫 requests

用python爬取美女圖片

import urllib.request import os for i in range(2000, 2400): if not os.path.exists(‘tupian/’ + str(i)): os.makedirs(‘tupian/’ + str(i)) for j in

python爬取網頁（簡易）

爬取的照片資訊 from urllib import request import re def getResponse(url): url_request = request.Request(url) url_response = request.u

Python爬取網頁所有小說

Python爬取網頁所有小說 python 2.7.15 練習beautifulsoup的使用不瞭解bs的可以先看一下這個bs文件一、看URL的規律因為是要爬取網頁上所有的小說，所以不僅要獲取網頁的URL，還要獲取網頁裡的連線們的URL。它們一般是有規律的，如果沒有的話就用

python爬取許多圖片的程式碼

from bs4 import BeautifulSoup import requests import os os.makedirs('./img/', exist_ok=True) URL = "http://www.nationalgeographic.com.cn/animals/" htm

使用Python爬取網頁圖片

使用Python爬取網頁圖片

一、幾個常用的函式

二、幾個常用的爬蟲正則表示式

三、半自動化的圖片爬蟲

相關推薦