[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片

阿新 • • 發佈：2018-11-16

PEXELS:Best free stock photos in one place.
Pexels是一個提供免費高品質圖片,並且可商用的圖片網站.但是因為網站時外國的,所以連線和下載速度都略慢…
這裡只是為了講解圖片爬取和下載儲存的流程.
三種方式是指:分別指使用Lxml,BeautifulSoup,正則表示式進行爬取
注意:網站的頁面是非同步載入實現分頁,需要實現逆向工程獲得對應地址,這裡暫時不實現.

觀察

通過搜尋關鍵字japan,得到
網址 https://www.pexels.com/search/japan/ ,爬取該頁面上的所有圖片
在這裡插入圖片描述
觀察圖片對應元素

得到圖片的下載地址都是包含在

<article class="photo-item ">```
<a><img src='下載地址'></a>
<a>href='下載地址'</a>
</atricle>

所以可以從第一個a中的img中取出下載地址,也能從第二個a的href中取出.
img中還有類似於data-xxx-src後面的連結用於存放更大尺寸的下載地址.

因為構造比較簡單,這裡使用第二個方式,將a中所有的下載連結存放到links即可
1.Lxml

xml_links = selector.xpath('//article/a[2]/@href' 
)

2.BeautifulSoup

bs4_links = []
soup = BeautifulSoup(res.text, "html.parser")
links = soup.select('article > a')
for link in links:
    bs4_links.append(link.get('href'))

3.正則表示式

re_links=re.findall('<a href=\"(.*)\" download>',res.text)

三者對比

1.資料完整性

>>>	len(xml_links) 

>>>	len(bs4_links)
>>>	len(re_links)
15
15
15

沒問題,都獲取了15張圖片的下載地址
2.選取元素
Lxml通過xpath語法進入article內的第二個a,獲取href
正則表示式通過搜尋第二個a中的href直接獲取
BeatifulSoup通過selector進入article的a,然後選取href

爬蟲程式碼

import requests
from lxml import etree
import re
import time
from bs4 import BeautifulSoup

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'
}
url = 'https://www.pexels.com/search/japan/'

if __name__ == '__main__':
    res = requests.get(url, headers)
    selector = etree.HTML(res.text)
    xml_links = selector.xpath('//article/a[2]/@href')  # lxml
    bs4_links = []
    soup = BeautifulSoup(res.text, "html.parser")
    links = soup.select('article > a ')
    for link in links:
        bs4_links.append(link.get('href'))  # bs4
    re_links = re.findall('<a href=\"(.*)\" download>', res.text)  # re
    for link in links:
        pic = requests.get(link, headers)
        pic_name = re.search('(?<=&dl=).*\.jpg', link).group()
        with open('d:/1/' + pic_name, 'wb') as pf:
            pf.write(pic.content) #以二進位制流方式寫入檔案
        print("完成圖片下載:" + pic_name)
        time.sleep(1)  # 緩衝

輸出結果

在這裡插入圖片描述

[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片

PEXELS:Best free stock photos in one place. Pexels是一個提供免費高品質圖片,並且可商用的圖片網站.但是因為網站時外國的,所以連線和下載速度都略慢… 這裡只是為了講解圖片爬取和下載儲存的流程. 三種方式是指:分別指使用Lxml,Be

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---解決非同步載入問題

第一次嘗試爬取—>[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片在爬取PEXELS時,遇到了這樣問題: 頁面使用Ajax的非同步載入技術來實現分頁,所以通過request.text無法獲取動態載入的內容.而如果想正確獲取這些資料,則需要使用名為逆向工程的過程(“抓包”

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---修改為多程序爬蟲

第二次修改的地址---->爬蟲例項:爬取PEXELS圖片—解決非同步載入問題在前面的修改中,我們通過使用逆向工程成功解決了非同步載入的問題.但同時還有一個問題:效率問題,受限於網速,假如使用單程序下載圖片時下載的速度沒有佔滿,而使用多個程序時下載速度能夠佔滿的話,那麼多程序爬蟲在

scrapy爬蟲框架（三）：爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的 scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，我們先過一遍 scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從

Python 傳送 email 的三種方式

Python傳送email的三種方式，分別為使用登入郵件伺服器、使用smtp服務、呼叫sendmail命令來發送三種方法本文原文自米撲部落格：Python 傳送 email 的三種方式 Python傳送email比較簡單，可以通過登入郵件服務來發送，linux下也可以使用呼叫sendmail命令來發送，

python核心高階學習總結3-------python實現程序的三種方式及其區別

python實現程序的三種方式及其區別在python中有三種方式用於實現程序多程序中，每個程序中所有資料（包括全域性變數）都各有擁有⼀份，互不影響 1.fork()方法 ret = os.fork() if ret == 0: #子程序 else:

python 安裝 easy_install 的三種方式

1 安裝setuptools wget http://pypi.python.org/packages/2.7/s/setuptools/setuptools-0.6c11-py2.7.egg#md5=fe1f997bc722265116870bc7919059ea

用python操作瀏覽器的三種方式

第一種：selenium匯入瀏覽器驅動，用get方法開啟瀏覽器，例如： import time from selenium import webdriver def mac(): driver = webdriver.Firefox()

使用ajax發送文件的三種方式及預覽圖片的方法,上傳按鈕美化

absolut jquer 文件的 inpu headers return isp roc onchange 後端代碼 def upload(request): if request.method == "GET": return render(

java的同步三種方式--銀行取錢問題

第二種方式的例子： class Account1 {private double balance ;public Account1(double balance ){super();this.balance = balance ;}public double getBalance(){return balan

python爬蟲之定位網頁元素的三種方式

python爬蟲之定位網頁元素的三種方式 2018年08月02日 13:30:02 Barry__ 閱讀數：1373 標籤： python 更多個人分類： python 版權宣告：本文為博主原創文章，轉載請註明出處 https://blog

三個Python爬蟲版本，帶你以各種方式爬取校花網，輕鬆入門爬蟲

爬蟲是什麼？進群進群：943752371可以獲取Python各類入門學習資料！這是我的微信公眾號【Python程式設計之家】各位大佬用空可以關注下，每天更新Python學習方法，感謝！如果我們把網際網路比作一張大的蜘蛛網，資料便是存放

python爬蟲中文亂碼問題（request方式爬取）

req = requests.get(url)返回的是類物件其包括的屬性有： req.encoding:返回編碼方式 req.text：text返回的是處理過的Unicode型的資料 req.content：content返回的是bytes型的原始資料 conte

python爬蟲小試例項--爬取網頁圖片並下載

一、python安裝在python的官網下載python版本，需要下載對應版本（在計算機-屬性中檢視自己是32位作業系統還是64位作業系統），我是64位的，就下載64位對應的安裝包了（如下圖：Windows x86-64 executable installer）。官網下載地

Python爬蟲例項（1）-爬取一張貓的照片

程式設計這種實用性的工程性語言，光看書、背概念是完全刻舟求劍；learning with doing才是最快速的學習方法。我打算將自己學習爬蟲的週期，總結之後寫在CSDN上；通過自己感覺非常經典的例項，來表達爬蟲的知識點。話不多說，上一篇描述了爬蟲的原理之後，這一篇搞第一個例

爬蟲之數據解析的三種方式

att 很慢下標清空應用程序文檔轉換 sce spl 返回結果一，正則表達式解析 re正則就不寫了，前面已經寫入一篇很詳細的正則表達式模塊了~ 而且，在爬蟲中，下面兩種方式用的多一些~ 正則表達式：https://www.cnblogs.com/peng10

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

Python爬蟲實戰(三):簡單爬取網頁圖片

先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i

python爬蟲例項——用scarpy框架爬取全部新浪新聞

使用scrapy框架爬取新浪網導航頁所有的大類，小類的子連結，取出連結頁面新聞內容。python版本3.5注意點：spider檔案中不寫allowed domains,因為後面的子連結的url中跟不包含new.sina.com爬蟲執行報錯：DEBUG: Filtered of

[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片

觀察

三者對比

爬蟲程式碼

輸出結果

相關推薦