1. 程式人生 > >python爬蟲實踐----爬取京東圖片

python爬蟲實踐----爬取京東圖片

爬蟲思路:
1.分析url:

http://list.jd.com/list.html?cat=9987,653,655&page=1

# url只有page變化,而page代表了頁數

這裡寫圖片描述

  1. 提取url內容並正則匹配出需要的內容
urllib.request.urlopen(url).read();
# 讀取指定url的全部內容

下面是根據正則的re庫匹配出所需要的dom節點

3.根據匹配出的圖片url篩選出圖片並下載圖片

4.最後通過迴圈,遍歷出所有的頁數

完整程式碼:

import re
import urllib.request


def craw(url,page)
:
## 讀取url地址中的頁面 html1 = urllib.request.urlopen(url).read(); ## 讀取url的全部資訊並轉為字串 html1 = str(html1); ##匹配元素1---父節點 pat1 = '<div id="plist".+? <div class="page clearfix">'; result1 = re.compile(pat1).findall(html1); result1 = result1[0]; ##匹配元素2--子節點 pat2='<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)">'
; imagelist=re.compile(pat2).findall(result1); x=1; for imgurl in imagelist: #設定地址跟爬取圖片的地址 imagename="F:/pythonB/img/"+str(page)+str(x)+".jpg"; imgurl= "http://" +imgurl; print(imgurl); try: #儲存圖片並定義圖片名字 urllib.request.urlretrieve(imgurl,filename=imagename) except
urllib.error.URLError as e: if hasattr(e, "code"): x+=1; if hasattr(e, "reason"): x+=1; x+=1; for i in range(1,79): url = 'http://list.jd.com/list.html?cat=9987,653,655&page='+str(i) craw(url,i);

最後得到所有的圖片:
這裡寫圖片描述

相關推薦

python爬蟲實踐----京東圖片

爬蟲思路: 1.分析url: http://list.jd.com/list.html?cat=9987,653,655&page=1 # url只有page變化,而page代表了頁數

Python爬蟲(1)------網站圖片

初學爬蟲的學習流程 環境 python 3.6 使用 urlib庫進行爬取內容 熟悉爬蟲 首先對百度進行爬取 # -*- coding: utf-8 -*- import urllib.request url = 'http://www

Python爬蟲圖片寫入world文件

作為初學爬蟲的我,無論是爬取文字還是圖片,都可以遊刃有餘的做到,但是爬蟲所爬取的內容往往不是單獨的圖片或者文字,於是我就想是否可以將圖文儲存至world文件裡,一開始使用瞭如下方法儲存圖片: with open('123.doc','wb')as fil

python3 學習 3:python爬蟲動態載入的圖片,以百度圖片為例

轉: https://blog.csdn.net/qq_32166627/article/details/60882964 前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片

[Python爬蟲]爬蟲例項:PEXELS圖片---解決非同步載入問題

第一次嘗試爬取—>[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片 在爬取PEXELS時,遇到了這樣問題: 頁面使用Ajax的非同步載入技術來實現分頁,所以通過request.text無法獲取動態載入的內容.而如果想正確獲取這些資料,則需要使用名為逆向工程的過程(“抓包”

[Python爬蟲]爬蟲例項:PEXELS圖片---修改為多程序爬蟲

第二次修改的地址---->爬蟲例項:爬取PEXELS圖片—解決非同步載入問題 在前面的修改中,我們通過使用逆向工程成功解決了非同步載入的問題.但同時還有一個問題:效率問題,受限於網速,假如使用單程序下載圖片時下載的速度沒有佔滿,而使用多個程序時下載速度能夠佔滿的話,那麼多程序爬蟲在

Python爬蟲小試——圖片

如果是直接裝了Anaconda整合開發環境的,就可以直接移步原始碼了 否則的話,在爬取圖片之前要安裝幾個包 第一個:bs4包,需要用到其中的BeautifulSoap,是一個功能強大的網頁解析工具 pip3 install bs4 第二個:requests包,

Python爬蟲__貼吧圖片和文字

1. 爬取圖片 1.1 前言 我當年年少,還不知道爬蟲這個東西,又想把書法圖片儲存下來,於是一張張地把圖片另存為,現在用爬蟲來爬取每一樓的書法圖片,解放一下人力: 1.2 爬取圖片的流程可以總結如下: 1)爬取網頁的ht

python學習(7):python爬蟲動態載入的圖片,以百度圖片為例

前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片到本地。 當我們在看百度圖片時,右鍵–檢查–Elements,點選箭頭,再用箭頭點選圖片時

Python爬蟲入門——貼吧圖片

最近忽然想聽一首老歌,“I believe” 於是到網上去搜,把幾乎所有的版本的MV都看了一遍(也是夠無聊的),最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本,想起女神全智賢,心血來潮,於是就想到了來一波全MM的美照,哪裡有皁片呢?自然是百度貼吧了。 放上鍊接-—

Python】【爬蟲京東商品使用者評論(分析+視覺化)

----------------------------------------------------------------------------------------------------------------------------- 1:在商品頁面f1

Python——網路爬蟲網頁圖片

最近在學習 Python, 然後就試著寫了一個簡單的Python小程式,爬取一個網頁的圖片,不得不說 Python 真的強大,以下是爬取 NEFU Online Judge 網站的程式碼。 吐槽:其實

Python爬蟲指定網址圖片

import re import urllib.request def gethtml(url): page=urllib.request.urlopen(url) html=page.

python爬蟲蜂鳥網高畫素圖片)_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

Python 爬蟲5——並下載網頁指定規格的圖片

        看完上篇文件之後,我們對於正則表示式已經有了基本的瞭解,其實學習最有效的辦法就是帶著問題和目的,這裡我們假設有一個目標:獲取某個網頁上指定規格的圖片的連結地址,並下載到本地。 一、實

python爬蟲網站視頻

爬蟲 python python爬取百思不得姐網站視頻:http://www.budejie.com/video/新建一個py文件,代碼如下:#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python爬蟲煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲(未使用框架,僅供娛樂)獲取並下載煎蛋網妹子圖指定頁面或全部圖片,並將圖片下載到磁盤。 首先導入模塊:urllib.request、re、os import

團隊-張文然-需求分析-python爬蟲分類豆瓣電影信息

工具 新的 翻頁 需求 使用 html 頁面 應該 一個 首先要明白爬網頁實際上就是:找到包含我們需要的信息的網址(URL)列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL,回到 2 繼續其次還要明白:一個好的列表應該:包含

最最簡單的python爬蟲教程--百度百科案例

python爬蟲;人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

Python爬蟲入門 | 豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程,只有7節,讓零基礎的你初步了解爬蟲,跟著課程內容能自己爬取資源。看著文章,打開電腦動手實踐,平均45分鐘就能學完一節,如果你願意,今天內你就可以邁入爬蟲的大門啦~好啦,正式開始我們的第二節課《爬取豆瓣電影信息》吧!啦啦哩啦啦,