python爬蟲實踐----爬取京東圖片

阿新 • • 發佈：2019-01-20

爬蟲思路：
1.分析url:

http://list.jd.com/list.html?cat=9987,653,655&page=1

# url只有page變化，而page代表了頁數

這裡寫圖片描述

提取url內容並正則匹配出需要的內容

urllib.request.urlopen(url).read();
# 讀取指定url的全部內容

下面是根據正則的re庫匹配出所需要的dom節點

3.根據匹配出的圖片url篩選出圖片並下載圖片

4.最後通過迴圈，遍歷出所有的頁數

完整程式碼：

import re
import urllib.request


def craw(url,page) 
:
    ## 讀取url地址中的頁面
    html1 = urllib.request.urlopen(url).read();
    ## 讀取url的全部資訊並轉為字串
    html1 = str(html1);

    ##匹配元素1---父節點
    pat1 = '<div id="plist".+? <div class="page clearfix">';
    result1 = re.compile(pat1).findall(html1);
    result1 = result1[0];

    ##匹配元素2--子節點
    pat2='<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)">' 
;

    imagelist=re.compile(pat2).findall(result1);
    x=1;
    for imgurl in imagelist:
        #設定地址跟爬取圖片的地址
        imagename="F:/pythonB/img/"+str(page)+str(x)+".jpg";
        imgurl= "http://" +imgurl;
        print(imgurl);
        try:
            #儲存圖片並定義圖片名字
            urllib.request.urlretrieve(imgurl,filename=imagename)
        except 
 urllib.error.URLError as e:
            if hasattr(e, "code"):
                x+=1;
            if hasattr(e, "reason"):
                x+=1;
        x+=1;

for i in range(1,79):
    url = 'http://list.jd.com/list.html?cat=9987,653,655&page='+str(i)
    craw(url,i);

最後得到所有的圖片：
這裡寫圖片描述

python爬蟲實踐----爬取京東圖片

爬蟲思路： 1.分析url: http://list.jd.com/list.html?cat=9987,653,655&page=1 # url只有page變化，而page代表了頁數

Python爬蟲(1)------爬取網站圖片

初學爬蟲的學習流程環境 python 3.6 使用 urlib庫進行爬取內容熟悉爬蟲首先對百度進行爬取 # -*- coding: utf-8 -*- import urllib.request url = 'http://www

Python爬蟲將爬取的圖片寫入world文件

作為初學爬蟲的我，無論是爬取文字還是圖片，都可以遊刃有餘的做到，但是爬蟲所爬取的內容往往不是單獨的圖片或者文字，於是我就想是否可以將圖文儲存至world文件裡，一開始使用瞭如下方法儲存圖片： with open('123.doc','wb')as fil

python3 學習 3：python爬蟲之爬取動態載入的圖片，以百度圖片為例

轉： https://blog.csdn.net/qq_32166627/article/details/60882964 前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---解決非同步載入問題

第一次嘗試爬取—>[Python爬蟲]爬蟲例項:三種方式爬取PEXELS圖片在爬取PEXELS時,遇到了這樣問題: 頁面使用Ajax的非同步載入技術來實現分頁,所以通過request.text無法獲取動態載入的內容.而如果想正確獲取這些資料,則需要使用名為逆向工程的過程(“抓包”

[Python爬蟲]爬蟲例項:爬取PEXELS圖片---修改為多程序爬蟲

第二次修改的地址---->爬蟲例項:爬取PEXELS圖片—解決非同步載入問題在前面的修改中,我們通過使用逆向工程成功解決了非同步載入的問題.但同時還有一個問題:效率問題,受限於網速,假如使用單程序下載圖片時下載的速度沒有佔滿,而使用多個程序時下載速度能夠佔滿的話,那麼多程序爬蟲在

Python爬蟲小試——爬取圖片

如果是直接裝了Anaconda整合開發環境的，就可以直接移步原始碼了否則的話，在爬取圖片之前要安裝幾個包第一個：bs4包，需要用到其中的BeautifulSoap，是一個功能強大的網頁解析工具 pip3 install bs4 第二個：requests包，

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

python學習（7）：python爬蟲之爬取動態載入的圖片，以百度圖片為例

前言：前面我們爬取圖片的網站都是靜態的，在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後，再用bs4庫解析標籤即可儲存圖片到本地。當我們在看百度圖片時，右鍵–檢查–Elements，點選箭頭，再用箭頭點選圖片時

Python爬蟲入門——爬取貼吧圖片

最近忽然想聽一首老歌，“I believe” 於是到網上去搜，把幾乎所有的版本的MV都看了一遍（也是夠無聊的），最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本，想起女神全智賢，心血來潮，於是就想到了來一波全MM的美照，哪裡有皁片呢？自然是百度貼吧了。放上鍊接-—

【Python】【爬蟲】爬取京東商品使用者評論（分析+視覺化）

----------------------------------------------------------------------------------------------------------------------------- 1：在商品頁面f1

Python——網路爬蟲（爬取網頁圖片）

最近在學習 Python，然後就試著寫了一個簡單的Python小程式，爬取一個網頁的圖片，不得不說 Python 真的強大，以下是爬取 NEFU Online Judge 網站的程式碼。吐槽：其實

Python爬蟲：爬取指定網址圖片

import re import urllib.request def gethtml(url): page=urllib.request.urlopen(url) html=page.

python爬蟲（爬取蜂鳥網高畫素圖片）_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting

Python 爬蟲5——爬取並下載網頁指定規格的圖片

看完上篇文件之後，我們對於正則表示式已經有了基本的瞭解，其實學習最有效的辦法就是帶著問題和目的，這裡我們假設有一個目標：獲取某個網頁上指定規格的圖片的連結地址，並下載到本地。一、實

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

python爬蟲實踐----爬取京東圖片

完整程式碼：

相關推薦