1. 程式人生 > >python 3.3 爬蟲之爬取圖片

python 3.3 爬蟲之爬取圖片

今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼,之前用正則也寫了一個,感覺用BeautifulSoup 更簡單了

import urllib
import urllib.request as request
from bs4 import BeautifulSoup
def taobao(url):
    response = request.urlopen(url)
    html = response.read()
    #我是win7系統,預設是gdk要先解碼,再用utf8編碼就可以顯示漢字了
    data = html.decode('gbk').encode('utf-8')
    soup = BeautifulSoup(data)
    path = 'f:/image/'
    count = 1
    for list in soup.find_all('img'):
        #拆分屬性
        dict = list.attrs
        if "data-lazy" in dict:
            image = dict['data-lazy']
            img = image[image.rfind('.')::]
            filepath = path + str(count)+img
            with open(filepath, 'wb') as file:
                image_data = request.urlopen(dict['data-lazy']).read()
                print(dict['data-lazy'])
                file.write(image_data)
            count += 1
            file.close()
if __name__ == '__main__':
    print("""
+++++++++++++++++++++++
  學校:超神學院
  專業:德瑪班
  姓名:德瑪之力
  version: python3.2
+++++++++++++++++=++++
     """)
    url = 'http://www.taobao.com/?spm=a310q.2219005.1581860521.1.b9kUd4'
    taobao(url)
+++++++++++++++++++++++
  學校:超神學院
  專業:德瑪班
  姓名:德瑪之力
  version: python3.2
+++++++++++++++++=++++
     
http://gtms01.alicdn.com/tps/i1/T1RC0qFF4bXXcMypPC-260-125.png
http://gtms02.alicdn.com/tps/i2/T1HZFrFGVbXXcMypPC-260-125.png
http://gtms04.alicdn.com/tps/i4/T1WZNrFPVbXXanhZrl-250-125.jpg
http://gtms03.alicdn.com/tps/i3/T1p10nFUFdXXc2jIrl-250-125.png
http://gtms04.alicdn.com/tps/i4/T1GczVFwpXXXc2jIrl-250-125.png
http://gtms04.alicdn.com/tps/i4/T1w.RnFMtbXXc2jIrl-250-125.png
http://gtms03.alicdn.com/tps/i3/T1KN8oFJVdXXc2jIrl-250-125.png
http://gtms01.alicdn.com/tps/i1/T1oyxnFMFdXXc2jIrl-250-125.png
http://gtms03.alicdn.com/tps/i3/T1g2toFG0dXXc2jIrl-250-125.png
http://gtms04.alicdn.com/tps/i4/T1DNlrFMXaXXc2jIrl-250-125.png
http://gtms02.alicdn.com/tps/i2/T1vBFrFGxaXXanhZrl-250-125.jpg
http://gtms02.alicdn.com/tps/i2/T1.gBoFLxdXXanhZrl-250-125.jpg
http://gtms03.alicdn.com/tps/i3/T1Q9NqFNlaXXc2jIrl-250-125.png
http://gtms04.alicdn.com/tps/i4/T1HblpFStcXXc2jIrl-250-125.png
http://gtms01.alicdn.com/tps/i1/T1wbxoFN8dXXc2jIrl-250-125.png
http://gtms01.alicdn.com/tps/i1/T1OXFnFQ8cXXc2jIrl-250-125.png
http://img.taobaocdn.com/bao/uploaded/T1eYDyFfdbXXb1upjX.jpg
http://img.taobaocdn.com/bao/uploaded/T1q0eDFd4eXXb1upjX.jpg
http://img04.taobaocdn.com/bao/uploaded/i4/T1oa.kXa8hXXXQXDnq-90-45.png
http://img02.taobaocdn.com/bao/uploaded/i2/T1ouQYXltbXXXQXDnq-90-45.png
http://img.taobaocdn.com/bao/uploaded/T1o2aWFc4dXXb1upjX.jpg
http://img02.taobaocdn.com/bao/uploaded/i2/T1deC.XhhvXXXQXDnq-90-45.png
http://img04.taobaocdn.com/bao/uploaded/i4/T1vtUYXbxbXXXQXDnq-90-45.png
http://img02.taobaocdn.com/bao/uploaded/i2/T1KsYVXndXXXXQXDnq-90-45.png
http://img03.taobaocdn.com/bao/uploaded/i3/T1utqAXdBUXXXXXXXX-90-45.jpg
http://img01.taobaocdn.com/bao/uploaded/i1/T1VezWXaBeXXXQXDnq-90-45.png
http://img01.taobaocdn.com/bao/uploaded/i1/T19KfUXkheXXXQXDnq-90-45.png
http://img02.taobaocdn.com/bao/uploaded/i2/T1UOmoXd8rXXXXXXXX-90-45.jpg
http://img.taobaocdn.com/bao/uploaded/T1Z86AFXlbXXb1upjX.jpg
http://img01.taobaocdn.com/bao/uploaded/i1/T1_5.YXa0bXXXQXDnq-90-45.png
http://img04.taobaocdn.com/bao/uploaded/i4/T1PgeoXmJOXXXXXXXX-90-45.jpg

測試通過

相關推薦

python 3.3 爬蟲圖片

今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼,之前用正則也寫了一個,感覺用BeautifulSoup 更簡單了 import urllib import urllib.request as request from bs4 import Bea

python3 學習 3python爬蟲動態載入的圖片,以百度圖片為例

轉: https://blog.csdn.net/qq_32166627/article/details/60882964 前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片

python初級實戰系列教程《一、爬蟲網頁、圖片、音視訊》

python基礎知識可以到廖雪峰大佬的官網學習哦! 廖雪峰官網網址 學完python就開始我們的實戰吧!首先我們就來學習下python爬蟲 學習Python爬蟲,先是介紹一個最容易上手的庫urll

python學習(7):python爬蟲動態載入的圖片,以百度圖片為例

前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片到本地。 當我們在看百度圖片時,右鍵–檢查–Elements,點選箭頭,再用箭頭點選圖片時

Python爬蟲煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲(未使用框架,僅供娛樂)獲取並下載煎蛋網妹子圖指定頁面或全部圖片,並將圖片下載到磁盤。 首先導入模塊:urllib.request、re、os import

簡單爬蟲網站圖片

 這裡選取的網址是  http://www.doutula.com   目的:爬取其中的圖片  並且翻頁爬取 首頁圖片的規則 <img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f

Python網路爬蟲淘寶網頁頁面 MOOC可以執行的程式碼

可以實現功能的全部程式碼: import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu

Python爬蟲各大幣交易網站公告——靜態網站.md

Python爬蟲之爬取各大幣交易網站公告——靜態網站 瞭解爬蟲之後,我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理,提取我們想要的東西。 靜態網站,我們往往利用requests庫提取網站html資訊,再通過正則表示式或BeautifulSoup庫提取我們

Python爬蟲小試——圖片

如果是直接裝了Anaconda整合開發環境的,就可以直接移步原始碼了 否則的話,在爬取圖片之前要安裝幾個包 第一個:bs4包,需要用到其中的BeautifulSoap,是一個功能強大的網頁解析工具 pip3 install bs4 第二個:requests包,

Python3爬蟲百度高清圖片

#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: OFZFZS # Datetime:2018/3/23 11:00 # Description: 百度圖片爬取 這裡只做了簡單處理,注意百度圖片返回的資料是aja

Python爬蟲動態頁面資料

很多網站通常會用到Ajax和動態HTML技術,因而只是使用基於靜態頁面爬取的方法是行不通的。對於動態網站資訊的爬取需要使用另外的一些方法。 先看看如何分辨網站時靜態的還是動態的,正常而言含有“檢視更多”字樣或者開啟網站時下拉才會載入內容出來的進本都是動態的,簡便的方法就是在

網路爬蟲網頁圖片並儲存

爬取網頁圖片並儲存在本地 將網頁上的圖片爬取之後,以圖片原有名字儲存在本地 程式碼: import requests import os url="http://p1.so.qhmsg.com/bdr/_240_/t01dab8b2e73fe661d6

Python爬蟲知乎帖子並儲存到mysql(以及遇到問題和解決方法)

爬取問題標題並儲存到資料庫: 程式碼: # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

Python爬蟲瓜子二手車資訊- requests方法

最近在做二手車市場資料分析,試著爬取瓜子二手車在售車輛資訊,做一下記錄 大致思路如下: 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊:     car_model = Field() # 車型資訊 registe

Python爬蟲內涵吧段子(urllib.request)

引言 在寒假開始的時候就打算學習爬蟲了,但是沒有想到一入坑到現在還沒有出坑,說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的,比較古老,所以我只用了一兩次就轉向了requests了

python偽代碼完美誌願全國歷年文理分數線運行代碼持續更新

Python 爬蟲 高考 項目 最近好多小夥伴說想搞個項目實戰類的,我就花了一點時間做了一個爬蟲項目(在代碼復制的時候可能會有點問題,縮格一下就沒有問題了)想要獲取更多源碼或者答疑或者或者交流學習可以加群:725479218 # -*- coding:utf-8 -*- from funct

Python網絡爬蟲古詩文中的某個制定詩句來實現搜索

它的 參考文獻 lis 實現 word self 適合 odi 級別 python編譯練習,為了將自己學習過的知識用上,自己找了很多資料。所以想做一個簡單的爬蟲,代碼不會超過60行。主要用於爬取的古詩文網站沒有什麽限制而且網頁排布很規律,沒有什麽特別的東西,適合入門級別的

小白scrapy爬蟲簡書網頁並下載對應鏈接內容

tps python 分享 列表 scrapy 網頁 pytho 分享圖片 介紹 *準備工作: 爬取的網址:https://www.jianshu.com/p/7353375213ab 爬取的內容:下圖中python庫介紹的內容列表,並將其鏈接的文章內容寫進文本文件中 小

菜鳥學爬蟲網易新聞

學習了python基本語法後,對爬蟲產生了很大的興趣,廢話不多說,今天來爬取網易新聞,實戰出真知。 開啟網易新聞(https://news.163.com/)可以發現新聞分為這樣的幾個板塊: 這次選擇國內板塊來爬取文章。 1.準備 環境:python3 編譯器:PyChar

爬蟲豆瓣電影的名字

import requests #requests模組用於傳送HTTP請求 import json #json模組用於對JSON資料進行編解碼 #新建陣列用於存放多個電影資料 movielist=[] #瀏覽器演示json crawlSite="https://api.douba