python 3.3 爬蟲之爬取圖片
今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼,之前用正則也寫了一個,感覺用BeautifulSoup 更簡單了
import urllib import urllib.request as request from bs4 import BeautifulSoup def taobao(url): response = request.urlopen(url) html = response.read() #我是win7系統,預設是gdk要先解碼,再用utf8編碼就可以顯示漢字了 data = html.decode('gbk').encode('utf-8') soup = BeautifulSoup(data) path = 'f:/image/' count = 1 for list in soup.find_all('img'): #拆分屬性 dict = list.attrs if "data-lazy" in dict: image = dict['data-lazy'] img = image[image.rfind('.')::] filepath = path + str(count)+img with open(filepath, 'wb') as file: image_data = request.urlopen(dict['data-lazy']).read() print(dict['data-lazy']) file.write(image_data) count += 1 file.close() if __name__ == '__main__': print(""" +++++++++++++++++++++++ 學校:超神學院 專業:德瑪班 姓名:德瑪之力 version: python3.2 +++++++++++++++++=++++ """) url = 'http://www.taobao.com/?spm=a310q.2219005.1581860521.1.b9kUd4' taobao(url)
+++++++++++++++++++++++ 學校:超神學院 專業:德瑪班 姓名:德瑪之力 version: python3.2 +++++++++++++++++=++++ http://gtms01.alicdn.com/tps/i1/T1RC0qFF4bXXcMypPC-260-125.png http://gtms02.alicdn.com/tps/i2/T1HZFrFGVbXXcMypPC-260-125.png http://gtms04.alicdn.com/tps/i4/T1WZNrFPVbXXanhZrl-250-125.jpg http://gtms03.alicdn.com/tps/i3/T1p10nFUFdXXc2jIrl-250-125.png http://gtms04.alicdn.com/tps/i4/T1GczVFwpXXXc2jIrl-250-125.png http://gtms04.alicdn.com/tps/i4/T1w.RnFMtbXXc2jIrl-250-125.png http://gtms03.alicdn.com/tps/i3/T1KN8oFJVdXXc2jIrl-250-125.png http://gtms01.alicdn.com/tps/i1/T1oyxnFMFdXXc2jIrl-250-125.png http://gtms03.alicdn.com/tps/i3/T1g2toFG0dXXc2jIrl-250-125.png http://gtms04.alicdn.com/tps/i4/T1DNlrFMXaXXc2jIrl-250-125.png http://gtms02.alicdn.com/tps/i2/T1vBFrFGxaXXanhZrl-250-125.jpg http://gtms02.alicdn.com/tps/i2/T1.gBoFLxdXXanhZrl-250-125.jpg http://gtms03.alicdn.com/tps/i3/T1Q9NqFNlaXXc2jIrl-250-125.png http://gtms04.alicdn.com/tps/i4/T1HblpFStcXXc2jIrl-250-125.png http://gtms01.alicdn.com/tps/i1/T1wbxoFN8dXXc2jIrl-250-125.png http://gtms01.alicdn.com/tps/i1/T1OXFnFQ8cXXc2jIrl-250-125.png http://img.taobaocdn.com/bao/uploaded/T1eYDyFfdbXXb1upjX.jpg http://img.taobaocdn.com/bao/uploaded/T1q0eDFd4eXXb1upjX.jpg http://img04.taobaocdn.com/bao/uploaded/i4/T1oa.kXa8hXXXQXDnq-90-45.png http://img02.taobaocdn.com/bao/uploaded/i2/T1ouQYXltbXXXQXDnq-90-45.png http://img.taobaocdn.com/bao/uploaded/T1o2aWFc4dXXb1upjX.jpg http://img02.taobaocdn.com/bao/uploaded/i2/T1deC.XhhvXXXQXDnq-90-45.png http://img04.taobaocdn.com/bao/uploaded/i4/T1vtUYXbxbXXXQXDnq-90-45.png http://img02.taobaocdn.com/bao/uploaded/i2/T1KsYVXndXXXXQXDnq-90-45.png http://img03.taobaocdn.com/bao/uploaded/i3/T1utqAXdBUXXXXXXXX-90-45.jpg http://img01.taobaocdn.com/bao/uploaded/i1/T1VezWXaBeXXXQXDnq-90-45.png http://img01.taobaocdn.com/bao/uploaded/i1/T19KfUXkheXXXQXDnq-90-45.png http://img02.taobaocdn.com/bao/uploaded/i2/T1UOmoXd8rXXXXXXXX-90-45.jpg http://img.taobaocdn.com/bao/uploaded/T1Z86AFXlbXXb1upjX.jpg http://img01.taobaocdn.com/bao/uploaded/i1/T1_5.YXa0bXXXQXDnq-90-45.png http://img04.taobaocdn.com/bao/uploaded/i4/T1PgeoXmJOXXXXXXXX-90-45.jpg
測試通過
相關推薦
python 3.3 爬蟲之爬取圖片
今天沒事用BeautifulSoup寫了一個爬取淘寶頁面的部分圖片的程式碼,之前用正則也寫了一個,感覺用BeautifulSoup 更簡單了 import urllib import urllib.request as request from bs4 import Bea
python3 學習 3:python爬蟲之爬取動態載入的圖片,以百度圖片為例
轉: https://blog.csdn.net/qq_32166627/article/details/60882964 前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片
python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》
python基礎知識可以到廖雪峰大佬的官網學習哦! 廖雪峰官網網址 學完python就開始我們的實戰吧!首先我們就來學習下python爬蟲 學習Python爬蟲,先是介紹一個最容易上手的庫urll
python學習(7):python爬蟲之爬取動態載入的圖片,以百度圖片為例
前言: 前面我們爬取圖片的網站都是靜態的,在頁面中右鍵檢視原始碼就能看到網頁中圖片的位置。這樣我們用requests庫得到頁面原始碼後,再用bs4庫解析標籤即可儲存圖片到本地。 當我們在看百度圖片時,右鍵–檢查–Elements,點選箭頭,再用箭頭點選圖片時
Python爬蟲之爬取煎蛋網妹子圖
創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲(未使用框架,僅供娛樂)獲取並下載煎蛋網妹子圖指定頁面或全部圖片,並將圖片下載到磁盤。 首先導入模塊:urllib.request、re、os import
簡單爬蟲之爬取網站圖片
這裡選取的網址是 http://www.doutula.com 目的:爬取其中的圖片 並且翻頁爬取 首頁圖片的規則 <img src="https://ws3.sinaimg.cn/bmiddle/6af89bc8gw1f
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
可以實現功能的全部程式碼: import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_statu
Python爬蟲之爬取各大幣交易網站公告——靜態網站.md
Python爬蟲之爬取各大幣交易網站公告——靜態網站 瞭解爬蟲之後,我們也漸漸掌握了根據網站的種類選擇不同庫來對其進行處理,提取我們想要的東西。 靜態網站,我們往往利用requests庫提取網站html資訊,再通過正則表示式或BeautifulSoup庫提取我們
Python爬蟲小試——爬取圖片
如果是直接裝了Anaconda整合開發環境的,就可以直接移步原始碼了 否則的話,在爬取圖片之前要安裝幾個包 第一個:bs4包,需要用到其中的BeautifulSoap,是一個功能強大的網頁解析工具 pip3 install bs4 第二個:requests包,
Python3爬蟲之爬取百度高清圖片
#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: OFZFZS # Datetime:2018/3/23 11:00 # Description: 百度圖片爬取 這裡只做了簡單處理,注意百度圖片返回的資料是aja
Python爬蟲之爬取動態頁面資料
很多網站通常會用到Ajax和動態HTML技術,因而只是使用基於靜態頁面爬取的方法是行不通的。對於動態網站資訊的爬取需要使用另外的一些方法。 先看看如何分辨網站時靜態的還是動態的,正常而言含有“檢視更多”字樣或者開啟網站時下拉才會載入內容出來的進本都是動態的,簡便的方法就是在
網路爬蟲之爬取網頁圖片並儲存
爬取網頁圖片並儲存在本地 將網頁上的圖片爬取之後,以圖片原有名字儲存在本地 程式碼: import requests import os url="http://p1.so.qhmsg.com/bdr/_240_/t01dab8b2e73fe661d6
Python爬蟲之爬取知乎帖子並儲存到mysql(以及遇到問題和解決方法)
爬取問題標題並儲存到資料庫: 程式碼: # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co
Python爬蟲之爬取瓜子二手車資訊- requests方法
最近在做二手車市場資料分析,試著爬取瓜子二手車在售車輛資訊,做一下記錄 大致思路如下: 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊: car_model = Field() # 車型資訊 registe
Python爬蟲之爬取內涵吧段子(urllib.request)
引言 在寒假開始的時候就打算學習爬蟲了,但是沒有想到一入坑到現在還沒有出坑,說多了都是淚 T_T 我準備介紹的這個庫是我初學爬蟲時候用到的,比較古老,所以我只用了一兩次就轉向了requests了
python偽代碼之爬取完美誌願全國歷年文理分數線運行代碼持續更新
Python 爬蟲 高考 項目 最近好多小夥伴說想搞個項目實戰類的,我就花了一點時間做了一個爬蟲項目(在代碼復制的時候可能會有點問題,縮格一下就沒有問題了)想要獲取更多源碼或者答疑或者或者交流學習可以加群:725479218 # -*- coding:utf-8 -*- from funct
Python網絡爬蟲:爬取古詩文中的某個制定詩句來實現搜索
它的 參考文獻 lis 實現 word self 適合 odi 級別 python編譯練習,為了將自己學習過的知識用上,自己找了很多資料。所以想做一個簡單的爬蟲,代碼不會超過60行。主要用於爬取的古詩文網站沒有什麽限制而且網頁排布很規律,沒有什麽特別的東西,適合入門級別的
小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容
tps python 分享 列表 scrapy 網頁 pytho 分享圖片 介紹 *準備工作: 爬取的網址:https://www.jianshu.com/p/7353375213ab 爬取的內容:下圖中python庫介紹的內容列表,並將其鏈接的文章內容寫進文本文件中 小
菜鳥學爬蟲之爬取網易新聞
學習了python基本語法後,對爬蟲產生了很大的興趣,廢話不多說,今天來爬取網易新聞,實戰出真知。 開啟網易新聞(https://news.163.com/)可以發現新聞分為這樣的幾個板塊: 這次選擇國內板塊來爬取文章。 1.準備 環境:python3 編譯器:PyChar
爬蟲之爬取豆瓣電影的名字
import requests #requests模組用於傳送HTTP請求 import json #json模組用於對JSON資料進行編解碼 #新建陣列用於存放多個電影資料 movielist=[] #瀏覽器演示json crawlSite="https://api.douba