python爬蟲簡單的抓頁面圖片並儲存到本地

阿新 • • 發佈：2019-01-17

1、首先注意編碼，設定為utf-8

   #coding=utf-8

或者

   #-*-conding:UTF-8 -*-

  先抓取頁面資訊

#coding=utf-8

import urllib
import re
#py抓取頁面圖片並儲存到本地
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
print html

#獲取頁面資訊

html = getHtml("http://tieba.baidu.com/p/2460150866")

然後會出來一堆html程式碼 CSS程式碼 JS程式碼。這樣頁面你就拿到了

接下來呢，咱們去抓取這個頁面的圖片

#coding=utf-8
import urllib
import re
#py抓取頁面圖片並儲存到本地
#獲取頁面資訊
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#通過正則獲取圖片
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return  
imglist

html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

然後大家可以看到了，圖片已經全部抓取到了

最後咱們把抓到的圖片儲存到本地

#coding=utf-8
import urllib
import re
#py抓取頁面圖片並儲存到本地
#獲取頁面資訊
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#通過正則獲取圖片
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
 
imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist
#迴圈把圖片存到本地
x = 0
for imgurl in imglist:
        #儲存到本地
urllib.urlretrieve(imgurl,'/Applications/MAMP/image/%s.jpg' % x)
        x+=1
html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

為了方便管理，並且整潔，給圖片重新命名為數字了

這樣呢，就簡單的用python實現了爬蟲。

python爬蟲簡單的抓頁面圖片並儲存到本地

1、首先注意編碼，設定為utf-8 #coding=utf-8 或者 #-*-conding:UTF-8 -*- 先抓取頁面資訊 #coding=utf-8 import urll

[Python][爬蟲03]requests+BeautifulSoup例項:抓取圖片並儲存

上一篇中，安裝和初步使用了requests+BeautifulSoup，感受到了它們的便捷。但之前我們抓取的都是文字資訊，這次我們準備來抓取的是圖片資訊。 >第一個例項首先，審查網頁元素：因此其結構就為： <di

爬蟲：爬取圖片並儲存在某路徑下

import re import urllib.request def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return html def getImg(html):

使用scrapy簡單爬取圖片並儲存

# -*- coding: utf-8 -*- import scrapy class Tu699Spider(scrapy.Spider): name = 'tu_699' allowed_domains = ['699pic.com'] start_urls = ['http:

Python下載圖片並儲存本地的兩種方式

一：使用Python中的urllib類中的urlretrieve()函式，直接從網上下載資源到本地，具體程式碼：import os,stat import urllib.request img_url="https://timgsa.baidu.com/timg?imag

爬蟲記錄（2）——簡單爬取一個頁面的圖片並儲存

1、爬蟲工具類，用來獲取網頁內容 package com.dyw.crawler.util; import java.io.BufferedReader; import java.io.IOException; import java.io.

Python爬蟲實戰（1）——百度貼吧抓取帖子並儲存內容和圖片

最近在網上看了很多的爬蟲指令碼，寫的參差不齊，但是其中有很多寫的非常的優秀，程式碼質量很高，規範性也很好，很具有代表性，非常值得我們去學習！~ 寫好一個python爬蟲需要有以下幾個必備條件： 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等)，結構性封裝性好，重

python爬蟲爬取圖片並儲存

今天爬了美麗說網站首頁的圖片可是等把圖片的url獲取之後卻不知道怎麼儲存了。。（感覺自己當時腦子短路了）然後自己上網查看了一些方法。。 1.網上有說 urllib模組中有個urlretrieve函式可以直接下載儲存，於是我天真的寫了urllib.urlretrieve

Python爬蟲 BeautifulSoup抓取網頁資料並儲存到資料庫MySQL

最近剛學習Python，做了個簡單的爬蟲，作為一個簡單的demo希望幫助和我一樣的初學者程式碼使用python2.7做的爬蟲抓取51job上面的職位名，公司名，薪資，釋出時間等等直接上程式碼，程式碼中註釋還算比較清楚，沒有安裝mysql需要遮蔽掉相關程式碼：#!/u

第十講：Python爬取網頁圖片並儲存到本地，包含次層頁面

上一講我們講到了從暱圖網的首頁下載圖片到本地，但是我們發現首頁上面的大部分連結其實都可以進入到二級頁面。在二級頁面裡面，我們也

python爬蟲-簡單使用xpath下載圖片

首先 1.為方便以下進行谷歌瀏覽器裡要安裝xpath指令碼 2.下載一個lmxl 命令：pip install lxml 3. 以下三張圖是一個，當時爬的《糗事百科》裡的圖片　　值的注意

Java編寫爬蟲，並儲存本地檔案，未涉及圖片，視訊的儲存，只是儲存文字內容

Java Jsoup jar包編寫爬蟲這個案例內容很簡單，只是設計文字的爬取，未涉及到圖片儲存與視訊儲存。記錄下來只是方便自己的一個記錄、同時希望給向我這樣第一次接觸爬蟲的朋友一個參考！！個人覺得分為兩步走！當然，我寫了三個檔案，內容如下：一、開始方法 S

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

java演算法-網路爬蟲抓取網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL 問題,如果這個佇列

python爬蟲：從頁面下載圖片以及編譯錯誤解決。

#!/usr/bin/python import re import urllib def getHtml(url):page = urllib.urlopen(url)html = page.read()return html def getImage(html):reg

python爬蟲：抓取頁面上的超連結

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間. 頁面上的超連結在HTML中，超

Python爬蟲：抓取內涵段子1000張搞笑圖片-上篇（小爬蟲誕生篇）

出於興趣，在《幕課網：Python 開發簡單爬蟲》上學習了點兒 Python 爬蟲的入門知識，跟著視訊教程抓取了百度百科的 1000 個頁面。然後自己嘗試抓取一個國外網站的資料，但可能是由於最近召開

第一個小爬蟲--爬取圖片並儲存

import urllib.request import re import os def url_open(url): req=urllib.request.Request(url) req.add_header('User-Agent','

網路爬蟲之爬取網頁圖片並儲存

爬取網頁圖片並儲存在本地將網頁上的圖片爬取之後，以圖片原有名字儲存在本地程式碼： import requests import os url="http://p1.so.qhmsg.com/bdr/_240_/t01dab8b2e73fe661d6

簡單的python爬取網頁字串內容並儲存

最近想試試python的爬蟲庫，就找了個只有字串的的網頁來爬取。網址如下：開啟後看到是一些歌名還有hash等資訊。按照hash|filename的方式存在檔案裡，先貼程式碼 #coding=utf-8 import urllib import re import

python爬蟲簡單的抓頁面圖片並儲存到本地

相關推薦