1. 程式人生 > >python爬蟲簡單的抓頁面圖片並儲存到本地

python爬蟲簡單的抓頁面圖片並儲存到本地

1、首先注意編碼,設定為utf-8
   #coding=utf-8
或者
   #-*-conding:UTF-8 -*-
  先抓取頁面資訊
#coding=utf-8
import urllib
import re
#py抓取頁面圖片並儲存到本地
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
print html
#獲取頁面資訊
html = getHtml("http://tieba.baidu.com/p/2460150866")
然後會出來一堆html程式碼 CSS程式碼 JS程式碼。這樣頁面你就拿到了
接下來呢,咱們去抓取這個頁面的圖片
#coding=utf-8
import urllib
import re
#py抓取頁面圖片並儲存到本地
#獲取頁面資訊
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
#通過正則獲取圖片
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return 
imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)
然後大家可以看到了,圖片已經全部抓取到了
最後咱們把抓到的圖片儲存到本地
#coding=utf-8
import urllib
import re
#py抓取頁面圖片並儲存到本地
#獲取頁面資訊
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

#通過正則獲取圖片
def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg) imglist = re.findall(imgre,html) return imglist #迴圈把圖片存到本地 x = 0 for imgurl in imglist: #儲存到本地 urllib.urlretrieve(imgurl,'/Applications/MAMP/image/%s.jpg' % x) x+=1 html = getHtml("http://tieba.baidu.com/p/2460150866") print getImg(html)
為了方便管理,並且整潔,給圖片重新命名為數字了
這樣呢,就簡單的用python實現了爬蟲。

相關推薦

python爬蟲簡單頁面圖片儲存本地

1、首先注意編碼,設定為utf-8 #coding=utf-8 或者 #-*-conding:UTF-8 -*- 先抓取頁面資訊 #coding=utf-8 import urll

[Python][爬蟲03]requests+BeautifulSoup例項:圖片儲存

    上一篇中,安裝和初步使用了requests+BeautifulSoup,感受到了它們的便捷。但之前我們抓取的都是文字資訊,這次我們準備來抓取的是圖片資訊。 >第一個例項     首先,審查網頁元素:     因此其結構就為: <di

爬蟲:爬取圖片儲存在某路徑下

import re import urllib.request def getHtml(url): page=urllib.request.urlopen(url) html=page.read() return html def getImg(html):

使用scrapy簡單爬取圖片儲存

# -*- coding: utf-8 -*- import scrapy class Tu699Spider(scrapy.Spider): name = 'tu_699' allowed_domains = ['699pic.com'] start_urls = ['http:

Python下載圖片儲存本地的兩種方式

一:使用Python中的urllib類中的urlretrieve()函式,直接從網上下載資源到本地,具體程式碼:import os,stat import urllib.request img_url="https://timgsa.baidu.com/timg?imag

爬蟲記錄(2)——簡單爬取一個頁面圖片儲存

1、爬蟲工具類,用來獲取網頁內容 package com.dyw.crawler.util; import java.io.BufferedReader; import java.io.IOException; import java.io.

Python爬蟲實戰(1)——百度貼吧取帖子儲存內容和圖片

最近在網上看了很多的爬蟲指令碼,寫的參差不齊,但是其中有很多寫的非常的優秀,程式碼質量很高,規範性也很好,很具有代表性,非常值得我們去學習!~ 寫好一個python爬蟲需要有以下幾個必備條件: 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等),結構性封裝性好,重

python爬蟲 爬取圖片儲存

今天爬了美麗說網站首頁的圖片 可是等把圖片的url獲取之後卻不知道怎麼儲存了。。(感覺自己當時腦子短路了) 然後自己上網查看了一些方法。。 1.網上有說 urllib模組中有個urlretrieve函式可以直接下載儲存,於是我天真的寫了urllib.urlretrieve

Python爬蟲 BeautifulSoup取網頁資料 儲存到資料庫MySQL

最近剛學習Python,做了個簡單的爬蟲,作為一個簡單的demo希望幫助和我一樣的初學者 程式碼使用python2.7做的爬蟲  抓取51job上面的職位名,公司名,薪資,釋出時間等等 直接上程式碼,程式碼中註釋還算比較清楚 ,沒有安裝mysql需要遮蔽掉相關程式碼:#!/u

第十講:Python爬取網頁圖片儲存本地,包含次層頁面

上一講我們講到了從暱圖網的首頁下載圖片到本地,但是我們發現首頁上面的大部分連結其實都可以進入到二級頁面。 在二級頁面裡面,我們也

python爬蟲-簡單使用xpath下載圖片

  首先 1.為方便以下進行       谷歌瀏覽器裡要安裝xpath指令碼  2.下載一個lmxl     命令:pip install lxml 3. 以下三張圖是一個,當時爬的 《糗事百科》裡的圖片   值的注意

Java編寫爬蟲儲存本地檔案,未涉及圖片,視訊的儲存,只是儲存文字內容

Java Jsoup jar包編寫爬蟲 這個案例內容很簡單,只是設計文字的爬取,未涉及到圖片儲存與視訊儲存。記錄下來只是方便自己的一個記錄、同時希望給向我這樣第一次接觸爬蟲的朋友一個參考!! 個人覺得分為兩步走!當然,我寫了三個檔案,內容如下: 一、開始方法 S

python爬取網站上的圖片儲存本地

  1.匯入需要的模組requests,BeautifulSoup,os(用於檔案讀寫)。   2.建立一個類,並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

java演算法-網路爬蟲取網頁儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部 使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL  問題,如果這個佇列

python爬蟲:從頁面下載圖片以及編譯錯誤解決。

#!/usr/bin/python import re import urllib def getHtml(url):page = urllib.urlopen(url)html = page.read()return html def getImage(html):reg

python爬蟲頁面上的超連結

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間. 頁面上的超連結 在HTML中,超

Python爬蟲取內涵段子1000張搞笑圖片-上篇(小爬蟲誕生篇)

  出於興趣,在《幕課網:Python 開發簡單爬蟲》上學習了點兒 Python 爬蟲的入門知識,跟著視訊教程抓取了百度百科的 1000 個頁面。然後自己嘗試抓取一個國外網站的資料,但可能是由於最近召開

第一個小爬蟲--爬取圖片儲存

import urllib.request import re import os def url_open(url): req=urllib.request.Request(url) req.add_header('User-Agent','

網路爬蟲之爬取網頁圖片儲存

爬取網頁圖片並儲存在本地 將網頁上的圖片爬取之後,以圖片原有名字儲存在本地 程式碼: import requests import os url="http://p1.so.qhmsg.com/bdr/_240_/t01dab8b2e73fe661d6

簡單python爬取網頁字串內容儲存

最近想試試python的爬蟲庫,就找了個只有字串的的網頁來爬取。網址如下: 開啟後看到是一些歌名還有hash等資訊。按照hash|filename的方式存在檔案裡,先貼程式碼 #coding=utf-8 import urllib import re import