python 網路爬蟲抓取圖片

阿新 • • 發佈：2019-01-15

#-*- encoding: utf-8 -*-
'''
Created on 2014-4-24
 @author: Leon Wong
'''
import urllib2
import urllib
import re
import time
import os
import uuid
 #獲取二級頁面url
def findUrl2(html):
    re1 = r'http://tuchong.com/\d+/\d+/|http://\w+(?<!photos).tuchong.com/\d+/'
    url2list = re.findall(re1,html)
    url2lstfltr = list(set(url2list))
    url2lstfltr.sort(key=url2list.index)
    #print url2lstfltr
    return url2lstfltr
 #獲取html文字
def getHtml(url):
    html = urllib2.urlopen(url).read().decode('utf-8')#解碼為utf-8
    return html
 #下載圖片到本地
def download(html_page , pageNo):
    #定義資料夾的名字
    x = time.localtime(time.time())
    foldername = str(x.__getattribute__("tm_year"))+"-"+str(x.__getattribute__("tm_mon"))+"-"+str(x.__getattribute__("tm_mday"))
    re2=r'http://photos.tuchong.com/.+/f/.+\.jpg'
    imglist=re.findall(re2,html_page)
    print imglist
    download_img=None
    for imgurl in imglist:
        picpath = 'D:\\TuChong\\%s\\%s'  % (foldername,str(pageNo))
        filename = str(uuid.uuid1())
        if not os.path.exists(picpath):
            os.makedirs(picpath)
        target = picpath+"\\%s.jpg" % filename
        print "The photos location is:"+target
        download_img = urllib.urlretrieve(imgurl, target)#將圖片下載到指定路徑中
        time.sleep(1)
        print(imgurl)
    return download_img

# def callback(blocknum, blocksize, totalsize):
#     '''回撥函式
#     @blocknum: 已經下載的資料塊
#     @blocksize: 資料塊的大小
#     @totalsize: 遠端檔案的大小
#     '''
#     print str(blocknum),str(blocksize),str(totalsize)
#     if blocknum * blocksize >= totalsize:
#         print '下載完成'

def quitit():
    print "Bye!"
    exit(0)


if __name__ == '__main__':
    print '''            *****************************************
            **    Welcome to Spider for TUCHONG    **
            **      Created on 2014-4-24           **
            **      @author: Leon Wong             **
            *****************************************'''
    pageNo = raw_input("Input the page number you want to scratch (1-100),please input 'quit' if you want to quit>")
    while not pageNo.isdigit() or int(pageNo) > 100 :
        if pageNo == 'quit':quitit()
        print "Param is invalid , please try again."
        pageNo = raw_input("Input the page number you want to scratch >")

    #針對圖蟲人像模組來爬取
    html = getHtml("http://tuchong.com/tags/%E4%BA%BA%E5%83%8F/?page="+str(pageNo))

    detllst = findUrl2(html)
    for detail in detllst:
        html2 = getHtml(detail)
        download(html2,pageNo)
    print "Finished."

python 網路爬蟲抓取圖片

#-*- encoding: utf-8 -*- ''' Created on 2014-4-24 @author: Leon Wong ''' import urllib2 import urllib import re import time import os im

python網路爬蟲--抓取股票資訊到Mysql

1.建表mysql -u root -p 123456create database test default character set utf8;create table stocks --a股( code varchar(10) comment '程式碼', nam

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

java之 25天網路爬蟲抓取圖片(二)

[size=medium][b]正則表示式練習[/b][/size]import java.util.Arrays;import java.util.Collections;import java.util.List;import java.util.TreeSet;publ

python爬蟲抓取圖片

關於python爬蟲一直以來是很著名的，林林總總也有很多方法，大致起來也就是一個原理。下面我來介紹一下我用的BeautifulSoup獲取的，正則獲取也很簡單，在這裡只說一下BeautifulSoup方法，使用伯樂線上網站作為參考的例子程式碼如下 #encoding

python網路爬蟲爬取汽車之家的最新資訊和照片

實現的功能是爬取汽車之家的最新資訊的連結題目和文章中的照片爬蟲需要用到我們使用了 requests 做網路請求，拿到網頁資料再用 BeautifulSoup 進行解析首先先檢查是否安裝了pip，如果已經安裝了pip,直接pip install requests,pip uninstal

java演算法-網路爬蟲抓取網頁並儲存

從一個URL中讀取網頁,如果是同一個網站的就儲存,URL裡面包含URL列表,繼續抓取,抓完全部使用多執行緒 A執行緒讀取URL內容 B執行緒存檔案 C執行緒解析URL 發現新URL從A執行緒讀取完的內容可以放到一個佇列裡面,B執行緒來讀取,C執行緒解析URL 問題,如果這個佇列

學會用python網路爬蟲爬取鬥圖網的表情包，聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖，想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py程式碼，但是剛想爬的時候發現網頁結構發生了變化，而且鬥圖網還插入了很多廣告，變化其實挺大的，所以臨時寫了一個爬蟲，簡單的爬取了鬥圖網的表情包。從這連結上看，page表示的是第幾頁，我

python網路爬蟲爬取房價資訊

爬取房天下（http://newhouse.cd.fang.com/house/s/）成都地區的新房資訊。開啟http://newhouse.cd.fang.com/house/s/，F12進入控制檯點選控制檯的左上角的按鈕，這是你可以將滑鼠移至房天下頁面的任何一個地方然後單

Python selenium爬蟲抓取船舶網站資料（動態頁面）

很早之前就開始學習爬蟲了，一直想學習爬取動態頁面，正巧工作中需要用到一個船舶資訊的網站，每次都是手動查詢太麻煩了，昨天下午研究了一下午，總算搞透徹了，基本步驟如下： 1、啟動瀏覽器 2、開啟網頁 3、模擬輸入，模擬點選 4、稍等一會（很重要） 5、獲取

搜尋引擎—網路爬蟲抓取策略

爬蟲的不同抓取策略，就是利用不同的方法確定待抓取URL佇列中URL優先順序的。爬蟲的抓取策略有很多種，但不論方法如何，基本目標一致：優先選擇重要網頁進行抓取。網頁的重要性，評判標準不同，大部分採用網頁的流行性進行定義。效果較好或有代表性的抓取策略：

Python爬蟲--抓取單一頁面上的圖片文件學習

python 爬蟲 #！/usr/bin/python import sys #正則表達式庫 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() ret

Python爬蟲 —— 抓取美女圖片

In root lxml 取圖 ext time style main HR 代碼如下： 1 #coding:utf-8 2 # import datetime 3 import requests 4 import os 5 import sys

Python爬蟲 —— 抓取美女圖片（Scrapy篇）

parse color 爬蟲 select 尺度 dex -i www 模塊雜談：之前用requests模塊爬取了美女圖片，今天用scrapy框架實現了一遍。（圖片尺度確實大了點，但老衲早已無戀紅塵，權當觀賞哈哈哈） Item: # -*- codi

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

第一個Python爬蟲-抓取煎蛋網上圖片

背景作為一個計算機基礎薄弱的電氣工程師，廖大的教程看到常用的內建模組時，看的頭大，特別是看到HTMLParser時，已宛如天書了。這時作為一個初學者的劣勢就暴露出來了，我不知道哪部分知識是理解這些模組的前置條件，即使知道是哪部分知識，但不知道該理解到什麼程度才能解決當前的問題。個人建議

Python網路爬蟲之抓取訂餐資訊

本文以大眾點評網為例，獲取頁面的餐館資訊，以達到練習使用python的目的。 1.抓取大眾點評網中關村附近的餐館有哪些 import urllib.request import re def fetchFood(url):

python 網路爬蟲抓取圖片

相關推薦