1. 程式人生 > >python爬蟲示例(1)---urlretrieve() 函式使用

python爬蟲示例(1)---urlretrieve() 函式使用

下面我們再來看看 urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。

1 >>> help(urllib.urlretrieve)
2 Help on function urlretrieve in module urllib:
3
4 urlretrieve(url, filename=None, reporthook=
None, data=None)
  • 引數 finename 指定了儲存本地路徑(如果引數未指定,urllib會生成一個臨時檔案儲存資料。)
  • 引數 reporthook 是一個回撥函式,當連線上伺服器、以及相應的資料塊傳輸完畢時會觸發該回調,我們可以利用這個回撥函式來顯示當前的下載進度。
  • 引數 data 指 post 到伺服器的資料,該方法返回一個包含兩個元素的(filename, headers)元組,filename 表示儲存到本地的路徑,header 表示伺服器的響應頭。

下面通過例子來演示一下這個方法的使用,這個例子將 google 的 html 抓取到本地,儲存在 D:/google.html 檔案中,同時顯示下載的進度。

01 import urllib
02 def cbk(a, b, c): 
03 '''回撥函式
04 @a: 已經下載的資料塊
05 @b: 資料塊的大小
06 @c: 遠端檔案的大小
07 ''' 
08 per = 100.0 * * / 

相關推薦

python爬蟲示例1---urlretrieve() 函式使用

下面我們再來看看 urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。 1 >>> help(urllib.urlretrieve)

Python爬蟲學習1

數據 bin des fin load 寫入 all pytho urlopen 接觸python不久,也在慕課網學習了一些python相關基礎,對於爬蟲初步認為是依靠一系列正則獲取目標內容數據 於是參照著慕課網上的教學視頻,完成了我的第一個python爬蟲,雞凍 >

Python爬蟲-速度1

Python爬蟲-速度(1) 文章目錄 Python爬蟲-速度(1) 前言 網頁分析 介面設計 執行效果 018.9.16 Python爬蟲-速度(2) Python爬蟲-速度(3) 前言

python---爬蟲51job1

這學期學的python,老師每次在上課前會佈置作業,因此再次做下梳理,鞏固知識點 ①使用python程式設計實現上述過程(訪問https://www.51job.com/,在搜尋框輸入關鍵字:python java,用右邊的加號選擇北京、上海、廣州、深圳四個城市),不需要使

$python爬蟲系列1——一個簡單的爬蟲實例

name 響應 -s 鏈接 實例 blog itl 匹配 列表 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。 1. 概述 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下: 獲取網頁html文本內容; 分析html中圖

$python爬蟲系列1——一個簡單的爬蟲例項

  本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。 1. 概述 本文主要實現一個簡單的爬蟲,目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下: 獲取網頁html文字內容; 分析html中圖片的html標籤特徵,用正則解析出所有的

Python爬蟲例項1-爬取一張貓的照片

程式設計這種實用性的工程性語言,光看書、背概念是完全刻舟求劍;learning with doing才是最快速的學習方法。我打算將自己學習爬蟲的週期,總結之後寫在CSDN上;通過自己感覺非常經典的例項,來表達爬蟲的知識點。話不多說,上一篇描述了爬蟲的原理之後,這一篇搞第一個例

python爬蟲系列1:使用python3和正則表示式獲取貓眼電影排行榜資料

簡述 這次打算寫一個爬蟲系列,一邊也想好好總結鞏固學習的知識,一邊做總結筆記,方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊,就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神,期望您能不吝賜教,指正錯誤,如果您是小白,咋們可以一同

Python爬蟲入門1:綜述

大家好哈,最近博主在學習Python,學習期間也遇到一些問題,獲得了一些經驗,在此將自己的學習系統地整理下來,如果大家有興趣學習爬蟲的話,可以將這些文章作為參考,也歡迎大家一共分享學習經驗。 Python版本:2.7,Python 3請另尋其他博文。 首先爬蟲是什麼?

Python爬蟲實戰1——百度貼吧抓取帖子並儲存內容和圖片

最近在網上看了很多的爬蟲指令碼,寫的參差不齊,但是其中有很多寫的非常的優秀,程式碼質量很高,規範性也很好,很具有代表性,非常值得我們去學習!~ 寫好一個python爬蟲需要有以下幾個必備條件: 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等),結構性封裝性好,重

computer version之手寫字元識別初探——以matlab和pythontensorflow分別示例1

昨晚2017.04.03趁清明假期再次嘗試了以qq群視訊的形式進行科研班會,主要內容講解演示了computer version(計算機視覺)中關於手寫字元的識別,並分別以matlab和python進行講解。其中matlab40min,python40min。

【C++】函式和結構--struct經典程式--傳遞結構和返回結構的程式碼示例1

結構和陣列的差異(基本概念)  為結構編寫函式比為陣列編寫函式要簡單得多。 結構是一個實體,被 看做一個整體,可以將一個結構賦給另一個結構。 函式可以返回結構。陣列名就是陣列第一個元素的地址,而結構名只是結構的名稱,要想獲得結構的地址,必須使用地址運算子& 然而,按

Python下用Scrapy和MongoDB構建爬蟲系統1

這篇文章將根據真實的兼職需求編寫一個爬蟲,使用者想要一個Python程式從Stack Overflow抓取資料,獲取新的問題(問題標題和URL)。抓取的資料應當存入MongoDB。值得注意的是,Stack Overflow已經提供了可用於讀取同樣資料的API。但是使用者想要一個

python每日一類1:pathlib

one pre 面向 iss open log python href reg 每天學習一個python的類(大多數都是第三方的),聚沙成金。 -----------------------------------------------------------------

python函數1:初始函數

索引 編程 sed 使用 在一起 用法 lease 括號 .com 在學了前面很多python的基礎類型後,我們終於可以進入下一階段,今天我們將走進一個函數的新世界。 預習: 1、寫函數,計算傳入字符串中【數字】、【字母】、【空格] 以及 【其他】的個數 2、寫函數,判

Python小練習1

duyuheng python 比較價錢 找出一個月中的天數 計算三角的周長 點在矩形內嗎?金融方面:比較價錢假設你購買大米時發現它有兩種包裝。你會別寫一個程序比較這兩種包裝的價錢。程序提示用戶輸入每種包裝的重量和價錢,然後顯示價錢更好的那種包裝。下面是個示例運行#!/usr/bin/env pytho

Python 爬蟲 2

規範 return python 爬蟲 直接 htm str 保存 urn find 一,獲取整個頁面數據 首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

Python web 開發1——新建項目

mage ati 成功 logs web make == 技術分享 blog 1、新建 一個virtulenv mkvirtulenv mxonlie 2、在mxonlie 下安裝Django pip install django==1.9 ps: 為

Python爬蟲系列:從零開始,安裝環境

tar 公司 pip nal 網頁 解析 目標 http caption 在上一個系列,我們學會使用rabbitmq。本來接著是把公司的celery分享出來,但是定睛一看,celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好,公司找

Python爬蟲系列:Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束 版本 現在 name屬性 data 官方文檔 get 在前幾篇文章,我們學會了如何獲取html文檔內容,就是從url下載網頁。今天開始,我們將討論如何將html轉成python對象,用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天,也沒把h