python爬蟲自動下載網頁連結

阿新 • • 發佈：2018-11-26

需求分析

今天遇到一個簡單的需求，需要下載澳大利亞電力市場NEM日前市場的發電商報價資料（http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/），頁面觀感是這樣的：

Ctrl + F 一下，看到一共有395個zip連結。於是就想著用python爬蟲自動下載。這個網頁很簡單，沒有驗證碼，甚至不需要登入，因此自動下載的python程式碼也很簡單。

步驟

爬取連結主要是如下3步：

1. 第一步是爬取網頁內容，儲存在一個字串content中

content的觀感是這樣的

從中可以看到連結是以'PUBLIC_NEXT_DAY_OFFER_ENERGY_(\d*)_(\d*).zip'的形式出現的，而且出現了兩遍。

2. 第二步是構造正則表示式，從content中匹配下載連結

正則表示式構造為'(PUBLIC_NEXT_DAY_OFFER_ENERGY_(\d*)_(\d*).zip)'，re.findall會返回一個三元tuple，分別是 (整個匹配到的字串，第一個(\d*)，第二個(\d*)). 由於上面提到了連結出現了兩遍，所以可以用list轉set來去重。

3. 第三步是遍歷連結的set，下載連結

這一步就很trivial了，唯一要注意的是如果下載下來的檔案所在的目錄不存在，要提前作判斷，建新目錄。

結果

Done!

原始碼

"""
Created on Tue Nov 20 09:50:26 2018

@author: weiyx15

Automated downloading all data links from 
http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/

"""
import urllib.request# url request
import re            # regular expression
import os            # dirs

# parent url
url = 'http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/'

# regular expression
pattern = '(PUBLIC_NEXT_DAY_OFFER_ENERGY_(\d*)_(\d*).zip)'

# pull request
headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
content = opener.open(url).read().decode('utf8')

# match regex and drop repetition
raw_hrefs = re.findall(pattern, content, 0)
hset = set(raw_hrefs)

# make directory
if not os.path.exists('./auto_download'):
    os.makedirs('auto_download')

# download links
for href in hset:
    link = url + href[0]
    print(link)
    urllib.request.urlretrieve(link, os.path.join('./auto_download', href[0]))

python爬蟲自動下載網頁連結

需求分析今天遇到一個簡單的需求，需要下載澳大利亞電力市場NEM日前市場的發電商報價資料（http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/），頁面觀感是這樣的： Ctrl + F 一下，看到一共有395個zip連結。

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

python爬蟲如何獲得完整連結（動態網頁）

參考：https://blog.csdn.net/hdu09075340/article/details/74202339-------------------參考：https://www.cnblogs.com/hhh5460/p/5044038.html四中方法''' 得

python爬蟲--自動獲取seebug的poc

nowait 位數完成再次問題 reading use odi html 簡單的寫了一個爬取www.seebug.org上poc的小玩意兒~ 首先我們進行一定的抓包分析我們遇到的第一個問題就是seebug需要登錄才能進行下載，這個很好處理，只需要抓取返回值200

python爬蟲之解析網頁的工具pyquery

div blog import 很多 aof pyquery from text lec 主要是對http://www.cnblogs.com/zhaof/p/6935473.html這篇博客所做的筆記有疑惑可以去看這篇文章from pyquery import PyQue

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了，從開始看別人寫的爬蟲程式碼，然後試著抄著學習，感覺沒太大進步，最大收穫就是改了幾處bug（可能有些地方不適用我的pyyhon平臺報錯）。中午看到一個帖子校花妹子圖使用爬蟲進行批量下載，看了下，感覺不錯（我說的技術，哈哈哈）。然後決定自己寫一個爬蟲，已經看書兩個禮

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

python爬蟲8——下載視訊：you-get工具

由於博主經常性會學習一些視訊教程，除了自己下的外，就很像把公司買的視訊也下下來觀摩觀摩。先來一個軟體，叫you-get的包。一、you-get說明 You-Get 乃一小小噠命令列程式，提供便利的方式來下載網路上的媒體資訊。利用you-get下載這個網頁的視訊: &nb

python爬蟲自動登入武漢大學校園網

#coding:utf-8 __author__ = 'zy' import urllib2 import cookielib import urllib import re import sys '''模擬登入''' PostUrl = "http://202.114.64.105:

冬天太冷？利用Python來自動瀏覽網頁！雙手以解放！

其實瞭解運維方面的人員可能並不陌生，有時候測試一些東西寫好指令碼讓其進行自動執行，那麼像自動控制瀏覽器，控制命令臺什麼都是我比較喜歡收集的模組這裡介紹的控制瀏覽器的模組，我們不深究，介紹點基礎操作，後期結合爬蟲專案和大家分享一下「selenium」模組正如上文所說，更多的使用在運維的方面

Python爬蟲之解析網頁

常用的類庫為lxml, BeautifulSoup, re(正則) 以獲取豆瓣電影正在熱映的電影名為例,url='https://movie.douban.com/cinema/nowplaying/beijing/' 網頁分析部分網頁原始碼 <ul class="lists">

python爬蟲如何獲取網頁資訊時，發現所需要的資訊是動態生成的，然後抓包獲取到資訊來源的URL？

如果在利用爬蟲爬取網頁資料的時候，發現是動態生成的時候，目前來看主要表現在以下幾種：以介面的形式生成資料，這種形式其實挺好處理的，比較典型的是知乎的使用者資訊，我們只要知道介面的URL，就可以不用再考慮頁面本身的內容以知乎為例，我們在爬取使用者資訊的時候，可能

Python 爬蟲--網站下載器

分享一個自己寫的網站下載器，程式語言是 Python。這個網站下載器主要下載網站可訪問的靜態資源，即各種靜態檔案，包括html、js、css、jpg、png、gif、mp3、mp4、pdf、doc、xls等等等等，具體可參考程式內容。本下載器預設開啟8個執行緒，

python爬蟲之定位網頁元素的三種方式

python爬蟲之定位網頁元素的三種方式 2018年08月02日 13:30:02 Barry__ 閱讀數：1373 標籤： python 更多個人分類： python 版權宣告：本文為博主原創文章，轉載請註明出處 https://blog

python爬蟲自動解決字元編碼問題

In [34]: import requests ...: ...: response = requests.get('http://www.dytt8.net/index.htm') ...: print(response.text[2

【Python爬蟲】下載微信公眾號圖片

大家用爬蟲下載圖片時肯定遇到過https://demo?wx_fmt=jpeg連結的圖片，常見的就是微信公眾號的圖片。遇到連結圖片用普通的方式是無法爬取下來的，我們可以用urllib.request進

python爬蟲之下載檔案的方式總結以及程式例項

python爬蟲之下載檔案的方式以及下載例項目錄第一種方法：urlretrieve方法下載第二種方法：request download 第三種方法：視訊檔案、大型檔案下載實戰演示第一種方法：urlretrieve方法下載

python 爬蟲 css提取網頁內容

四大提取網頁內容的基本方法之 4.css提取網頁內容語法簡單一覽 CSS選擇器用於選擇你想要的元素的樣式的模式。 "CSS"列表示在CSS版本的屬性定義（CSS1，CSS2，或對CSS3）。在使用c

python爬蟲——爬取網頁的中文

# 爬取網頁的中文內容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlrd import docx #讀取excel def excel(fname):

python爬蟲自動下載網頁連結

需求分析

步驟

結果

原始碼

相關推薦