python爬蟲（一）Urllib使用

阿新 • • 發佈：2019-02-06

爬蟲介紹

網路爬蟲就是一個爬行程式，一個抓取網頁的程式。網路爬蟲的基本操作是抓取網頁，但爬蟲概念包括抓取和資料解析兩個部分。
爬蟲是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後通過這些連結地址尋找下一個網頁，這樣一直迴圈下去，直到把這個網站所有的網頁都抓取完為止。

爬蟲意義

爬蟲可以完成很多事情，如：

爬取靜態頁面
分析並推送價值資料
資源的批量下載
各類資料監控
社會計算的統計預測
機器翻譯語料庫
機器學習訓練庫

Urllib庫

Urllib提供了基礎的python爬蟲爬取操作，我們可以使用Urllib庫完成簡單的資料請求和網頁資訊抓取。

簡單的資料請求

import urllib.request

response=urllib.request.urlopen('https://www.baidu.com')
print(response.read().decode('utf-8'))

帶引數的資料請求

import urllib.request as url_req
import urllib.parse as url_pa

data=url_pa.urlencode({'query':'ai'})
url='https://www.sogou.com/web?'

request = url_req.Request(url)
#引數需要轉為流的形式做傳遞 

response = url_req.urlopen(request,data.encode('utf-8'))
print(response.read().decode('utf-8'))

import urllib.parse
import time

headers = {
    'Host': 'www.budejie.com',
    'Referer': 'http://www.budejie.com',
    'User_agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36' 

}

for i in range(1, 6):
    req = urllib.request.Request('http://www.budejie.com/' + str(i), headers=headers)
    res = urllib.request.urlopen(req)
    html = res.read().decode('utf-8')
    with open('get/' + str(i) + '.html', 'w', encoding='utf-8') as f:
        f.write(html)
    time.sleep(3)
    print('第%d頁,長度%d' % (i, len(html)))
    headers['referer'] = 'http://www.budejie.com/' + str(i)

通過代理髮起請求

import urllib.request

req = urllib.request.Request('https://www.baidu.com')
proxy={'http':'119.29.12.129'}
proxy_handler=urllib.request.ProxyHandler(proxy)
#順手設定一個debug級別日誌
http_handler=urllib.request.HTTPHandler(debuglevel=1)
opener=urllib.request.build_opener(proxy_handler, http_handler)
response=opener.open('http://www.baidu.com')
print(len(response.read().decode('utf-8')))

請求異常捕獲

請求中常見的異常有兩類，URLError與HTTPError

urllib.error.URLError

URLError通常與環境有關，具體原因如下：

網路無連線，本機無法上網
無法正常連線到伺服器
伺服器不存在，域名無法解析

urllib.error.HTTPError

HTTPError是URLError的子類，當請求順利接收到伺服器返回的響應且狀態碼異常時，會丟擲該錯誤

異常捕獲邏輯

由於兩者存在父子關係，按照慣例應首先捕獲子類異常，捕獲邏輯如下

import urllib.request
import urllib.error
req = urllib.request.Request('http://www.douyu.com/Jack_Cui.html')
try:
    print(urllib.request.urlopen(req).read().decode('utf-8'))
except urllib.error.HTTPError as e:
    print(e.reason)
    print(e.code)
except urllib.error.URLError as e:
    print(e.reason)
else:
    print('ok')

python 爬蟲（一）urllib使用demo

import urllib.request #向指定的url地址發起請求，並返回伺服器響應的資料（檔案的物件） response = urllib.request.urlopen("http://www.baidu.com") #直接將檔案寫入指定路徑， filePath = r"C:/Use

python爬蟲（一）urllib庫基本使用

注，以下內容均為python3.5.*程式碼學習爬蟲，首先有學會使用urllib庫，這個庫可以方便的使我們解析網頁的內容，本篇講一下它的主要用法解析網頁 #!/usr/bin/env python3 # coding=utf-8 import u

python爬蟲（一）Urllib使用

爬蟲介紹網路爬蟲就是一個爬行程式，一個抓取網頁的程式。網路爬蟲的基本操作是抓取網頁，但爬蟲概念包括抓取和資料解析兩個部分。爬蟲是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後通過這些連

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

python爬蟲（一）

返回沒有發現學習內容部分訪問 family 司機獲得 1.首先你需要一些Python的基礎知識和相關的開發環境，沒有相關基礎的同學推薦可以先去網易雲的Mooc觀看學習相關教程 2.什麽是網絡爬蟲？　　我們上網會在瀏覽器中輸入連接，然後服務器會返回給我們相關的信

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

自學Python爬蟲（一）認識爬蟲

1、爬蟲的概念這裡就不解析了，可自行百度拋連結： https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin 2、爬蟲的基本流程 2.1發起請求通過HTTP

Python爬蟲（一）：編寫簡單爬蟲之新手入門

最近學習了一下python的基礎知識，大家一般對“爬蟲”這個詞，一聽就比較熟悉，都知道是爬一些網站上的資料，然後做一些操作整理，得到人們想要的資料，但是怎麼寫一個爬蟲程式程式碼呢？相信很多人是不會的，今天寫一個針對新手入門想要學習爬蟲的文章，希望對想要學習的你能有所幫助~~廢話不多說，進入正文！

python爬蟲（一）---智聯招聘實戰

智聯校園招聘資料爬取 1 本次實驗只爬取一頁內容，適合入門學習xpath，excel檔案寫入。 2 url =‘https://xiaoyuan.zhaopin.com/full/538/0_0_160000_1_0_0_0_1_0’ 3 結尾會附上全部程式碼大神請繞過本部落格

python爬蟲（一）--------selenium+python+PhantomJS的使用

　　最近爬取相關網站時，發現沒有找到js包的地址，我就採用selenium來爬取資訊，相關實戰連結：python爬蟲實戰（一）--------中國作物種質資訊網一、Selenium介紹　　Selenium 是什麼？一句話，自動化測試工具。它支援各種瀏覽器，包括 Chr

Python 爬蟲（一）綜述

開始爬蟲之前先看看這些來打個底吧~ 1.首先，什麼是爬蟲呢？爬蟲（spider），可以理解為在網路上爬行的一隻蜘蛛，爬蟲在網際網路這張網上爬來爬去地找資源，如果它遇到想要的資源，就會把它抓取下來。至於什麼資源是想要的抓取的？這個由你來控制它咯。概括來說

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

Python爬蟲（三）Urllib庫的高階用法

1.設定Headers 有些網站不會同意程式直接用上面的方式進行訪問，如果識別有問題，那麼站點根本不會響應，所以為了完全模擬瀏覽器的工作，我們需要設定一些Headers 的屬性。可以開啟Chrome瀏覽器，除錯瀏覽器F12，開啟網路監聽，嘗試登陸知乎，會發

零基礎入門Python爬蟲（一）

閱讀本篇大概需要 4 分鐘。前言很多人都或多或少聽說過 Python 爬蟲，我也一直很感興趣，所

Python爬蟲（一）--城市公交網路站點資料的爬取

作者：WenWu_Both 出處：http://blog.csdn.net/wenwu_both/article/ 版權：本文版權歸作者和CSDN部落格共有轉載：歡迎轉載，但未經作者同意，必須保留此段聲必須在文章中給出原文連結；否則必究法律責任

python爬蟲（一）BeautifulSoup簡介

BeautifulSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲漫遊仙境》裡的同名詩歌。BeautifulSoup通過定位HTML標籤來格式化和組織複雜的網路資訊，用簡單易用的python物件展現XML結構資訊。一、安裝Beautifulsoup 1、win

Python爬蟲（一）：爬蟲偽裝

1 簡介對於一些有一定規模或盈利性質比較強的網站，幾乎都會做一些防爬措施，防爬措施一般來說有兩種：一種是做身份驗證，直接把蟲子擋在了門口，另一種是在網站設定各種反爬機制，讓蟲子知難而返。 2 偽裝策略我們知道即使是一些規模很小的網站通常也會對來訪者的身份做一下檢查，如驗證請求 Headers，而對於

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

python爬蟲基礎知識（一）--Urllib.request

explain：The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest aut

小白學 Python 爬蟲（11）：urllib 基礎使用（一）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

python爬蟲（一）Urllib使用

爬蟲介紹

爬蟲意義

Urllib庫

簡單的資料請求

帶引數的資料請求

攜帶header資訊的迴圈資料請求

通過代理髮起請求

請求異常捕獲

urllib.error.URLError

urllib.error.HTTPError

異常捕獲邏輯

相關推薦