python網路爬蟲（一）

阿新 • • 發佈：2018-11-07

網路爬蟲之前奏

網路爬蟲之規則

Requests庫入門

requests庫的安裝

requests的詳細資訊

Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。

requests庫安裝成功與否的測試

按照以下程式碼在python互動模式下依次執行得到正確的結果就證明安裝成功了。

>>> import requests
>>> r = requests.get("https://www.baidu.com")
>>> r.status_code
200
>>> r.encoding
'ISO-8859-1'
>>> r.apparent_encoding
'utf-8'
>>> r.encoding = 'utf-8'
>>> r.text
'<!DOCTYPE html>\r\n<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=https://ss1.bdstatic.com/5eN1bjq8AAUYm2zgoY3K/r/www/cache/bdorz/baidu.min.css><title>百度一下，你就知道</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus=autofocus></span><span class="bg s_btn_wr"><input type=submit id=su value=百度一下 class="bg s_btn" autofocus></span> </form> </div> </div> <div id=u1> <a href=http://news.baidu.com name=tj_trnews class=mnav>新聞</a> <a href=https://www.hao123.com name=tj_trhao123 class=mnav>hao123</a> <a href=http://map.baidu.com name=tj_trmap class=mnav>地圖</a> <a href=http://v.baidu.com name=tj_trvideo class=mnav>視訊</a> <a href=http://tieba.baidu.com name=tj_trtieba class=mnav>貼吧</a> <noscript> <a href=http://www.baidu.com/bdorz/login.gif?login&amp;tpl=mn&amp;u=http%3A%2F%2Fwww.baidu.com%2f%3fbdorz_come%3d1 name=tj_login class=lb>登入</a> </noscript> <script>document.write(\'<a href="http://www.baidu.com/bdorz/login.gif?login&tpl=mn&u=\'+ encodeURIComponent(window.location.href+ (window.location.search === "" ? "?" : "&")+ "bdorz_come=1")+ \'" name="tj_login" class="lb">登入</a>\');\r\n                </script> <a href=//www.baidu.com/more/ name=tj_briicon class=bri style="display: block;">更多產品</a> </div> </div> </div> <div id=ftCon> <div id=ftConw> <p id=lh> <a href=http://home.baidu.com>關於百度</a> <a href=http://ir.baidu.com>About Baidu</a> </p> <p id=cp>&copy;2017&nbsp;Baidu&nbsp;<a href=http://www.baidu.com/duty/>使用百度前必讀</a>&nbsp; <a href=http://jianyi.baidu.com/ class=cp-feedback>意見反饋</a>&nbsp;京ICP證030173號&nbsp; <img src=//www.baidu.com/img/gs.gif> </p> </div> </div> </div> </body> </html>\r\n'

requests庫的七個主要方法

requests.request()
- 構造一個請求，支撐以下各方法的基礎方法。
requests.get()
- 獲取HTML網頁的主要方法，對應於HTTP的GET。
requests.head()
- 獲取HTML網頁頭資訊的方法，對應於HTTP的HEAD。
requests.post()
- 向HTML網頁提交POST請求的方法，對應於HTTP的POST。
requests.put()
- 向HTML網頁提交PUT請求的方法，對應於HTTP的PUT。
requests.patch()
- 向HTML網頁提交區域性修改請求，對應於HTTP的PATCH。
requests.delete()
- 向HTML頁面提交刪除請求，對應於HTTP的DELETE。

Requests庫的get()方法

在這裡插入圖片描述

requests.get(url, params=None, **kwargs)
- url : 擬獲取頁面的url連結。
- params : url中的額外引數，字典或位元組流格式，可選。
- **kwargs: 12個控制訪問的引數。

Response物件

Response物件包含爬蟲返回的內容。

Response物件包含伺服器返回的所有資訊，也包含請求的Request資訊。

>>> import requests
>>> r = requests.get("https://www.baidu.com")
>>> print(r.status_code)
200
>>> type(r)
<class 'requests.models.Response'>
>>> r.headers
{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection':  'Keep-Alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Tue, 30 Oct 2018 08:36:21 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:24:46 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}

Response物件的屬性
- r.status_code
  - HTTP請求的返回狀態，200表示連線成功，404表示失敗。
- r.text
  - HTTP響應內容的字串形式，即，url對應的頁面內容。
- r.encoding
  - 從HTTP header中猜測的響應內容編碼方式。
  - 如果header中不存在charset，則認為編碼為ISO‐8859‐1。
  - r.text根據r.encoding顯示網頁內容。
- r.apparent_encoding
  - 從內容中分析出的響應內容編碼方式（備選編碼方式）。
  - 根據網頁內容分析出的編碼方式可以看作是r.encoding的備選。
- r.content
  - HTTP響應內容的二進位制形式。

爬取網頁的通用程式碼框架

Requests庫的異常
- requests.ConnectionError
  - 網路連線錯誤異常，如DNS查詢失敗、拒絕連線等。
- requests.HTTPError
  - HTTP錯誤異常。
- requests.URLRequired
  - URL缺失異常。
- requests.TooManyRedirects
  - 超過最大重定向次數，產生重定向異常。
- requests.ConnectTimeout
  - 連線遠端伺服器超時異常。
- requests.Timeout
  - 請求URL超時，產生超時異常。
r.raise_for_status()方法
- 如果不是200，產生異常 requests.HTTPError。
- r.raise_for_status()在方法內部判斷r.status_code是否等於200，不需要增加額外的if語句，該語句便於利用try‐except進行異常處理。
通用程式碼框架

import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()    # 如果狀態不是200，引發HTTPError異常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "產生異常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

python網路爬蟲（一）

網路爬蟲之前奏網路爬蟲之規則 Requests庫入門 requests庫的安裝 requests的詳細資訊 Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。 requests庫安裝成功與否的測試

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細節。 1.Proxy 的設定 urllib2 預設會使用環境變數 http_proxy 來設定 HTTP Proxy。如果想在程式中明確控制 Proxy 而不受環境變數的影響，可以使用代理。

Python網路程式設計（一）

一、網路基礎在學習網路程式設計前，要對網路通訊的五層協議有所瞭解，那什麼是協議呢，協議就是各方規定遵守的一種標準。網路通訊就像寄信件，是資訊與資料的交換，而在生活中我們寄信件，信件也不是從我們手裡瞬間到收件人手裡，每一次信件通訊，都會經歷這樣幾個固定流程：寫信、裝信封、投到郵箱、郵局取件、運輸到目的地

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

前言：最近正在學習Python網路爬蟲，學到selenium，需要用到chrome瀏覽器的驅動，但是網上的很多地址都被牆了，而且沒有準確的驅動和chrome版本的對映，很麻煩。現在我已經解決了這些問題，現在把對映和下載連結分享出來。（一）檢視chrome

python網路爬蟲（五）:併發抓取

在進行單個爬蟲抓取的時候，我們不可能按照一次抓取一個url的方式進行網頁抓取，這樣效率低，也浪費了cpu的資源。目前python上面進行併發抓取的實現方式主要有以下幾種：程序，執行緒，協程。程序不在的討論範圍之內，一般來說，程序是用來開啟多個spider，比如我

Python網路爬蟲（四）：視訊下載器

這一節實現一個下載 iqiyi VIP視訊的爬蟲。需要的準備：旋風視訊VIP解析網站或其他解析網站原理理解：在視訊解析網站獲取視訊的過程中，首先會向視訊伺服器傳送GET請求，獲得伺服器發來的資訊；接到資訊後，再向伺服器POST資料，即將類似於密碼

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

Python網路爬蟲（1）--url訪問及引數設定

標籤：環境：Python2.7.9 / Sublime Text 2 / Chrome 1.url訪問，直接呼叫urllib庫函式即可 import urllib2 url=‘http://www.baidu.com/‘ response = urllib2.urlopen(url) html=re

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

Python網路爬蟲（七）：解決ImportError:DLL load failed：作業系統無法執行問題

背景： Python版本：Anaconda3 問題描述：最近在執行scrapy專案時，本來安裝好好的scrapy框架突然報錯，猝不及防， ImportError:DLL load failed：作業系統無法執行%1 如圖：自己也是百思

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麼接下來我們一起來看一下Cookie的使用。為什麼要使用Cookie呢？ Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）比如說有些網站需要登入後才

用C#實現網路爬蟲（一）

1 private void ReceivedData(IAsyncResult ar) 2 { 3 RequestState rs = (RequestState)ar.AsyncState; //獲取引數 4 HttpWebRequest req = rs.Req; 5

[Python]網路爬蟲（四）：Opener與Handler

在開始後面的內容之前，先來解釋一下urllib2中的兩個個方法：info and geturl urlopen返回的應答物件response(或者HTTPError例項)有兩個很有用的方法info()和geturl() 1.geturl()： geturl()返回獲

基於HtmlUnit網路爬蟲（一）

由於時間關係，我不知道下一集會什麼時候寫，但是歡迎大家交流。很多網路爬蟲新手肯定會遇到的2個問題：執行JavaScript和處理Ajax請求。好了，我先貼一些關鍵配置的程式碼，使得我們模擬的瀏覽器可以執行CSS和JavaScript。 BrowserVersion

網路爬蟲（一）：爬蟲的含義和URL基本構成——（瞭解）

一、網路爬蟲的定義網路爬蟲，即Web Spider，把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後通過這些連結地址尋找下一個網

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

python網路爬蟲（9）構建基礎爬蟲思路

目的意義基礎爬蟲分5個模組，使用多個檔案相互配合，實現一個相對完善的資料爬取方案，便於以後更完善的爬蟲做準備。這裡目的是爬取200條百度百科資訊，並生成一個html檔案，儲存爬取的站點，詞條，解釋。本文思路來源書籍。其程式碼部分來源書籍。https://book.douban.com/subjec

python網路爬蟲（一）

網路爬蟲之前奏

網路爬蟲之規則

Requests庫入門

requests庫的安裝

requests庫安裝成功與否的測試

requests庫的七個主要方法

Requests庫的get()方法

爬取網頁的通用程式碼框架

相關推薦