1. 程式人生 > >Python爬蟲利器一之Requests庫的用法

Python爬蟲利器一之Requests庫的用法

前言

之前我們用了 urllib 庫,這個作為入門的工具還是不錯的,對了解一些爬蟲的基本理念,掌握爬蟲爬取的流程有所幫助。入門之後,我們就需要學習一些更加高階的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法。

注:Python 版本依然基於 2.7

官方文件

以下內容大多來自於官方文件,本文進行了一些修改和總結。要了解更多可以參考

官方文件

安裝

利用 pip 安裝

1$pip install requests

或者利用 easy_install

1 $
easy_install requests

通過以上兩種方法均可以完成安裝。

引入

首先我們引入一個小例子來感受一下

12345678importrequestsr=requests.get('http://cuiqingcai.com')printtype(r)printr.status_codeprintr.encoding#print r.textprintr.cookies

以上程式碼我們請求了本站點的網址,然後打印出了返回結果的型別,狀態碼,編碼方式,Cookies等內容。

執行結果如下

1 2 3 4 <class'requests.models.Response'> 200 UTF-8 <RequestsCookieJar[]>

怎樣,是不是很方便。別急,更方便的在後面呢。

基本請求

requests庫提供了http所有的基本請求方式。例如

12345r=requests.post("http://httpbin.org/post")r=requests.put("http://httpbin.org/put")r=requests.delete("http://httpbin.org/delete")
r=requests.head("http://httpbin.org/get")r=requests.options("http://httpbin.org/get")

嗯,一句話搞定。

基本GET請求

最基本的GET請求可以直接用get方法

1 r=requests.get("http://httpbin.org/get")

如果想要加引數,可以利用 params 引數

12345import requests

相關推薦

Python爬蟲利器Requests用法

前言 之前我們用了 urllib 庫,這個作為入門的工具還是不錯的,對了解一些爬蟲的基本理念,掌握爬蟲爬取的流程有所幫助。入門之後,我們就需要學習一些更加高階的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法。 注:Py

Python爬蟲利器Selenium的用法

Selenium 是什麼?一句話,自動化測試工具。它支援各種瀏覽器,包括 Chrome,Safari,Firefox 等主流介面式瀏覽器,如果你在這些瀏覽器裡面安裝一個 Selenium 的外掛,那麼便可以方便地實現Web介面的測試。換句話說叫 Seleni

Python爬蟲利器Xpath語法與lxml用法

blank color idt tab 一段 並且 .text rst 基本用法 前面我們介紹了 BeautifulSoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 Xpath 語法,同樣是效率比較高的解析方法。如果大家

Python從零開始寫爬蟲requests使用

requests是一個強大的網路請求庫,簡單易用-讓 HTTP 服務人類。可以參考這個網站的介紹:http://cn.python-requests.org/zh_CN/latest/index.html 直接使用pip install requests安裝此模組之後,開始吧。

Python爬蟲入門四Urllib的高階用法

1.設定Headers 有些網站不會同意程式直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以為了完全模擬瀏覽器的工作,我們需要設定一些Headers 的屬性。 首先,開啟我們的瀏覽器,除錯瀏覽器F12,我用的是Chrome,開啟網路監聽,示意如下,

Python爬蟲入門綜述

復用 智能 實現 進一步 -a web 蜘蛛 urllib 機器 首先爬蟲是什麽? 網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。 根據我的經驗,要學習Python爬蟲,我們要

Python爬蟲入門三Urllib的基本使用

res 瀏覽器中 必須 答案 文件的 網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來 怎樣扒網頁呢?其實就是根據URL來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段HTML代碼,加 JS、CSS

python 爬蟲requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章 都是 Coding man header 文本 以前搞偷偷摸摸的事,不對,是搞爬蟲都是用urllib,不過真的是很麻煩,下面就使用requests + BeautifulSoup 爬爬簡單的網頁。 詳細介紹都在代碼中註釋了,大家可以參閱。

自學Python爬蟲(二)Requests的使用

前言 Urllib和requests庫都是python3中傳送請求的庫,但是比較而言,Requests庫更加強大和易用,所以學習python3就不要學習urllib了,2020年python2的庫就不再更新,所以我們學習python3更有意義! 例項引入 import requ

python爬蟲系列(2.3-requests模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object):     """     模擬登入拉鉤網     """    

python爬蟲系列(2.2-requests的高階使用)

一、設定代理ip 1、直接在請求的時候加上proxies就可以,注意我們一般會寫上http和https的,這樣當遇到http請求就會走http字典對應的代理 2、具體程式碼 import requests if __name__ == "__main__":  

python爬蟲系列(2.1-requests的基本的使用)

一、基本認識 1、傳送一個get請求 import requests if __name__ == "__main__":     # 獲取一個get請求     response = requests.get('http://htt

Python爬蟲第四篇--Requests

Requests簡介 Requests是基於urllib的python庫,比urllib庫更方便 採用Apache2 Licensed開源協議的HTTP庫 MacOS安裝:pip3 install requests 例項 import req

網路爬蟲必備知識requests

  閱讀目錄      1. requests庫簡介      2. Response請求響應類      3. requests提供的系列HTTP方法      4. 模擬登入示例      5. SSL證書驗證      6. 身份認證      7. 異常處理      就庫的範圍,個人認為網

python3爬蟲requests學習

前段時間利用零散時間在mooc上跟著嵩天老師學習了python爬蟲的相關知識,於是想把自己的學習經歷寫下來,對爬蟲的相關知識做一個歸納總結,文中如果有錯誤或者是不嚴謹的地方,歡迎指出和交流。 下面我們開始介紹requests庫

Python爬蟲實戰使用Beautiful Soup抓取百度招聘資訊並存儲excel檔案

#encoding:utf-8 ''' Created on 2017年7月25日 @author: ******** ''' import urllib2 from bs4 import BeautifulSoup import xlrd,os from xlutils.copy import copy f

python爬蟲)urllib基本使用

注,以下內容均為python3.5.*程式碼 學習爬蟲,首先有學會使用urllib庫,這個庫可以方便的使我們解析網頁的內容,本篇講一下它的主要用法 解析網頁 #!/usr/bin/env python3 # coding=utf-8 import u

python爬蟲學習筆記——使用requests編寫爬蟲(1)

       首先感謝http://python.jobbole.com ,我是看了此站的文章之後才有寫此文的想法,本人也是開始學python不久,此文僅僅是記錄一些學習過程中遇到的問題,邊學邊寫,初次寫這樣的博文,差錯在所難免,如有差錯也請指出,感激不盡。       

python 爬蟲 提取文字BeautifulSoup詳細用法

提取 網頁內容 四大基本方法之 2.beautifulsoup的使用 bs4模組 準備程式碼資訊,用來練習獲取內容: from bs4 import BeautifulSoup #準備程式碼資訊,用來

python爬蟲requests詳解(,如何通過requests來獲得頁面資訊)

前言: 爬蟲的基礎是與網頁建立聯絡,而我們可以通過get和post兩種方式來建立連線,而我們可以通過引入urllib庫[在python3的環境下匯入的是urllib;而python2的環境下是urllib和urllib2]或者requests庫來實現,從程式的複雜度和可讀性