[爬蟲小記] 優秀的requests模組

阿新 • • 發佈：2018-11-22

前言

除了當初學習爬蟲的時候用過urllib、urllib2，後來再沒用過了。都是使用的requests，本文將記錄一直以來個人使用 requests的經驗總結。

正文

    import requests
    r = requests.get('http://www.baidu.com')

    print(r.status_code)  #200  獲取狀態碼

    print(r.text)     #常用，獲取Unicode形式的response，預設以utf8解碼為Unicode

    print(r.content)    #獲取位元組形式的response，可供編碼檢測

    print(chardet.detect(r.content))  #編碼由原網頁決定，這裡的檢測只是一定概率正確

    # 如果r.text輸出有亂碼，說明網站非utf8編碼，需修改response編碼
    r.encoding = 'gbk'  # gbk , gb18030 等

    myparams = {'name': 'lei', 'age': 222}
    #這個引數會以明文方式直接填充到url中：http://www.baidu.com/?age=222&name=lei
    #它是http請求中的QueryString
    requests.get('http://www.baidu.com',params=myparams)

    #data引數在post中傳遞表單，不會填充在url中，是http請求的body
    requests.post('http://www.baidu.com', data={'name': 'lei', 'age': 222})

    #上傳檔案
    with open(r'c:\words_v1.txt')as f:
        _file = {'file': f}
        requests.post('http://www.baidu.com', files=_file)

    #傳入cookie (官方的寫法較複雜，不必採用)
    requests.get('http://www.baidu.com',headers={'Cookie':'PSTM=1525659528;
                                                    BD_UPN=12314753;'})

    #取消ssl驗證以訪問https站點
    requests.get('https://www.baidu.com', verify=False)

    #代理使用
    _list = ["http://41.118.132.69:4433", "http://51.228.12.69:4423"]
    for i in _list:
        p = {'http': i}
        r = requests.get('https://www.baidu.com', proxies=p)
        if r.status_code == 200:
            # do something
            break

    #下載檔案 ,iter_count 限制每次下載的位元組數，逐塊寫入
    with open(r'xx.png', 'wb')as f:
        for c in requests.get('http://xxx.com', stream=True).iter_content(1024):
            f.write(c)

    #保持會話 ，常用在模擬登入、登入以訪問資源等情況
    s = requests.session()  #Session() 一樣
    #s 與直接用requests的大部分用法一致，如get post

    UA = {'User-Agent':'xxx'}
    s.headers = UA    #或  s.headers.update(UA)

    #傳入cookie
    dict_cookie = dict(a='123', b='321')
    requests.utils.add_dict_to_cookiejar(s.cookies, dict_cookie)
    # 實際操作時這種方式也複雜，我們想要的是從瀏覽器中複製整個cookie字串
    # 到python程式碼中直接使用，而無需修改為字典形式，參見下面的方式

    #傳入cookie 方式二
    s.get('http://www.baidu.com', headers={'Cookie': 'PSTM=1525659528;
                                            BD_UPN=12314753;'})

    #持久化cookie
    import json
    with open('cookie.txt', 'wb') as f:
        cookie = s.cookies.get_dict()
        json.dump(cookie, f)

    #從檔案載入cookie
    with open('cookie.txt') as f:
        cookie = json.load(f)
        s.cookies.update(cookie)

有高見請留言。

宣告：本文章為個人對技術的理解與總結，不能保證毫無瑕疵，接收網友的斧正。

[爬蟲小記] 優秀的requests模組

前言除了當初學習爬蟲的時候用過urllib、urllib2，後來再沒用過了。都是使用的requests，本文將記錄一直以來個人使用 requests的經驗總結。正文 import reques

使用ip代理池爬蟲時，requests模組get請求出現問題_AttributeError: 'str' object has no attribute 'get'

問題描述：專案使用ip代理池對網頁進行資料爬取，但是requests模組get方法出現問題，出錯如下： File "E:\project\venv\lib\site-packages\requests\api.py", line 75, in get r

Python3爬蟲實戰（requests模組）

上次我通過兩個實戰教學展示瞭如何使用urllib模組（http://blog.csdn.net/mr_blued/article/details/79180017）來構造爬蟲，這次告訴大家一個更好的實現爬蟲的模組，requests模組。使用requests模組進行爬蟲構造時最

爬蟲及requests模組

什麼是爬蟲網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。例如：給個網址，可以獲取到該網址裡邊的（圖片， url，視訊，

針對requests模組的詳細講解！Python爬蟲必學模組！

requests requests庫是 python3 中非常優秀的第三方庫，它使用 Apache2 Licensed 許可證的 HTTP 庫，用 Python 編寫，真正的為人類著想。requests 使用的是 urllib3(python3.x中的urllib)，因此繼承了它的所有特性。Re

爬蟲概念 requests模組

requests模組 - 基於如下5點展開requests模組的學習什麼是requests模組 requests模組是python中原生的基於網路請求的模組，其主要作用是用來模擬瀏覽器發起請求。功能強大，用法簡潔高效。在爬蟲領域中佔據著半壁江山的地位。

爬蟲-requests模組

引入 Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。警告：非專業使用其他 HTTP 庫會導致危險的副作用，包括：安全缺陷症、冗餘程式碼症、重新發明輪子症、啃文件症、抑鬱、頭疼、甚至死亡。今日概要基於requests的get請求基於r

[Python爬蟲]requests模組使用post方法提交表單

使用requests庫中的post(url,params)方法,先通過觀察表單的網頁原始碼,或者是通過逆向工程的方法獲取表單提交的欄位,構造引數params,就能實現模擬登入操作. 例如: url =

Python爬蟲【urllib3模組】和【requests模組】

前面介紹了urllib為啥還要引入urllib3模組？原因是：urllib3是比urllib更好用的API。需要自行安裝。在Pycharm的Terminal中輸入：pip install urllib3。例：urllib3中的PoolManager()模組使用ur

爬蟲（1）：requests模組

requests介紹： reqeusts模組：python原生一個基於網路請求的模組，模擬瀏覽器發起請求。 requests模組的優點： - 1.自動處理url編碼 - 2.自動處理post請求的引數 - 3.簡化cookie的代理的操作： cookie操作： - 建立一個coo

初級爬蟲(一) requests模組實現網頁批量圖片爬取

思路分析: 已知網頁:如http://www.jiangxian.gov.cn/N20180821093426.html 1, 檢查網頁分析網頁中圖片的地址形式, 2,獲取網頁內容,正則匹配出所有圖片的地址, 3,拼接地址生成列表 4,迴圈列表,生成圖片地址的文字檔案 5,迴圈列表,取出

孤荷凌寒自學python第六十七天初步瞭解Python爬蟲初識requests模組

孤荷凌寒自學python第六十七天初步瞭解Python爬蟲初識requests模組（完整學習過程螢幕記錄視訊地址在文末）從今天起開始正式學習Python的爬蟲。今天已經初步瞭解了兩個主要的模組： requests BeautifulSoup 一

Python爬蟲——利用requests模組爬取妹子圖

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。話不多說，進入正題開發環境 python 3.6 涉及到的庫 requests lxml 先上一波爬取的截圖

爬蟲（一）——用Requests模組獲取網頁資訊

呼叫requests庫裡面的get方法，獲取網頁的資訊，呼叫page.text獲取網頁原始碼，然後通過print打印出網頁原始碼 import requests page = requests.get(

Python爬蟲之requests模組

獲取響應資訊 import requests response = requests.get('http://www.baidu.com') print(response.status_code) # 狀態碼 print(response.url) # 請求url print(respon

Python3網絡爬蟲——三、Requests庫的基本使用

成功 ges cookies pan doc 需求 post請求成了 bsp 一、什麽是Requests 　　Requests是用Python語言編寫，基於urllib，采用Apache2 Licensed開元協議的HTTP庫。它比urllib更加的方便，可以節約我們大量

python學習之爬蟲：安裝requests模塊

works 2.7 err fix errno 13 lec dna cal logs 終端輸入命令：pip install requests 如果報錯： p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menl

Python爬蟲小記

log tro img 亂碼 python2 想要 utf-8 XML 點擊實習兩個月，小記下自己目前的爬蟲技巧一、爬蟲實際上是模仿我們平時登錄網站的過程，通俗來講就是給服務器發送請求，服務器接受請求並進行解析，並給出回應，在頁面上就得到你想要的界面了。二、用到的工具

python3網絡爬蟲學習——使用requests（1）

返回 hub origin 存儲 python3 中文 json head flat reuqests庫中有很多便捷的方法，比如以GET方式獲得網頁，在requests庫中就是方法get（）,上代碼 import requests r = requests.get(‘ht

進程和線程的區別, 面相對象補充, 進程, 數據共享, 鎖, 進程池, 爬蟲模塊(requests, bs4(beautifulsoup))

request %s 功能 val 差異 http += 共享 str 一. 進程和線程的區別？第一：進程是cpu資源分配的最小單元。線程是cpu計算的最小單元。第二：一個進程中可以有多個線程。第三：

[爬蟲小記] 優秀的requests模組

前言

正文

相關推薦