1.1-Python爬蟲案例演示urllib/requests

阿新 • • 發佈：2018-11-25

Python爬蟲urllib/requests

1.urllib模組

一個簡單的Python爬蟲框架-案例v1

from urllib import request
'''
使用urllib.request請求一個網頁內容，並把內容打印出來
'''


if __name__ == '__main__':

    url = "http://jobs.zhaopin.com/195435110251173.htm?ssidkey=y&ss=409&ff=03&sg=2644e782b8b143419956320b22910c91&so=1"
    # 開啟相應url並把相應頁面作為返回
    rsp = request.urlopen(url)

    # 把返回結果讀取出來
    # 讀取出來內容型別為bytes
    html = rsp.read()
    print(type(html))

    # 如果想把bytes內容轉換成字串，需要解碼
    html = html.decode("utf-8")

    print(html)

chardet 網頁編碼問題-案例v2

'''
利用request下載頁面
自動檢測頁面編碼

'''

import urllib
import chardet

if __name__ == '__main__':
    url = 'http://stock.eastmoney.com/news/1407,20170807763593890.html'

    rsp = urllib.request.urlopen(url)

    html = rsp.read()

    #利用 chardet自動檢測
    cs = chardet.detect(html)
    print(type(cs))
    print(cs)


    # 使用get取值保證不會出錯
    html = html.decode(cs.get("encoding", "utf-8"))
    print(html)

urlopen返回物件-案例v3

import urllib

if __name__ == '__main__':
    url = 'http://stock.eastmoney.com/news/1407,20170807763593890.html'

    rsp = urllib.request.urlopen(url)

    print(type(rsp))
    print(rsp)


    print("URL： {0}".format( rsp.geturl()))
    print("Info: {0}".format(rsp.info()))
    print("Code: {0}".format(rsp.getcode()))

    html = rsp.read()


    # 使用get取值保證不會出錯
    html = html.decode()

request.data的使用get-案例v4

from urllib import request, parse

'''
掌握對url進行引數編碼的方法
需要使用parse模組
'''

if __name__ == '__main__':

    url = 'http://www.baidu.com/s?'
    wd = input("Input your keyword:")


    # 要想使用data， 需要使用字典結構
    qs = {
        "wd": wd
    }

    # 轉換url編碼
    qs = parse.urlencode(qs)
    print(qs)

    fullurl = url + qs
    print(fullurl)

    # 如果直接用可讀的帶引數的url，是不能訪問的
    #fullurl = 'http://www.baidu.com/s?wd=大熊貓'

    rsp = request.urlopen(fullurl)

    html = rsp.read()


    # 使用get取值保證不會出錯
    html = html.decode()

    print(html)

request.post的使用-案例v5

'''
利用parse模組模擬post請求
分析百度詞典
分析步驟：
1. 開啟F12
2. 嘗試輸入單詞girl，發現每敲一個字母后都有請求
3. 請求地址是 http://fanyi.baidu.com/sug
4. 利用NetWork-All-Hearders，檢視，發現FormData的值是 kw:girl
5. 檢查返回內容格式，發現返回的是json格式內容==>需要用到json包
'''

from urllib import request, parse
# 負責處理json格式的模組
import json

'''
大致流程是：
1. 利用data構造內容，然後urlopen開啟
2. 返回一個json格式的結果
3. 結果就應該是girl的釋義
'''

baseurl = 'http://fanyi.baidu.com/sug'


# 存放用來模擬form的資料一定是dict格式
data = {
    # girl是翻譯輸入的英文內容，應該是由使用者輸入，此處使用硬編碼
    'kw': 'girl'
}

# 需要使用parse模組對data進行編碼
data = parse.urlencode(data).encode("utf-8")

print(type(data))
#  我們需要構造一個請求頭，請求頭部應該至少包含傳入的資料的長度
# request要求傳入的請求頭是一個dict格式

headers = {
    # 因為使用post，至少應該包含content-length 欄位
    'Content-Length':len(data)
}


# 有了headers，data，url，就可以嘗試發出請求了
rsp = request.urlopen(baseurl, data=data)

json_data = rsp.read().decode('utf-8')
print( type(json_data))
print(json_data)


# 把json字串轉化成字典
json_data = json.loads(json_data)
print(type(json_data))
print(json_data)


for item in json_data['data']:
    print(item['k'], "--", item['v'])

request.data的使用：request.request類

'''
任務要求和內容跟V5 一樣
本案例只是利用Request來實現v5的內容

利用parse模組模擬post請求
分析百度詞典
分析步驟：
1. 開啟F12
2. 嘗試輸入單詞girl，發現每敲一個字母后都有請求
3. 請求地址是 http://fanyi.baidu.com/sug
4. 利用NetWork-All-Hearders，檢視，發現FormData的值是 kw:girl
5. 檢查返回內容格式，發現返回的是json格式內容==>需要用到json包
'''

from urllib import request, parse
# 負責處理json格式的模組
import json

'''
大致流程是：
1. 利用data構造內容，然後urlopen開啟
2. 返回一個json格式的結果
3. 結果就應該是girl的釋義
'''

baseurl = 'http://fanyi.baidu.com/sug'


# 存放用來模擬form的資料一定是dict格式
data = {
    # girl是翻譯輸入的英文內容，應該是由使用者輸入，此處使用硬編碼
    'kw': 'girl'
}

# 需要使用parse模組對data進行編碼
data = parse.urlencode(data).encode("utf-8")

#  我們需要構造一個請求頭，請求頭部應該至少包含傳入的資料的長度
# request要求傳入的請求頭是一個dict格式

headers = {
    # 因為使用post，至少應該包含content-length 欄位
    'Content-Length':len(data)
}

# 構造一個Request的例項
req = request.Request(url=baseurl, data=data, headers=headers)

# 因為已經構造了一個Request的請求例項，則所有的請求資訊都可以封裝在Request例項中
rsp = request.urlopen(req)

json_data = rsp.read().decode('utf-8')
print( type(json_data))
print(json_data)


# 把json字串轉化成字典
json_data = json.loads(json_data)
print(type(json_data))
print(json_data)


for item in json_data['data']:
    print(item['k'], "--", item['v'])

urllib.error:URLError產生的原因-案例v7

'''\
URLError的使用
'''

from urllib import request, error


if __name__ == '__main__':

    url = "http://www.baiiiiiiiiiidu.com"

    try:

        req = request.Request(url)
        rsp = request.urlopen( req )
        html = rsp.read().decode()
        print(html)

    except error.URLError as e:
        print("URLError: {0}".format(e.reason))
        print("URLError: {0}".format(e))

    except Exception as e:
        print(e)

urllib.error：HTTPError-案例v8

'''\
URLError的使用
'''

from urllib import request, error


if __name__ == '__main__':

    url = "http:iiiiiiiiidu//www.baidu.com/welcome.html"

    url = "http://www.sipo.gov.cn/www"
    try:

        req = request.Request(url)
        rsp = request.urlopen( req )
        html = rsp.read().decode()
        print(html)

    except error.HTTPError as e:
        print("HTTPError: {0}".format(e.reason))
        print("HTTPError: {0}".format(e))

    except error.URLError as e:
        print("URLError: {0}".format(e.reason))
        print("URLError: {0}".format(e))

    except Exception as e:
        print(e)

UserAgent:使用者代理-案例v9


'''
訪問一個網址
更改自己的UserAgent進行偽裝
'''
from urllib import request, error


if __name__ == '__main__':

    url = "http://www.baidu.com"

    try:

        # 使用head方法偽裝UA
        # headers = {}
        # headers['User-Agent'] = 'Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3'
        # req = request.Request( url, headers=headers)

        # 使用add_header方法
        req = request.Request(url)
        req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36")

        # 正常訪問
        rsp = request.urlopen( req )
        html = rsp.read().decode()
        print(html)

    except error.HTTPError as e:
        print(e)
    except error.URLError as e:
        print(e)
    except Exception as e:
        print(e)

    print("DONE>.............")

ProxyHandler代理伺服器處理-案例v10

'''
使用代理訪問百度網站


'''


from urllib import  request, error


if __name__ == '__main__':

    url = "http://www.baidu.com"

    # 使用代理步驟
    # 1. 設定代理地址
    proxy = {'http': '120.194.18.90:81' }
    # 2. 建立ProxyHandler
    proxy_handler = request.ProxyHandler(proxy)
    # 3. 建立Opener
    opener = request.build_opener(proxy_handler)
    # 4. 安裝Opener
    request.install_opener( opener)

    # 現在如果訪問url，則使用代理伺服器
    try:
        rsp = request.urlopen(url)
        html = rsp.read().decode()
        print(html)
    except error.URLError as e:
        print(e)
    except Exception as e:
        print(e)

1.1-Python爬蟲案例演示urllib/requests

Python爬蟲urllib/requests 1.urllib模組一個簡單的Python爬蟲框架-案例v1 from urllib import request ''' 使用urllib.request請求一個網頁內容，並把內容打印出來 ''' if __name__ == '__main__'

1.0 -Python爬蟲-Urllib/Requests

0 爬蟲準備工作參考資料 python網路資料採集，圖靈工業出版精通Python爬蟲框架Scrapy，人民郵電出版社 Python3網路爬蟲 Scrapy官方教程前提知識 url http協議 web前端，h

python爬蟲學習筆記——使用requests庫編寫爬蟲（1）

首先感謝http://python.jobbole.com ，我是看了此站的文章之後才有寫此文的想法，本人也是開始學python不久，此文僅僅是記錄一些學習過程中遇到的問題，邊學邊寫，初次寫這樣的博文，差錯在所難免，如有差錯也請指出，感激不盡。

【1】python爬蟲入門，利用bs4以及requests獲取靜態網頁

注：本文僅適用於爬蟲初級入門者，並不涉及太多技術本質感謝您閱讀此文。最近放假在家，閒時無聊，開始入門了python爬蟲，可以完成一些基本的資料爬取（對於一些反爬取例如JS渲染，介面加密等頁面仍然處於學習之中），本文就是簡單總結最近已熟練掌握的爬取靜態網頁的方法。若是從未

Python爬蟲：認識urllib/urllib2以及requests

更多查看 sts urllib2 chrome 超時設置 word 3.0 erro 首先說明一下我的爬蟲環境是基於py2.x的，為什麽用這個版本呢，因為py2.x的版本支持的多，而且一般會使用py2.x環境，基本在py3.x也沒有太大問題，好了，進入正題！ urlli

1，Python爬蟲環境的安裝

一起公司興趣 cbi 輸出 dvr 語言 download pycha 很早以前就聽說了Python爬蟲，但是一直沒有去了解；想著先要把一個方面的知識學好再去了解其他新興的技術。但是現在項目有需求，要到網上爬取一些信息，然後做數據分析。所以便從零開始學習Pyt

爬蟲筆記1：Python爬蟲常用庫

請求庫：1、urllib：urllib庫是Python3自帶的庫（Python2有urllib和urllib2，到了Python3統一為urllib），這個庫是爬蟲裡最簡單的庫。2、requests：requests屬於第三方庫，使用起來比urllib要簡單不少，且功能更加強大，是最常用的請求庫。3、S

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

Python 爬蟲案例-web微信登陸與消息發送

recv 遺憾內部 set rmq view ons ats ascii 首先回顧下網頁微信登陸的一般流程　　1、打開瀏覽器輸入網址　　2、使用手機微信掃碼登陸　　3、進入用戶界面 1、打開瀏覽器輸入網址首先打開瀏覽器輸入web微信網址，並進行監控： h

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

自學Python爬蟲（二）Requests庫的使用

前言 Urllib和requests庫都是python3中傳送請求的庫，但是比較而言，Requests庫更加強大和易用，所以學習python3就不要學習urllib了，2020年python2的庫就不再更新，所以我們學習python3更有意義！例項引入 import requ

python爬蟲系列(2.3-requests庫模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object): """ 模擬登入拉鉤網 """

python爬蟲系列(2.2-requests庫的高階使用)

一、設定代理ip 1、直接在請求的時候加上proxies就可以,注意我們一般會寫上http和https的,這樣當遇到http請求就會走http字典對應的代理 2、具體程式碼 import requests if __name__ == "__main__":

python爬蟲學習筆記-urllib的使用

學習爬蟲，最基本的操作即為模擬瀏覽器向伺服器發出請求，python內建了一個名為urllib的內建HTTP請求庫，有了它，我們只需要關心請求的連結是什麼，需要傳遞什麼引數，以及設定請求頭等其他資訊即可。這樣，我們就不用深入底層的連線具體是怎樣傳輸和通訊（當然，這是站在巨人的肩膀上）。urll

python爬蟲，使用urllib + 正則

學習使用urllib + 正則爬取熊貓TV的直播，獲取直播人和直播人氣，並且進行了排序 from urllib import request import re class Spider(): url = 'https://www.panda.tv/cate/dota2'

Python爬蟲第四篇--Requests庫

Requests簡介 Requests是基於urllib的python庫，比urllib庫更方便採用Apache2 Licensed開源協議的HTTP庫 MacOS安裝：pip3 install requests 例項 import req

python爬蟲入門(二)：Requests的使用

雖然Python有內建的urllib庫，可以實現網路的請求，但是我並不推薦。因為urllib在很多時候使用起來不方便，比如加一個代理，處理Cookie時API都很繁瑣，再比如傳送一個POST請求也很麻煩。而Requests就相當於urllib的升級版本，簡

Python爬蟲案例：抓取豆瓣程式設計類高評分書籍

對於很多正在學習計算機的朋友來說，選擇合適的學習材料是非常重要的。本文將通過 Python 來爬取豆瓣程式設計類評分大於 9.0 的書籍。此案例很適合入門爬蟲的朋友學習，總共也就 3 個函式。下圖是最終的結果：下面進入正題：一、採集源分析：首先我們

1.1-Python爬蟲案例演示urllib/requests

Python爬蟲urllib/requests

1.urllib模組

相關推薦