54. Python 爬蟲（3）

阿新 • • 發佈：2018-01-25

你是需要理解 match 網站 for 3.2 rst e30

【基於python3的版本】

rllib下載：

當不知道urlretrieve方法，寫法如下：

from urllib import request
url = "http://inews.gtimg.com/newsapp_match/0/2711870562/0"
req = request.Request(url)
res = request.urlopen(req)
text = res.read()
with open("2.jpg", "wb") as f:
    f.write(text)

知道urlretrieve方法後，如下：

from urllib import request
url = "http://inews.gtimg.com/newsapp_match/0/2711870562/0"
request.urlretrieve(url, "1.jpg")

urllib的代理（對比Requests的代理方法）：

from urllib import request, parse
data = {
    'first': 'true',
    'pn': 1,
    'kd': 'Python'
}
url = 'http://2017.ip138.com/ic.asp'
# 設置proxy
proxy = request.ProxyHandler({'http': '223.241.78.186:8010'})
# 掛載opener
opener = request.build_opener(proxy)
# 安裝opener
request.install_opener(opener)
data = parse.urlencode(data).encode('utf-8')
page = opener.open(url, data).read()
print(type(page))
print(page.decode("gbk"))

結果：

技術分享圖片

urllib的cookie使用：

如果已經知道cookie，或者說你是通過抓包獲取到的cookie，直接放在header的信息中直接登陸就可以；

登陸京東網站的cookie信息和不登錄京東的cookie信息是不一樣的，你可以登錄京東以後，抓取cookie的信息，然後訪問任何網站就可以了。

import urllib.request
url = "http://www.jd.com"
header = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
          "cookie": "xxxxxxxxx(登錄過得用戶cookie)"
         }
req = urllib.request.Request(url=url, headers=header)
res = urllib.request.urlopen(req)
text = res.read().decode("utf-8")
print (text)

執行結果：

技術分享圖片

學習：

urllib的cookie相關的類

在python2中cookie的類叫做：import cookielib

在python3中cookie的類叫做：import http.cookiejar

opener的概念

當你獲取一個URL你使用一個opener(一個urllib2.OpenerDirector的實例)。在前面，我們都是使用的默認的opener，也就是urlopen。

urlopen是一個特殊的opener，可以理解成opener的一個特殊實例，傳入的參數僅僅是url，data，timeout。

如果我們需要用到Cookie，只用這個opener是不能達到目的的，所以我們需要創建更一般的opener來實現對Cookie的設置。

終端輸出cookie對象

import urllib.request
import http.cookiejar
url = "http://www.hao123.com"
req = urllib.request.Request(url)
cookieh = http.cookiejar.CookieJar()  #保存了cookie對象
handler = urllib.request.HTTPCookieProcessor(cookieh)
#綁定請求，也就是說在一次請求中，只要你進行訪問，他就會保存下來你的cookie信息
opener = urllib.request.build_opener(handler)
r = opener.open(req)
print(cookieh)

打印cookie對象：

<CookieJar[<Cookie BAIDUID=E9770FE732D04AB585E90684F0E307ED:FG=1 for .hao123.com/>, <Cookie hz=0 for .www.hao123.com/>, <Cookie ft=1 for www.hao123.com/>, <Cookie v_pg=normal for www.hao123.com/>]>

將Cookie保存到文件中：

import urllib.request
import http.cookiejar
url = "http://www.hao123.com"
req = urllib.request.Request(url)
cookieFileName = "cookie.txt"
#文件cookie
cookieh = http.cookiejar.MozillaCookieJar(cookieFileName)
handler = urllib.request.HTTPCookieProcessor(cookieh)
opener = urllib.request.build_opener(handler)
r = opener.open(req)
print(cookieh)
cookieh.save()

執行：

保存在了文件cookie.txt中

技術分享圖片

Cookie從文件中讀取cookie信息並訪問：

import urllib.request
import http.cookiejar
cookie_filename = 'cookie.txt'
cookie = http.cookiejar.MozillaCookieJar(cookie_filename)
cookie.load(cookie_filename, ignore_discard=True, ignore_expires=True)
print(cookie)
url = "http://www.hao123.com"
req = urllib.request.Request(url)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)  # 利用urllib2的build_opener方法創建一個opener
response = opener.open(req)
print(response.read().decode("utf-8"))#解決亂碼的問題

54. Python 爬蟲（3）

你是需要理解 match 網站 for 3.2 rst e30 【基於python3的版本】rllib下載：當不知道urlretrieve方法，寫法如下：from urllib import request url = "http://inews.gtimg.

python爬蟲（3）——SSL證書與Handler處理器

pan 高級訪問網站 size cos 中文名 ssl 內核 pos 一、SSL證書問題　　　　　　　　　　　　上一篇文章，我們創建了一個小爬蟲，下載了上海鏈家房產的幾個網頁。實際上我們在使用urllib聯網的過程中，會遇到證書訪問受限的問題。　　　　處理HTTPS

python爬蟲（3）——python爬取大規模資料的的方法和步驟

python爬取大規模資料的的方法和步驟：一、爬取我們所需要的一線連結 channel_extract.py 這裡的一線連結也就是我們所說的大類連結： from bs4 import BeautifulSoup import requests

小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝 Linux 基礎 CentOS 官網： https://www.centos.org/ 。 CentOS 官方下載連結： https://www.cent

python爬蟲（五）：實戰【3. 使用正則來爬創客實驗室】

依然爬取創科實驗室網站中講座的資訊（只爬標題，其它同）但技術上採用requests+正則表示式思想： #通過正則表示式，獲取講座標題規則：<h3>中文字元出現4次任意字元</h3> m = str(re.findall('<h3

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

python基礎（3）：輸入輸出與運算符

http 占位符 str png blog 方法 image 16px 提示今天總結一下最基礎的輸入輸出和運算符輸入： python3裏都是input（""） input() name = input() #輸入的值會直接賦值給name name = i

python手記（3）------字符串

原來 args pri 限定符 style 分別是金額居中對齊 rep 1.字符串格式化----% 　　原來的%： In[2]: a=‘my name is %s and my age is %d‘%(‘eric‘,26) In[3]: a Out[3]: ‘my n

python手記（3）------列表

con 數據 __add__ repr 區別 bsp sed python ever 1.列表list[]----可以包含多種數據對象，相同或不相同都可以。　　 list1=[1,2,‘ok‘,[1,2,3,4,5],True,‘瑞文‘] In[15]: list1 O

python爬蟲（一）

返回沒有發現學習內容部分訪問 family 司機獲得 1.首先你需要一些Python的基礎知識和相關的開發環境，沒有相關基礎的同學推薦可以先去網易雲的Mooc觀看學習相關教程 2.什麽是網絡爬蟲？　　我們上網會在瀏覽器中輸入連接，然後服務器會返回給我們相關的信

python基礎（3）---流程控制

組成不同一個 if語句 range inpu n-1 一是選擇　　流程控制　　與C語言不通的是python的流程控制代碼塊不是用{}花括號表示的，而是強制縮進來控制的；而且縮進必須一致，官方推薦是使用4個空格，不建議使用tab（制表符）做縮進，一是不同的系統tab

53. Python 爬蟲（2）

expires www. als aid rgb user col pri request CookieRequests通過會話信息來獲取cookie信息Cookie的五要素： Name value domain path expires打印cookie

55. Python 爬蟲（4）

wait login 插件 asc 16px 全自動搜索欄 find tao webdriverSelenium是ThroughtWorks公司開發的一套Web自動化測試工具。它分為三個組件：Selenium IDE Selenium RC (Remote Control

python爬蟲（1）

log 圖片 resp color 解析url www. blog robots gbk 　　在開始學習爬蟲之前，我花了大概兩周時間來熟悉python3的基本語法。　　相比較於我的啟蒙語言VB，python的優美之處讓我深有體會。人生苦短，我用python！一、關於爬蟲

python爬蟲（4）——正則表達式（一）

做了 cati 二手房表達發展他能 query nta package 　　　　在前幾篇文章中我們使用了python的urllib模塊，做了一些訪問網頁的工作。現在介紹一個非常強大的工具——正則表達式。在講述正則的時候，我參考了《精通正則表達式（第三版） --

python爬蟲（5）——正則表達式（二）

org handle uil urlopen 意思 esp 下載 header 因此　　　　前一篇文章，我們使用re模塊來匹配了一個長的字符串其中的部分內容。下面我們接著來作匹配“[email protected] advantage 314159265358 18

python爬蟲（6）——正則表達式（三）

dpa 方法 d+ 調用我只 open write pid dump 　　　　下面，我再寫一個例子，加強對正則表達式的理解。還是回到我們下載的那個二手房網頁，在實際中，我們並不需要整個網頁的內容，因此我們來改進這個程序，對網頁上的信息進行過濾篩選，並保存我們需要的內容。打

Python3網絡爬蟲（3）：使用User Agent和代理IP隱藏身份

pycharm info 3.1 port rm2 andro python uil blank Python版本：　python3 IDE:　　　　　 pycharm2017.3.3 一、為何要設置User Agent 　　有一些網站不喜歡被爬蟲訪問，所以會檢測對象

Python+numpy（3）.md

san 運算 sof 默認 indent rgba repeat CP imu Python numpy 1.1Python科學計算的介紹參考資料： http://old.sebug.net/paper/books/scipydoc/numpy_intro.htm

Python爬蟲（二）網絡爬蟲的尺寸與約束

.cn 哪些 com 尺寸網頁 inf robot robots 搜索 Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、網絡爬蟲的尺寸： 1.小規模，數據量小，爬取速度不敏感，Requests庫，爬取網頁 2.中規模，數據

54. Python 爬蟲（3）

相關推薦