Python爬蟲基礎——urllib.request

阿新 • • 發佈：2018-12-10

#-*- coding:UTF-8 -*-
#Author Chen Da

import urllib.request
import random

# 所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來；
# User-Agent是爬蟲與反爬蟲的第一步，養成好習慣，傳送請求帶上 。
ua_headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'
}

'''
#user-agent也 可以做成一個列表
ua_headers_list = [
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'
]
#然後在列表裡面隨機選擇一個User-Agent
ua_headers = random.choice(ua_headers_list)
'''

# 通過urllib.request.Request()方法構造一個請求物件
request = urllib.request.Request('http://www.baidu.com/',headers=ua_headers)


# 向指定的url地址傳送請求，並返回伺服器相應的類檔案物件；
# urlopen底層實際上是一個open；
# urlopen中沒寫data請求是get，寫了是post請求；
response = urllib.request.urlopen('http://www.baidu.com/')


# 伺服器返回的類檔案物件支援python檔案物件的操作方法
# 對返回的檔案物件用read（）方法就是讀取檔案裡的全部內容，返回字串
html = response.read()

#列印相應內容
#這裡列印的就是網頁的html原始碼
print(html)

#返回HTTP的響應碼，成功返回200,4伺服器頁面出錯，5伺服器問題
print(response.getcode())

#返回實際資料的實際url，防止重定向403
print(response.geturl())
#返回伺服器相應的HTTP報頭
print(response.info())

Python爬蟲基礎——urllib.request

#-*- coding:UTF-8 -*- #Author Chen Da import urllib.request import random # 所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來； # User-Agent是爬蟲與反爬蟲的第一步，養成

Python爬蟲（urllib.request和BeautifulSoup）

學習urllib.request和beautifulsoup，並從dribbble和behance上爬取了一些圖片，記錄一下。一、urllib.request 1. url的構造構造請求的url遇到的主要問題是如何翻頁的問題，dribbble網站是下拉到底自動載入下

python爬蟲基礎知識（一）--Urllib.request

explain：The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest aut

python模組之urllib.request基礎使用

</script> <script type="text/javascript">var Cookie={set:function(e,t,o,i,s,n){document.cookie=e+"="+(n?t:escape(t))+(s?"; expires="+s.toGMTS

Python爬蟲基礎知識及前期準備

多多指教 arm 讀取第一次小項目網信替換 mark python爬蟲學習爬蟲有一小段時間了，於是決定把自己學爬蟲時所學的，寫過的代碼以及看過的文檔記錄下來，權當小結。第一次寫這些，如果有錯誤，請多指教。首先我們需要了解一下什麽是爬蟲。根據百度百科上給出的定義

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

Python爬蟲基礎與技巧

修改 request對象 enc 語言是我 res 加密 firefox int 基於Python2.71 基本抓取網頁get 方法import urllib2url = "http://www.baidu.com"response = urllib2

python 爬蟲基礎知識(繼續補充)

client 網絡連接安全套接層計算 http 所有 .cn nec 文件上傳學了這麽久爬蟲,今天整理一下相關知識點,還會繼續更新 HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文本傳輸協議）：是一種發布和接收 HTML

python爬蟲基礎，post提交方式復習

.post post請求 HERE int test orm 爬蟲 star tip #-*-coding:utf8-*-#參考學習官方資料 http://docs.python-requests.org/zh_CN/latest/user/quickstart.ht

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

python爬蟲-基礎入門-python爬蟲突破封鎖

python爬蟲-基礎入門-python爬蟲突破封鎖 >> 相關概念　　>> request概念：是從客戶端向伺服器發出請求，包括使用者提交的資訊及客戶端的一些資訊。客戶端可通過HTML表單或在網頁地址後面提供引數的方法提交資料。讓後通過request物件的相關方

Python爬蟲基礎(一）

最近在學習python，順便了解一下網路爬蟲，整理了一下爬蟲基礎（基於py2.7）：獲取網頁資料的三種方法： # encoding=utf-8 import urllib2 def download1(url): return urllib2.urlopen(url

Python爬蟲基礎 | (一)爬蟲基本庫的使用

本篇部落格所有示例使用Jupyter NoteBook演示。 Python爬蟲基礎系列筆記基於：Python3網路爬蟲開發實戰-崔慶才下載密碼：wuuc 示例程式碼下載密碼:02f4 目錄一、簡介二、使用urllib

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

爬蟲學習-urllib.request資訊傳送

爬蟲資訊傳送是一個比較複雜的過程，接下來就簡單學習一下資訊傳送的幾個簡單例項，接下來我們主要使用的是urlopen API： urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cade

Python爬蟲基礎（一）——HTTP

前言　　因特網聯絡的是世界各地的計算機（通過電纜），全球資訊網聯絡的是網上的各種各樣資源（通過文字超連結），如靜態的HTML檔案，動態的軟體程式······。由於全球資訊網的存在，處於因特網中的每臺計算機可以很方便地進行訊息交流、檔案資源交流······。基於因特網的幫助，我們可以在web客戶端（如瀏覽器

python --爬蟲基礎 --爬取今日頭條使用 requests 庫的基本操作, Ajax

'''思路一: 由於是Ajax的網頁,需要先往下劃幾下看看XHR的內容變化二:分析js中的程式碼內容三:獲取一頁中的內容四:獲取圖片五:儲存在本地使用的庫1. requests 網頁獲取庫 2.from urllib.parse import urlencode 將字典轉化為字串內容整

Python爬蟲系列-Urllib庫詳解

Urllib庫詳解 Python內建的Http請求庫: * urllib.request 請求模組 * urllib.error 異常處理模組 * urllib.parse url解析模組 * urllib.robotparser robots.txt解析模組 #### 相比在python2基礎上的變化

Python爬蟲基礎——urllib.request

相關推薦