學習筆記 urllib

阿新 • • 發佈：2018-05-15

代理ip utf-8 imp post 正則 2.3 ext handler data

第一步：

get

# -*- coding:utf-8  -*-
# 日期：2018/5/15 19:39
# Author:小鼠標
from urllib import request

url = ‘http://news.sina.com.cn/guide/‘
response = request.urlopen(url)  #返回http對象
web_data = response.read().decode(‘utf-8‘)  #響應內容
web_status = response.status                #響應狀態碼
print(web_status,web_data)

post

# -*- coding:utf-8  -*-
# 日期：2018/5/15 19:39
# Author:小鼠標
from urllib import request,parse

url = ‘http://news.sina.com.cn/guide/‘
#post表單提交的內容
data = [
    (‘name‘,‘xiaoshubiao‘),
    (‘pwd‘,‘xiaoshubiao‘)
]
login_data = parse.urlencode(data).encode(‘utf-8‘)
response = request.urlopen(url,data = login_data)  # 
返回http對象
web_data = response.read().decode(‘utf-8‘)  #響應內容
web_status = response.status                #響應狀態碼
print(web_status,web_data)

第二步：偽裝瀏覽器

# -*- coding:utf-8  -*-
# 日期：2018/5/15 19:39
# Author:小鼠標
from urllib import request,parse

url = ‘http://news.sina.com.cn/guide/‘
req = request.Request(url) 
req.add_header( 
‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36‘)
req.add_header(‘Accept‘,‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘)
response = request.urlopen(req)
web_data = response.read().decode(‘utf-8‘)  #響應內容
web_status = response.status                #響應狀態碼
print(web_status,web_data)

第三步：使用代理ip

# -*- coding:utf-8  -*-
# 日期：2018/5/15 19:39
# Author:小鼠標
from urllib import request,parse

url = ‘http://news.sina.com.cn/guide/‘
req = request.Request(url)
#使用代理ip
proxy = request.ProxyHandler({‘http‘:‘221.207.29.185:80‘})
opener = request.build_opener(proxy, request.HTTPHandler)
request.install_opener(opener)

req.add_header(‘User-Agent‘,‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.3964.2 Safari/537.36‘)
req.add_header(‘Accept‘,‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘)
response = request.urlopen(req)
web_data = response.read().decode(‘utf-8‘)  #響應內容
web_status = response.status                #響應狀態碼
print(web_status,web_data)

第四步：內容解析

　　可以使用封裝好的BeautifulSoup，也可以使用re正則來匹配，原理都差不多。

學習筆記 urllib

代理ip utf-8 imp post 正則 2.3 ext handler data 第一步： get # -*- coding:utf-8 -*- # 日期：2018/5/15 19:39 # Author:小鼠標 from urllib import reques

爬蟲學習筆記-urllib庫

服務器中一 9.png tro 編碼網頁如果 str param urllib庫是python中一個最基本的網絡請求庫。可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並可以保存服務器返回的數據。 urlopen函數：在python3的urllib庫中，所有和網絡請

python爬蟲學習筆記-urllib的使用

學習爬蟲，最基本的操作即為模擬瀏覽器向伺服器發出請求，python內建了一個名為urllib的內建HTTP請求庫，有了它，我們只需要關心請求的連結是什麼，需要傳遞什麼引數，以及設定請求頭等其他資訊即可。這樣，我們就不用深入底層的連線具體是怎樣傳輸和通訊（當然，這是站在巨人的肩膀上）。urll

Python3學習筆記 urllib模組的使用

1.基本方法 url: 需要開啟的網址 data：Post提交的資料 timeout：設定網站的訪問超時時間直接用urllib.request模組的urlopen（）獲取頁面，page的資料格式為bytes型別，需要decode（）解碼，轉換成str型

Python學習筆記22（urllib模塊）

ror 轉換 decode urllib模塊 one 處理 context hello mpat Python3和Python2的urllib模塊不太一樣，本篇文章是以Python3為前提。 1.urlopen的使用 import urllib.request urll

模塊urllib requests json xml configparser 學習筆記

iter gpa get section 根節點 element empty remove pretty 發起http請求獲取返回值返回值是字符串第三方模塊安裝 pip install requests 返回值格式 xml html jaon json 功能

【轉】Python3學習筆記（urllib模塊的使用）

nal 方法 utf 網址 pin des IE tps erer 原文地址：https://www.cnblogs.com/Lands-ljk/p/5447127.html 1.基本方法 urllib.request.urlopen(url, data=None, [ti

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

python學習筆記：網絡請求——urllib模塊

.com auto pos code html 數據 () python學習標準 python操作網絡，也就是打開一個網站，或者請求一個http接口，可以使用urllib模塊。urllib模塊是一個標準模塊，直接import urllib即可，在python3裏面只有ur

python學習筆記：網路請求——urllib模組

python操作網路，也就是開啟一個網站，或者請求一個http介面，可以使用urllib模組。urllib模組是一個標準模組，直接import urllib即可，在python3裡面只有urllib模組，在python2裡面有urllib模組和urllib2模組 Urllib是python內

爬蟲學習筆記【1】使用 urllib 獲取 www 資源

1. 掌握普通網頁的獲取方法檢視 urllib.request 的基本資訊 urllib.request 中最常用的方法是 urlopen() ,它也是我們使用 urllib 獲取普通網頁的基本方法。在應用之前，我們先看一下 urllib 的原始碼，這是從事IT軟體類

Python3爬蟲學習筆記（1.urllib庫詳解）

1.什麼是爬蟲：略，到處都有講解。雖然是入門，不過沒有Python基礎的同學看起來可能費勁，建議稍學下Python 之前學習前端知識也是為了能看懂HTML，便於爬蟲學習，建議瞭解下前端知識 2.re

利用urllib讀取JSON，然後將JSON解析為Python物件 —— python學習筆記

1. 題目：請利用urllib讀取JSON，然後將JSON解析為python物件：題目的意思是使用urllib訪問一個介面，這個介面會放回json格式的資料，請將這一資料解析成python物件。題目是廖雪峰老師的python教程中urllib的練習。本篇博文只是針對這一題目，沒有

python-urllib庫學習筆記

import urllib.request, urllib.parse ''' urllib常用的請求語句 ''' url = '' # 傳送請求 res = urllib.request.urlopen(url=url) # 讀取請求到的內容 res.read().de

python3爬蟲學習筆記（一）初入爬蟲 urllib學習

一、爬蟲是什麼網路爬蟲（也叫做網頁蜘蛛），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。如果把網際網路比做成一個大的蜘蛛網，蜘蛛網上每個節點都有大量的資料，爬蟲就像一隻小蜘蛛通過網頁的地址找到網站並獲取資訊：HTML程式碼/JSON資料/二進位制資料（圖

Robot Operating System (ROS)學習筆記4---語音控制

sla 語音出現 tput http 學習 process 輸入 ubun 搭建環境：XMWare Ubuntu14.04 ROS（indigo）轉載自古月居轉載連接：http://www.guyuehome.com/260 一、語音識別包 1、安裝

MySQL學習筆記（六）—— MySQL自連接

概念 cor 子查詢 ron 表操作例子質量 _id order by 有的時候我們需要對同一表中的數據進行多次檢索,這個時候我們可以使用之前學習過的子查詢,先查詢出需要的數據,再進行一次檢索。例如:一張products表,有產品id,供應商id(vend_

jquery 深入學習筆記之中的一個（事件綁定）

color 動態 name his pan mouseover this pre con 【jquery 事件綁定】 1、加入元素事件綁定 (1) 加入事件為當前元素 $(‘p‘).on(‘click‘,function(){ //code here ..

AngularJS入門學習筆記一

rect directive 技術分享 attr 兩個 ava 內容 module 大括號首先聲明：本博客源自於學習：跟我學AngularJs:AngularJs入門及第一個實例。通過學習，我自己的一些學習筆記。 1.AngularJS的一些基本特性（1）使用雙大括號

學習筆記 urllib

第一步：

get

post

第二步：偽裝瀏覽器

第三步：使用代理ip

第四步：內容解析

相關推薦