1. 程式人生 > >python urllib設定代理伺服器爬取資料

python urllib設定代理伺服器爬取資料

瞭解到爬蟲在爬取時,有時會受到ip一定時間內訪問數量的限制,按照網上大神的說法,應當設定通過代理伺服器訪問網頁。

我還沒有爬取過那麼龐大的資料,當前沒遇到這個問題。這裡只是把方法記錄

整體步驟為:

1、設定代理伺服器

2、爬取資料

設定代理伺服器的方法為

import urllib.request
def set_proxy():
    handler = urllib.request.ProxyHandler({'http':'http://131.135.6.59:8080'})
    opener = urllib.request.build_opener(handler)
    return opener

這裡的handler函式需要一個字典函式,前半部分為伺服器地址,冒號後為埠

opener用來建立一個伺服器

第二步是爬取資料

def get_content(url)L
    opener = set_proxy()
    return opener.open(url)

這裡有分支,按照網上大神的說法,可以設定預設伺服器。用到的函式呼叫是urllib.request.install_opener(opener),無返回值,方法呼叫。

這樣的呼叫是重新設定了預設伺服器,爬取資料的時候可以用urllib.request.urlopen(url)進行爬取

相關推薦

python urllib設定代理伺服器資料

瞭解到爬蟲在爬取時,有時會受到ip一定時間內訪問數量的限制,按照網上大神的說法,應當設定通過代理伺服器訪問網頁。我還沒有爬取過那麼龐大的資料,當前沒遇到這個問題。這裡只是把方法記錄整體步驟為:1、設定代理伺服器2、爬取資料設定代理伺服器的方法為import urllib.re

Python爬蟲設定代理IP知乎圖片

本文接著前面兩文中提到的內容來繼續完善我們的Python爬蟲。上文地址:通過Python爬蟲爬取知乎某個問題下的圖片 設定代理的方式很簡單,可以看看這裡Requests的官方文件,這裡也有對應的中文版介紹,點選開啟連結 先簡單說下requests代理的使用,摘自上述提到的文

PythonScript_002_設定代理進行

#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib.request import os # os是電腦環境、sys是Python環境 ''' 構建代理-進行請求 特點:免費的不穩定 Python 3.7.0 ''' # 代理

python】模擬使用者登入資料帶cookie情況處理

#!/usr/bin/env python # -*- coding: utf-8 -*- import urllib.request, urllib.parse, urllib.error import http.cookiejar # 登入地址 LOGIN_URL =

python資料hesder設定cookie

#encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup import os import time import pymysql import xlwt import requests imp

通過pythonurllib.request庫來一只貓

com cat alt cnblogs write amazon 技術分享 color lac 我們實驗的網站很簡單,就是一個關於貓的圖片的網站:http://placekitten.com 代碼如下: import urllib.request respond =

Python 正則練習(一) 國內代理ip

取代 替代 use -a int 5.0 tdi col 則表達式 簡單的正則表達式練習,爬取代理 ip。 僅爬取前三頁,用正則匹配過濾出 ip 地址和 端口,分別作為key、value 存入 validip 字典。 如果要確定代理 ip 是否真的可用,還需要再對代理

selenium+python資料跳轉網頁

專案要做一個四個層級欄的資料抓取,而且點選查詢後資料會在新跳出的網頁。 原始碼如下 註釋解釋 from selenium import webdriver import selenium #from time import sleep as sp url='http://202.127.42.15

python:爬蟲資料的處理之Json字串的處理(2)

#Json字串的處理 Json字串轉化為Python資料型別 import json JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}' Js

python :通過爬蟲資料(1)

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求,返回響應的資料,通過infor接收 infor = urllib.request.urlopen(url)

python 使用selenium和requests頁面資料

目的:獲取某網站某使用者下市場大於1000秒的視訊資訊 1.本想通過介面獲得結果,但是使用post傳送資訊到介面,提示服務端錯誤。 2.通過requests獲取頁面結果,使用html解析工具,發現麻煩而且得不到想要的結果 3.直接通過selenium獲取控制元件的屬性資訊,如圖片、視訊地址,再對時間進行篩選

一個月入門Python爬蟲學習,輕鬆大規模資料

利用爬蟲我們可以獲取大量的價值資料,從而獲得感性認識中不能得到的資訊,這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料,感興趣的朋友一起看看吧 資料獲取方式:Python技術學習QQ群832339352 新增即可免費獲取! Python爬蟲為

Python使用xpath資料返回空列表解決方案積累

筆者以爬取2018年AAAI人工智慧頂會論文元資料為例。其中包括標題(title)和摘要(abstract)等欄位 前言: 首先需要檢視該網頁是否可以爬取,通過在URL後加入/robots,txt可以檢視。 ①tbody問題 URL:2018AAAI的第一篇

如何使用Python資料?看完這篇文章你就懂了!

前段時間小編髮了一篇有關於Python資料型別的文章,由於只是介紹了資料型別,我覺得遠遠不夠,所以呢我現在寫一篇用Python爬取資料的文章來補充。   首先我會介紹如何使用scrapy抓取二手房資料,然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料,感興趣的朋友可

python爬蟲——使用urllib設定代理出現由於目標計算機積極拒絕,無法連線

先說結論 結論 1、檢查自己有沒有被封 3、檢查程式碼,將urllib替換為requests庫,或者不讓urllib全程使用代理 問題分析  出現這個問題第一反應是被封,但隨即否定,自己設定了較合理的等待時間,並且在學校內部,一般網站不會輕易禁掉學校的I

python爬蟲定時增量資料

解決要點: 1.定時更新 2.增量爬取 以上兩個技術關鍵點均可基於scrapy開源爬蟲框架擴充解決 解決 1.定時爬取 在linux下使用crontab來執行scrapy定時爬取的需求。 Crontab命令是Unix系統和類Unix系統中,用來設定週期性執行的

利器--設定代理伺服器

1 import urllib.request 2 3 # 構建兩個代理Handler,一個有代理IP,一個沒有 4 httpproxy_handler = urllib.request.ProxyHandler({"http": "211.141.111.114:61395"}) 5 nullp

python資料熱點詞生成詞雲

這是當時在中國mooc學 用python玩轉資料 時,寫的一個小demo. 程式實現步驟 1.從某一網站爬取資料,比如我是在豆瓣爬取的書評 利用Requests庫的get()爬取網頁 使用BeatifulSoup庫對爬取網頁進行解析。 寫入

Python爬蟲 資料存入MongoDB

from bs4 import BeautifulSoup import requests import time import pymongo client = pymongo.MongoClient('Localhost', 27017) ceshi = client[

python資料並將其存入mongodb

其實很早就想知道如何將爬取到的資料存入資料庫,並且實現前後臺的互動功能,昨天剛剛看了一集關於爬資料並存資料的視訊,今天,在這裡總結一下~ 以下為最終所需要爬取的資訊: 由於需要爬取所有的二手商品資訊,所以以下內容也要爬取到: 1.先寫一個py檔案,用於爬取上述圖片類目導