Python網路爬蟲（1）--url訪問及引數設定

阿新 • • 發佈：2019-01-14

標籤：

環境：Python2.7.9 / Sublime Text 2 / Chrome

1.url訪問，直接呼叫urllib庫函式即可

import urllib2

url=‘http://www.baidu.com/‘
response = urllib2.urlopen(url)
html=response.read()

print html

2.帶引數的訪問，以baidu搜尋功能為例

使用Chrome瀏覽器訪問效果，Chrome搜尋引擎設定為baidu，位址列中輸入test，效果如下：

修改程式碼，增加訪問引數

# coding=utf-8
import urllib
import 
 urllib2

#url地址
url=‘https://www.baidu.com/s‘
#引數
values={
        ‘ie‘:‘UTF-8‘,
        ‘wd‘:‘test‘   
        }
#進行引數封裝
data=urllib.urlencode(values)
#組裝完整url
req=urllib2.Request(url,data)

#訪問完整url
response = urllib2.urlopen(req)
html=response.read()

print html

執行程式碼，得到結果為

提示訪問頁面不存在，這個時候需要考慮一下訪問方式的問題。urllib2.Request(url,data) 訪問方式為POST方式，需要改用GET方式進行嘗試，更改程式碼為

# coding=utf-8
import urllib
import urllib2

#url地址
url=‘https://www.baidu.com/s‘
#引數
values={
        ‘ie‘:‘UTF-8‘,
        ‘wd‘:‘test‘   
        }
#進行引數封裝
data=urllib.urlencode(values)
#組裝完整url
#req=urllib2.Request(url,data)
url=url+‘?‘+data

#訪問完整url
#response = urllib2.urlopen(req)
response = urllib2.urlopen(url)
html 
=response.read()

print html

再次執行，獲得結果為

https發生了重定向，需要改用http

# coding=utf-8
import urllib
import urllib2

#url地址
#url=‘https://www.baidu.com/s‘
url=‘http://www.baidu.com/s‘
#引數
values={
        ‘ie‘:‘UTF-8‘,
        ‘wd‘:‘test‘   
        }
#進行引數封裝
data=urllib.urlencode(values)
#組裝完整url
#req=urllib2.Request(url,data)
url=url+‘?‘+data

#訪問完整url
#response = urllib2.urlopen(req)
response = urllib2.urlopen(url)
html=response.read()

print html

再次執行，可實現正常訪問

標籤：

Python網路爬蟲（1）--url訪問及引數設定

標籤：環境：Python2.7.9 / Sublime Text 2 / Chrome 1.url訪問，直接呼叫urllib庫函式即可 import urllib2 url=‘http://www.baidu.com/‘ response = urllib2.urlopen(url) html=re

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

一、網路爬蟲的定義網路爬蟲，即Web Spider，是一個很形象的名字。把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內容，找到在網頁中的其它連結地址

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=F

python網路爬蟲（一）

網路爬蟲之前奏網路爬蟲之規則 Requests庫入門 requests庫的安裝 requests的詳細資訊 Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。 requests庫安裝成功與否的測試

用Python寫爬蟲（1）

一、網路爬蟲與搜尋引擎的關係爬蟲相當於眼睛和耳朵，是收集資料的。引擎相當於大腦，是理解和處理資料的。搜尋引擎大致可分為四個子系統：下載系統、分析系統、索引系統、查詢系統。而爬蟲只是下載系統上圖是搜尋引擎的一

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細節。 1.Proxy 的設定 urllib2 預設會使用環境變數 http_proxy 來設定 HTTP Proxy。如果想在程式中明確控制 Proxy 而不受環境變數的影響，可以使用代理。

[ python ] 網路程式設計（1）

在本地電腦上有兩個python檔案 regist.py 、login.py 一個註冊，一個登入。這兩個python一個是寫使用者資訊，一個是讀使用者資訊，要怎麼做呢？通過之前的知識，我們可以通過 regist.py 序列化一個數據並持久儲存到磁碟上，然後 login.py 在取讀取這個檔案就行。 &

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

前言：最近正在學習Python網路爬蟲，學到selenium，需要用到chrome瀏覽器的驅動，但是網上的很多地址都被牆了，而且沒有準確的驅動和chrome版本的對映，很麻煩。現在我已經解決了這些問題，現在把對映和下載連結分享出來。（一）檢視chrome

python網路爬蟲（五）:併發抓取

在進行單個爬蟲抓取的時候，我們不可能按照一次抓取一個url的方式進行網頁抓取，這樣效率低，也浪費了cpu的資源。目前python上面進行併發抓取的實現方式主要有以下幾種：程序，執行緒，協程。程序不在的討論範圍之內，一般來說，程序是用來開啟多個spider，比如我

Python網路爬蟲（四）：視訊下載器

這一節實現一個下載 iqiyi VIP視訊的爬蟲。需要的準備：旋風視訊VIP解析網站或其他解析網站原理理解：在視訊解析網站獲取視訊的過程中，首先會向視訊伺服器傳送GET請求，獲得伺服器發來的資訊；接到資訊後，再向伺服器POST資料，即將類似於密碼

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

Python網路爬蟲（七）：解決ImportError:DLL load failed：作業系統無法執行問題

背景： Python版本：Anaconda3 問題描述：最近在執行scrapy專案時，本來安裝好好的scrapy框架突然報錯，猝不及防， ImportError:DLL load failed：作業系統無法執行%1 如圖：自己也是百思

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麼接下來我們一起來看一下Cookie的使用。為什麼要使用Cookie呢？ Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）比如說有些網站需要登入後才

手把手教你寫網路爬蟲（1）：網易雲音樂歌單

Selenium：是一個強大的網路資料採集工具，其最初是為網站自動化測試而開發的。近幾年，它還被廣泛用於獲取精確的網站快照，因為它們可以直接執行在瀏覽器上。Selenium 庫是一個在WebDriver 上呼叫的API。WebDriver 有點兒像可以載入網站的瀏覽器，但是它也可以像BeautifulSoup

[Python]網路爬蟲（四）：Opener與Handler

在開始後面的內容之前，先來解釋一下urllib2中的兩個個方法：info and geturl urlopen返回的應答物件response(或者HTTPError例項)有兩個很有用的方法info()和geturl() 1.geturl()： geturl()返回獲

Python3網路爬蟲——（1）利用urllib進行簡單的網頁抓取

利用urllib進行簡單的網頁抓取urllib是Python提供的用於操作URL的模組l、快速使用urllib爬取網頁# -*- coding: UTF-8 -*- from urllib import

【爬蟲】手把手教你寫網路爬蟲（1）

介紹什麼是爬蟲？先看看百度百科的定義: 簡單的說網路爬蟲（Web crawler）也叫做網路鏟（Web scraper）、網路蜘蛛（Web spider），其行為一般是先“爬”到對應的網頁上，再把需要的資訊“鏟”下來。為什麼學習爬蟲？看到這裡，有人就要問了：Google、百度等

python3實現網路爬蟲（1）--urlopen抓取網頁的html

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送GET請求以獲取具體的網頁，再從網頁中讀取HTML內容。我們大家平時都使用網路瀏覽器，並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

Python網路爬蟲（1）--url訪問及引數設定

相關推薦