1. 程式人生 > >python爬蟲入門urllib庫的使用

python爬蟲入門urllib庫的使用

urllib庫的使用,非常簡單。

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.read()

只要幾句程式碼就可以把一個網站的原始碼下載下來。

官方文件:https://docs.python.org/2/library/urllib2.html

urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])

urlopen 只要用到前面3個引數,url, data:提交的資料. timeout:超時

也可以這樣使用:

import urllib2

request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

這種用法比較常見。

 我們用php建立一個表單,然後用urllib2模擬表單提交

<!doctype html>
<html>
    <head>
        <meta charset="utf-8" />
    </head>
    <body>
        <?php
            
if( isset( $_REQUEST['submit'] ) ) { $username = $_REQUEST['username']; $userpwd = $_REQUEST['password']; if( $username == 'ghostwu' && $userpwd = 'abc123') { echo "login success"; }else{ echo "login error"; } }
?> <form action="/index.php" method="get"> username: <input type="text" name="username" /><br/> password: <input type="password" name="password" /><br/> <input type="submit" value="submit" name="submit" /> </form> </body> </html>

接下來,我們先用get方式提交【備註:域名是我本地的,你需要用本地host對映,相應的伺服器域名和ip】

#coding:utf-8

import urllib
import urllib2

values = { "username" : "ghostwu", "password" : "abc123", "submit" : "submit" }
data = urllib.urlencode( values )
url = "http://mesite.ghostwu" + "?" + data
request = urllib2.Request( url )
response = urllib2.urlopen( request )
print response.read()

執行之後,如果把使用者名稱或者密碼該錯,就會出現login error.

post提交方式,當然你要把php表單改成post提交.

#!/usr/bin/python
#coding:utf-8

import urllib
import urllib2

values = { "username" : "ghostwu2", "password" : "abc123", "submit" : "submit" }
data = urllib.urlencode( values )
url = "http://mesite.ghostwu"
request = urllib2.Request( url, data )
response = urllib2.urlopen( request )
print response.read()

相關推薦

python爬蟲入門urllib的使用

urllib庫的使用,非常簡單。 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 只要幾句程式碼就可以把一個網站的原始碼下載下來。 官方文件:https://d

python 網路爬蟲入門-Urllib的基本使用

學習來源:http://www.cnblogs.com/xin-xin/p/4297852.html 1.分分鐘扒一個網頁下來 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print respon

Python爬蟲系列-Urllib詳解

Urllib庫詳解 Python內建的Http請求庫: * urllib.request 請求模組 * urllib.error 異常處理模組 * urllib.parse url解析模組 * urllib.robotparser robots.txt解析模組 #### 相比在python2基礎上的變化

Python爬蟲Urllib的基本使用

狀態碼 chrom 異常處理 false 基本 sta col thead kit # get請求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(

爬蟲入門 -> urllib中request模組的基本使用(筆記二)

urllib庫中request模組的基本使用   request模組是urllib中最基本的HTTP請求模組,可以用來模擬傳送請求。 urlopen方法 基本使用   要使用request模組來模擬傳送請求,最基本方法就是urlopen方法,其主要引數就是一個

Python爬蟲入門三之Urllib的基本使用

res 瀏覽器中 必須 答案 文件的 網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來 怎樣扒網頁呢?其實就是根據URL來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一段HTML代碼,加 JS、CSS

Python爬蟲入門Urllib的基本使用

logs 模擬 第一個 tps 出了 訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來 怎樣扒網頁呢?其實就是根據URL來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它 是一段HTML代碼,加 JS、

Python爬蟲入門四之Urllib的高階用法

1.設定Headers 有些網站不會同意程式直接用上面的方式進行訪問,如果識別有問題,那麼站點根本不會響應,所以為了完全模擬瀏覽器的工作,我們需要設定一些Headers 的屬性。 首先,開啟我們的瀏覽器,除錯瀏覽器F12,我用的是Chrome,開啟網路監聽,示意如下,

python爬蟲入門七:pymysql

我們使用python爬取得到的資料,有時候會資料量特別大,需要存入資料庫。 需要注意的是,MySQL是一種關係型資料庫管理系統,利用MySQL可以對資料庫進行操作,而MySQL並不是一個數據庫。 而pymysql庫的作用就是在python中對MySQL進行操作。   簡單來說,使用pymys

Python爬蟲入門:使用urllib模組獲取請求頁面資訊

  歡迎來到拖更王的小部落格,天天想著要把學習和工作中遇到的內容釋出到空間,但是因為忙總是忘(這個藉口真好)。以後還應該會堅持什麼時候想起來什麼時候更新的好習慣吧。   今天說一下python爬蟲中一個常用的模組urllib,urllib和requests一樣都是用來發起頁面請求進行獲取頁面資訊

python爬蟲入門--Beautiful Soup介紹及例項

整理自:北理工嵩天老師的網路課程。 1、Beautiful Soup庫基礎知識 (1)Beautiful Soup庫的理解 Beautiful Soup庫是解析、遍歷、維護“標籤樹”的功能庫。 BeautifulSoup對應一個HTML/XML文件的全部內容。

Python爬蟲urllib內建基本使用

urllib庫包含以下模組 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib.robotparser robots.txt解析模組 py2 vs. py3 py

Python爬蟲入門教程 39-100 天津市科技計劃項目成果數據抓取 scrapy

格式 () extract lba 重寫 動態 meta 操作 pos 爬前叨叨 緣由 今天本來沒有打算抓取這個網站的,無意中看到某個微信群有人問了一嘴這個網站,想看一下有什麽特別復雜的地方,一頓操作下來,發現這個網站除了卡慢,經常自己宕機以外,好像還真沒有什麽特殊的...

python爬蟲入門-Scrapy的安裝

命令 集成 ssl tool sta python2 執行 成功 pytho 下載集成包鏈接:http://pan.baidu.com/s/1pKD2zBP 密碼:f75b因為沒有支持python3的Scrapy,所以這裏采用python2.7.9安裝步驟:1.安裝pyth

Python爬蟲入門一之綜述

復用 智能 實現 進一步 -a web 蜘蛛 urllib 機器 首先爬蟲是什麽? 網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取萬維網信息的程序或者腳本。 根據我的經驗,要學習Python爬蟲,我們要

Python爬蟲入門

spa 描述 www. 對象 根據 url get pcl res 一. from urllib import requestres=request.urlopen(‘https://www.douban.com‘)data = res.read()print(data.d

6.Python爬蟲入門六之Cookie的使用

expires cookielib spa result hat 即使 card rec 其他 大家好哈,上一節我們研究了一下爬蟲的異常處理問題,那麽接下來我們一起來看一下Cookie的使用。 為什麽要使用Cookie呢? Cookie,指某些網站為了辨別用戶身份、進行se

python爬蟲(四)_urllib2的基本使用

對象 喜歡 實用 字符串 string pre 互聯網 name 調用 本篇我們將開始學習如何進行網頁抓取,更多內容請參考:python學習指南 urllib2庫的基本使用 所謂網頁抓取,就是把URL地址中指定的網絡資源從網絡流中讀取出來,保存到本地。在Python中有

python 爬蟲入門之正則表達式 一

簡單 換行 find www. ever page oct search utf python 正則表達式知識點正則 常用符號. : 匹配任意字符,換行符除外* : 匹配前一個字符 0 次或者無限次? : 匹配前一個字符 0次或者1次.* : 貪心算法.*? :非貪心算

Python爬蟲入門 | 1 Python環境的安裝

Python這是一個適用於小白的Python爬蟲免費教學課程,只有7節,讓零基礎的你初步了解爬蟲,跟著課程內容能自己爬取資源。看著文章,打開電腦動手實踐,平均45分鐘就能學完一節,如果你願意,今天內你就可以邁入爬蟲的大門啦~ 話不多說,正式開始我們的第一節課《Python環境的安裝》吧~ 啦啦啦開課啦,看黑板