python爬蟲入門urllib庫的使用

阿新 • • 發佈：2019-01-17

urllib庫的使用，非常簡單。

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.read()

只要幾句程式碼就可以把一個網站的原始碼下載下來。

官方文件：https://docs.python.org/2/library/urllib2.html

urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])

urlopen 只要用到前面3個引數，url, data：提交的資料. timeout：超時

也可以這樣使用：

import urllib2

request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

這種用法比較常見。

我們用php建立一個表單，然後用urllib2模擬表單提交

<!doctype html>
<html>
    <head>
        <meta charset="utf-8" />
    </head>
    <body>
        <?php
             
if( isset( $_REQUEST['submit'] ) ) {
                $username = $_REQUEST['username'];
                $userpwd = $_REQUEST['password'];
                if( $username == 'ghostwu' && $userpwd = 'abc123') {
    echo "login success";
}else{
    echo "login error";
}
            }
         
?>
        <form action="/index.php" method="get">
            username: <input type="text" name="username" /><br/>
            password: <input type="password" name="password" /><br/>
            <input type="submit" value="submit" name="submit" />
        </form>
    </body>
</html>

接下來，我們先用get方式提交【備註：域名是我本地的，你需要用本地host對映，相應的伺服器域名和ip】

#coding:utf-8

import urllib
import urllib2

values = { "username" : "ghostwu", "password" : "abc123", "submit" : "submit" }
data = urllib.urlencode( values )
url = "http://mesite.ghostwu" + "?" + data
request = urllib2.Request( url )
response = urllib2.urlopen( request )
print response.read()

執行之後，如果把使用者名稱或者密碼該錯，就會出現login error.

post提交方式，當然你要把php表單改成post提交.

#!/usr/bin/python
#coding:utf-8

import urllib
import urllib2

values = { "username" : "ghostwu2", "password" : "abc123", "submit" : "submit" }
data = urllib.urlencode( values )
url = "http://mesite.ghostwu"
request = urllib2.Request( url, data )
response = urllib2.urlopen( request )
print response.read()

python爬蟲入門urllib庫的使用

urllib庫的使用，非常簡單。 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 只要幾句程式碼就可以把一個網站的原始碼下載下來。官方文件：https://d

python 網路爬蟲入門-Urllib庫的基本使用

學習來源：http://www.cnblogs.com/xin-xin/p/4297852.html 1.分分鐘扒一個網頁下來 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print respon

Python爬蟲系列-Urllib庫詳解

Urllib庫詳解 Python內建的Http請求庫: * urllib.request 請求模組 * urllib.error 異常處理模組 * urllib.parse url解析模組 * urllib.robotparser robots.txt解析模組 #### 相比在python2基礎上的變化

Python爬蟲之Urllib庫的基本使用

狀態碼 chrom 異常處理 false 基本 sta col thead kit # get請求 import urllib.request response = urllib.request.urlopen("http://www.baidu.com") print(

爬蟲入門 -> urllib庫中request模組的基本使用（筆記二）

urllib庫中request模組的基本使用 request模組是urllib中最基本的HTTP請求模組，可以用來模擬傳送請求。 urlopen方法基本使用要使用request模組來模擬傳送請求，最基本方法就是urlopen方法，其主要引數就是一個

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

Python爬蟲入門：Urllib庫的基本使用

logs 模擬第一個 tps 出了訪問方式 post方式 %d 一段 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、

Python爬蟲入門四之Urllib庫的高階用法

1.設定Headers 有些網站不會同意程式直接用上面的方式進行訪問，如果識別有問題，那麼站點根本不會響應，所以為了完全模擬瀏覽器的工作，我們需要設定一些Headers 的屬性。首先，開啟我們的瀏覽器，除錯瀏覽器F12，我用的是Chrome，開啟網路監聽，示意如下，

python爬蟲入門七：pymysql庫

我們使用python爬取得到的資料，有時候會資料量特別大，需要存入資料庫。需要注意的是，MySQL是一種關係型資料庫管理系統，利用MySQL可以對資料庫進行操作，而MySQL並不是一個數據庫。而pymysql庫的作用就是在python中對MySQL進行操作。簡單來說，使用pymys

Python爬蟲入門：使用urllib模組獲取請求頁面資訊

　　歡迎來到拖更王的小部落格，天天想著要把學習和工作中遇到的內容釋出到空間，但是因為忙總是忘（這個藉口真好）。以後還應該會堅持什麼時候想起來什麼時候更新的好習慣吧。　　今天說一下python爬蟲中一個常用的模組urllib，urllib和requests一樣都是用來發起頁面請求進行獲取頁面資訊

python爬蟲入門--Beautiful Soup庫介紹及例項

整理自：北理工嵩天老師的網路課程。 1、Beautiful Soup庫基礎知識（1）Beautiful Soup庫的理解 Beautiful Soup庫是解析、遍歷、維護“標籤樹”的功能庫。 BeautifulSoup對應一個HTML/XML文件的全部內容。

Python爬蟲：urllib內建庫基本使用

urllib庫包含以下模組 urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 urllib.robotparser robots.txt解析模組 py2 vs. py3 py

Python爬蟲入門教程 39-100 天津市科技計劃項目成果庫數據抓取 scrapy

格式 () extract lba 重寫動態 meta 操作 pos 爬前叨叨緣由今天本來沒有打算抓取這個網站的，無意中看到某個微信群有人問了一嘴這個網站，想看一下有什麽特別復雜的地方，一頓操作下來，發現這個網站除了卡慢，經常自己宕機以外，好像還真沒有什麽特殊的...

python爬蟲入門-Scrapy的安裝

命令集成 ssl tool sta python2 執行成功 pytho 下載集成包鏈接：http://pan.baidu.com/s/1pKD2zBP 密碼：f75b因為沒有支持python3的Scrapy,所以這裏采用python2.7.9安裝步驟：1.安裝pyth

Python爬蟲入門一之綜述

復用智能實現進一步 -a web 蜘蛛 urllib 機器首先爬蟲是什麽？網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。根據我的經驗，要學習Python爬蟲，我們要

Python爬蟲入門

spa 描述 www. 對象根據 url get pcl res 一. from urllib import requestres=request.urlopen(‘https://www.douban.com‘)data = res.read()print(data.d

6.Python爬蟲入門六之Cookie的使用

expires cookielib spa result hat 即使 card rec 其他大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麽接下來我們一起來看一下Cookie的使用。為什麽要使用Cookie呢？ Cookie，指某些網站為了辨別用戶身份、進行se

python爬蟲(四)_urllib2庫的基本使用

對象喜歡實用字符串 string pre 互聯網 name 調用本篇我們將開始學習如何進行網頁抓取，更多內容請參考:python學習指南 urllib2庫的基本使用所謂網頁抓取，就是把URL地址中指定的網絡資源從網絡流中讀取出來，保存到本地。在Python中有

python 爬蟲入門之正則表達式一

簡單換行 find www. ever page oct search utf python 正則表達式知識點正則常用符號. : 匹配任意字符，換行符除外* ：匹配前一個字符 0 次或者無限次？：匹配前一個字符 0次或者1次.* ：貪心算法.*？：非貪心算

Python爬蟲入門 | 1 Python環境的安裝

Python這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 話不多說，正式開始我們的第一節課《Python環境的安裝》吧~ 啦啦啦開課啦，看黑板

python爬蟲入門urllib庫的使用

相關推薦