用Python寫網路爬蟲系列（三）表單處理

阿新 • • 發佈：2019-01-05

import  urllib,urllib2
LOGIN_URL = r'http://example.webscraping.com/user/login'
LOGIN_EMAIL = '[email protected]'
LOGIN_PASSWORD ='qq123456'
data ={'email':LOGIN_EMAIL,'password':LOGIN_PASSWORD}
encoded_data = urllib.urlencode(data) # 首先把中文字元轉換為十六進位制,然後在每個字元前面加一個識別符號%
request = urllib2.Request(LOGIN_URL,encoded_data)
response = urllib2.urlopen(request)
response.geturl() #如果登陸成功會跳轉到主頁 否則會跳轉到登陸頁面
# 因為除了郵箱和密碼之外還需要提交其他的幾個域 但是這些域被隱藏了，但是可以通過lxml方法訪問
import lxml.html
def parse_form(html):
    tree = lxml.html.fromstring(html)
    data = {}
    for e in tree.cssselect('form input'):
        if e.get('name'):
            data[e.get('name')] = e.get('value')
    return data
# 遍歷表單裡面的所有input 標籤 然後用字典的形式返回name和value的屬性值
import pprint
html = urllib2.urlopen(LOGIN_URL).read()
form = parse_form(html)
pprint.pprint(form)
#_formkey 伺服器使用這個唯一的ID來避免表單避免多次提交，每次載入網頁都會產生不同的ID然後伺服器根據這個ID來判斷是否提交過
#修改過的程式碼
html = urllib2.urlopen(LOGIN_URL).read()
data = parse_form(html)
data['email'] = LOGIN_EMAIL
data['password'] = LOGIN_PASSWORD
encoded_data = urllib.urlencode(data)
request = urllib2.Request(LOGIN_URL,encoded_data)
response = urllib2.urlopen(request)
response.geturl()
#依舊沒有辦法正常執行 因為缺少一個很重要的部分 cookies
import  cookielib
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
html = opener.open(LOGIN_URL).read()
data = parse_form(html)
data['email'] = LOGIN_EMAIL
data['password'] = LOGIN_PASSWORD
encoded_data = urllib.urlencode(data)
request = urllib2.Request(LOGIN_URL, encoded_data)
response = opener.open(request)
response.geturl()
# 使用了urllib2.HTTPCookieProcessor增加了cookies的支援之後的程式碼 成功登陸
import mechanize  #自動化表單填寫
br = mechanize.Browser()
br.open(LOGIN_URL)
br.select_form(nr=0)
br['email'] = LOGIN_EMAIL
br['password'] = LOGIN_PASSWORD
response = br.submit()
br.open(COUNTRY_URL = 'http://example.webscraping.com/edit/United-Kingdom-239')
br.select_form(nr = 0)
print 'Population before:', br['population']
br['population'] = str(int(br['population']) + 1)
br.submit()
br.open(COUNTRY_URL = 'http://example.webscraping.com/edit/United-Kingdom-239')
br.select_form(nr=0)
print 'Population after:', br['population']

用Python寫網路爬蟲系列（三）表單處理

import urllib,urllib2 LOGIN_URL = r'http://example.webscraping.com/user/login' LOGIN_EMAIL = '[email protected]' LOGIN_PASSWORD ='q

2018用Python寫網路爬蟲（視訊+原始碼+資料）

課程目標實現Python寫網路爬蟲入門適用人群資料零基礎愛好者,職場新人 ,在校大學生課程簡介 1.基本Http請求以及驗證方式分析 2.Python用於處理Html格式資料beautifulsoup模組 3.Pyhton的request

WSWP（用python寫網路爬蟲）筆記一：實現簡單爬蟲

wswp中的程式碼是通過python2的語法來寫的，在學習的過程中個人比較喜歡python3，因此準備將wswp的示例程式碼用python3重寫一遍，以加深映像。開始嘗試構建爬蟲識別網站所用技術和網站所有者構建網站所使用的技術型別的識別和尋找

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

用 Python 寫網路爬蟲第2版

內容簡介暢銷的 Python 網路爬蟲開發實戰圖書全新升級版，上一版年銷量近 40000 冊。針對 Python 3.6 版本編寫。 Internet 上包含了許多有用的資料，其中大部分是可以免費公開訪問的。但是，這些資料不容易使用，它們內嵌在網站的架構和樣式中，在提取時也需要多加小心。網

《用Python寫網路爬蟲》下載

2018年11月01日 13:27:27 qq_43576443 閱讀數：5 標籤：程式設計資料

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

用Python寫網路爬蟲－學習總結

一.關於爬蟲的一些零散知識１．Robots協議大多數網站的主頁下會有robots.txt檔案，標識了爬蟲爬取該網站資訊時，哪些資源是有限制的，可以使用Python的標準庫robotparser來檢測將要爬取的url連結是否被允許： # coding=utf-8 im

《用Python寫網路爬蟲》第一章原始碼Python3版本

作者改寫後的Python3版本原文Python2版本import re import urllib.parse import urllib.request import time from datetime import datetime import urllib.robo

程式設計師之網路安全系列（三）：資料加密之對稱加密演算法

系列目錄: 前文回顧假如，明明和麗麗相互不認識，明明想給麗麗寫一封情書，讓隔壁老王送去如何保證隔壁老王不能看到情書內容？（保密性) 如何保證隔壁老王不修改情書的內容？（完整性) 如何保證隔壁老王不冒充明明？（身份認證) 如何保證明明不能否認情書是自己寫的？（來源的不可否認) 上一節，我們使用了Ha

SSO（Single Sign On）系列（三）--CAS單點登入

上篇文章介紹了SSO的原理以及5種基本流程，相信看完了之後不難理解單點登入，而CAS是SSO的一種實現方案，原理是一樣的。下面介紹一下。 CAS Server：負責完成對使用者的認證工作，需要獨立部署，CAS Server會處理使用者名稱/密碼等憑證。 CAS Client：負責處理對客戶端受保護資源的

SpringBoot基礎實戰系列（三）springboot單檔案與多檔案上傳

## springboot單檔案上傳對於springboot檔案上傳需要了解一個類`MultipartFile `，該類用於檔案上傳。我此次使用`thymeleaf`模板引擎，該模板引擎檔案字尾 `.html`。 #### 1.建立controller ```java /** * 單檔案上傳

（三）表單和圖片

sele 技術 fcc 註意 round btn hold 分享 style 一、表單 1. 基本實例單獨的表單控件會被自動賦予一些全局樣式。所有設置了 .form-control 類的 <input>、<textarea> 和 <sele

憤怒的WebAPI（三）——表單

一、表單內容操作 1、輸入框 <input type="text" id="ipt" value="這是舊的內容"> <script> var ipt = document.getElementById('ipt'); console

微信小程式學習筆記（三）表單提交、PHP後臺資料互動

【form表單提交】 form.wxml： <form bindsubmit="formSubmit" bindreset="formReset"> <view> 暱稱：<input type="text" name="nic

（三）表單資料的蒐集和react元件的生命週期

四：表單資料的蒐集 (1) 問題: 在react應用中, 如何收集表單輸入資料 (2) 包含表單的元件分類

從零開始學 Web 之 HTML（三）表單

大家好，這裡是「 Daotin的夢囈」從零開始學 Web 系列教程。此文首發於「 Daotin的夢囈」公眾號，歡迎大家訂閱關注。在這裡我會從 Web 前端零基礎開始，一步步學習 Web 相關的知識點，期間也會分享一些好玩的專案。現在就讓我們一起進入 Web 前端學習的冒險之旅吧！一、表格 1

springMVC學習（三）表單提交之資料封裝

結合springmvc學習（一）和（二），我們可以讓伺服器啟動時，首先訪問hello.jsp,然後頁面提交後到TestController中，接著返回到hello.jsp頁面。專案結構如下：配置如下： ①web.xml中配置如下： <?xml version="

爬蟲入門系列（三）：用 requests 構建知乎 API

爬蟲入門系列目錄：在爬蟲系列文章優雅的HTTP庫requests 中介紹了 requests 的使用方式，這一次我們用 requests 構建一個知乎 API，功能包括：私信傳送、文章點贊、使用者關注等，因為任何涉及使用者操作的功能都需要登入後才操作，所以在閱讀這篇文章前建議先了解

Python操作rabbitmq系列（三）:多個接收端消費消息

name 連接 logs http clas header 消費者 exclusive pub 接著上一章。這一章，我們要將同一個消息發給多個客戶端。這就是發布訂閱模式。直接看代碼：發送端： import pikaimport sysconnection = pika.B

用Python寫網路爬蟲系列（三）表單處理

相關推薦