嚴格來說，本篇表單互動和下一篇驗證碼處理不算是網路爬蟲，而是廣義上的網路機器人。使用網路機器人可以減少提取資料時需要表單互動的一道門檻。

1.手工處理髮送POST請求提交登入表單

我們先在示例網站手工註冊一個賬號，註冊這個賬號需要驗證碼，下一篇會介紹處理驗證碼問題。

1.1分析表單內容

我們在登入網址http://127.0.0.1:8000/places/default/user/login 獲得如下表單。在下面登入表單中包括幾個重要的組成部分：

form標籤的action屬性：用於設定表單資料提交的地址，本例中為#，也就是和登入表單同一個URL；
form標籤的enctype屬性：用於設定資料提交的編碼，本例中為application/x-www-form-urlencoded

，表示所有非字母數字的字元都需要轉換為十六進位制的ASCII值；上傳二程序檔案最好用multipart/form-data編碼型別，這種編碼不會對輸入進行編碼從而不會影響效率，而是使用MIME協議將其作為多個部分進行傳送，和郵件的傳輸標準相同。文件：http://www.w3.org/TR/html5/forms.html#selecting-a-form-submission-encoding
form標籤的method屬性：本例中post表示通過請求體向伺服器提交表單資料；
imput標籤的name屬性：用於設定提交到伺服器端時某個域的名稱。

<form action="#" enctype= 
"application/x-www-form-urlencoded" method="post">
	<table>
		<tr id="auth_user_email__row">
			<td class="w2p_fl"><label class="" for="auth_user_email" id="auth_user_email__label">E-mail: </label></td>
			<td class="w2p_fw"><input class="string" id="auth_user_email" 
 name="email" type="text" value="" /></td>
			<td class="w2p_fc"></td>
		</tr>
		<tr id="auth_user_password__row">
			<td class="w2p_fl"><label class="" for="auth_user_password" id="auth_user_password__label">Password: </label></td>
			<td class="w2p_fw"><input class="password" id="auth_user_password" name="password" type="password" value="" /></td>
			<td class="w2p_fc"></td>
		</tr>
		<tr id="auth_user_remember_me__row">
			<td class="w2p_fl"><label class="" for="auth_user_remember_me" id="auth_user_remember_me__label">Remember me (for 30 days): </label></td>
			<td class="w2p_fw"><input class="boolean" id="auth_user_remember_me" name="remember_me" type="checkbox" value="on" /></td>
			<td class="w2p_fc"></td>
		</tr>
		<tr id="submit_record__row">
			<td class="w2p_fl"></td><td class="w2p_fw">
				<input type="submit" value="Log In" />
				<button class="btn w2p-form-button" onclick="window.location=&#x27;/places/default/user/register&#x27;;return false">Register</button>
			</td>
			<td class="w2p_fc"></td>
		</tr>
	</table>
	<div style="display:none;">
		<input name="_next" type="hidden" value="/places/default/index" />
		<input name="_formkey" type="hidden" value="7b1add4b-fa91-4301-975e-b6fbf7def3ac" />
		<input name="_formname" type="hidden" value="login" />
	</div>
</form>

1.2手工測試post請求提交表單

如果登入成功則跳到主頁，否則回到登入頁。下面是嘗試自動登入的初始版本程式碼。顯然登入失敗！

>>> import urllib,urllib2
>>> LOGIN_URL='http://127.0.0.1:8000/places/default/user/login'
>>> LOGIN_EMAIL='[email protected]'
>>> LOGIN_PASSWORD='wu.com'
>>> data={'email':LOGIN_EMAIL,'password':LOGIN_PASSWORD}
>>> encoded_data=urllib.urlencode(data)
>>> request=urllib2.Request(LOGIN_URL,encoded_data)
>>> response=urllib2.urlopen(request)
>>> response.geturl()
'http://127.0.0.1:8000/places/default/user/login'
>>>

因為登入時還需要新增隱藏的_formkey屬性，這個唯一的ID用來避免表單多次提交。每次載入網頁時，都會產生不同的ID，然後伺服器端就可以通過這個給定的ID來判斷表單是否已經通過提交過。下面是獲得該屬性值：

>>> 
>>> import lxml.html
>>> def parse_form(html):
...     tree=lxml.html.fromstring(html)
...     data={}
...     for e in tree.cssselect('form input'):
...             if e.get('name'):
...                     data[e.get('name')]=e.get('value')
...     return data
... 
>>> import pprint
>>> html=urllib2.urlopen(LOGIN_URL).read()
>>> form=parse_form(html)
>>> pprint.pprint(form)
{'_formkey': '437e4660-0c44-4187-af8d-36487c62ffce',
 '_formname': 'login',
 '_next': '/places/default/index',
 'email': '',
 'password': '',
 'remember_me': 'on'}
>>>

下面是通過_formkey和其他隱藏域的新版本自動登入程式碼。發現還是不成功！

>>> 
>>> html=urllib2.urlopen(LOGIN_URL).read()
>>> data=parse_form(html)
>>> data['email']=LOGIN_EMAIL
>>> data['password']=LOGIN_PASSWORD
>>> encoded_data=urllib.urlencode(data)
>>> request=urllib2.Request(LOGIN_URL,encoded_data)
>>> response=urllib2.urlopen(request)
>>> response.geturl()
'http://127.0.0.1:8000/places/default/user/login'
>>>

因為我們缺失了一個重要的組成部分——cookie。當普通使用者載入登入表單時，_formkey的值將會儲存在cookie中，然後該值會與提交的登入表單資料中的_formkey的值進行對比。下面是使用urllib2.HTTPCookieProcessor類增加了cookie支援之後的程式碼。最後登入成功了！

>>> 
>>> import cookielib
>>> cj=cookielib.CookieJar()
>>> opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
>>> 
>>> html=opener.open(LOGIN_URL).read()		#opener
>>> data=parse_form(html)
>>> data['email']=LOGIN_EMAIL
>>> data['password']=LOGIN_PASSWORD
>>> encoded_data=urllib.urlencode(data)
>>> request=urllib2.Request(LOGIN_URL,encoded_data)
>>> response=opener.open(request)		#opener
>>> response.geturl()
'http://127.0.0.1:8000/places/default/index'
>>>

1.3手工處理post請求登入的完整原始碼：

# -*- coding: utf-8 -*-
import urllib
import urllib2
import cookielib
import lxml.html

LOGIN_EMAIL = '[email protected]'
LOGIN_PASSWORD = 'wu.com'
#LOGIN_URL = 'http://example.webscraping.com/user/login'
LOGIN_URL = 'http://127.0.0.1:8000/places/default/user/login'


def login_basic():
    """fails because not using formkey
    """
    data = {'email': LOGIN_EMAIL, 'password': LOGIN_PASSWORD}
    encoded_data = urllib.urlencode(data)
    request = urllib2.Request(LOGIN_URL, encoded_data)
    response = urllib2.urlopen(request)
    print response.geturl()

def login_formkey():
    """fails because not using cookies to match formkey
    """
    html = urllib2.urlopen(LOGIN_URL).read()
    data = parse_form(html)
    data['email'] = LOGIN_EMAIL
    data['password'] = LOGIN_PASSWORD
    encoded_data = urllib.urlencode(data)
    request = urllib2.Request(LOGIN_URL, encoded_data)
    response = urllib2.urlopen(request)
    print response.geturl()

def login_cookies():
    """working login
    """
    cj = cookielib.CookieJar()
    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
    html = opener.open(LOGIN_URL).read()
    data = parse_form(html)
    data['email'] = LOGIN_EMAIL
    data['password'] = LOGIN_PASSWORD
    encoded_data = urllib.urlencode(data)
    request = urllib2.Request(LOGIN_URL, encoded_data)
    response = opener.open(request)
    print response.geturl()
    return opener

def parse_form(html):
    """extract all input properties from the form
    """
    tree = lxml.html.fromstring(html)
    data = {}
    for e in tree.cssselect('form input'):
        if e.get('name'):
            data[e.get('name')] = e.get('value')
    return data

def main():
    #login_basic()
    #login_formkey()
    login_cookies()

if __name__ == '__main__':
    main()

2.從FF瀏覽器載入cookie登入網站

我們先用手工執行登入，我們先在FF瀏覽器用手工執行登入，然後關閉FF瀏覽器，然後用python指令碼複用之前得到的cookie，從而實現自動登入。

2.1session檔案位置

FireFox在sqlist資料庫中儲存cookie，在json檔案中儲存session，這兩種儲存方式都可以直接通過Python獲取。對於登入操作而言，我們只需要獲致session即可。對於不同的作業系統，FireFox儲存的session檔案的位置不同：

Linux系統：~/.mozilla/firefox/*.default/sessionstore.js
OS X系統：~/Library/Application Support/Firefox/Profiles/*.default/sessionstore.js
Windows Vista及以上版本系統：%APPDATA%/Roaming/Mozilla/Firefox/Profiles/*.default/sessionstore.js

下面是返回session檔案路徑的輔助函式程式碼：

def find_ff_sessions():
    paths = [
        '~/.mozilla/firefox/*.default',
        '~/Library/Application Support/Firefox/Profiles/*.default',
        '%APPDATA%/Roaming/Mozilla/Firefox/Profiles/*.default'
    ]
    for path in paths:
        filename = os.path.join(path, 'sessionstore.js')
        matches = glob.glob(os.path.expanduser(filename))
        if matches:
            return matches[0]

注：glob模組會返回指定路徑中所有匹配的檔案。

2.2FF瀏覽器cookie內容

下面是Linux系統火狐瀏覽器session檔案內容：

[email protected]:~/.mozilla/firefox/78n340f7.default$ ls
addons.json           datareporting       key3.db             prefs.js                      storage
blocklist.xml         extensions          logins.json         revocations.txt               storage.sqlite
bookmarkbackups       extensions.ini      mimeTypes.rdf       saved-telemetry-pings         times.json
cert8.db              extensions.json     minidumps           search.json.mozlz4            webapps
compatibility.ini     features            permissions.sqlite  secmod.db                     webappsstore.sqlite
containers.json       formhistory.sqlite  places.sqlite       sessionCheckpoints.json       xulstore.json
content-prefs.sqlite  gmp                 places.sqlite-shm   sessionstore-backups
cookies.sqlite        gmp-gmpopenh264     places.sqlite-wal   sessionstore.js
crashes               healthreport        pluginreg.dat       SiteSecurityServiceState.txt
[email protected]:~/.mozilla/firefox/78n340f7.default$ more sessionstore.js 
{"version":["sessionrestore",1],
"windows":[{
	...
	"cookies":[
		{"host":"127.0.0.1",
		"value":"127.0.0.1-aabe0222-d083-44ee-94c8-e9343eefb2e5",
		"path":"/",
		"name":"session_id_welcome",
		"httponly":true,
		"originAttributes":{"addonId":"","appId":0,"inIsolatedMozBrowser":false,"privateBrowsingId":0,"signedPkg":"","userContextId":0}},
		{"host":"127.0.0.1",
		"value":"True",
		"path":"/",
		"name":"session_id_places",
		"httponly":true,
		"originAttributes":{"addonId":"","appId":0,"inIsolatedMozBrowser":false,"privateBrowsingId":0,"signedPkg":"","userContextId":0}},
		{"host":"127.0.0.1",
		"value":"\":oJoAPvH-ODMFDXwk3U...su0Dxr7doAgu9yQiSEmgQiSy98Ga7C6K2tIQoZwzY0_4wBO0qHm-FlcBf-cPRk7GPAhix8yS4roOVIvMqP5I7ZB_uIA==\"",
		"path":"/",
		"name":"session_data_places",
		"originAttributes":{"addonId":"","appId":0,"inIsolatedMozBrowser":false,"privateBrowsingId":0,"signedPkg":"","userContextId":0}}
	],
	"title":"Example web scraping website",
	"_shouldRestore":true,
	"closedAt":1485228738310
}],
"selectedWindow":0,
"_closedWindows":[],
"session":{"lastUpdate":1485228738927,"startTime":1485226675190,"recentCrashes":0},
"global":{}
}

[email protected]:~/.mozilla/firefox/78n340f7.default$

根據seesion儲存結構，我們用下面程式碼把session解析到CookieJar物件中。

def load_ff_sessions(session_filename):
    cj = cookielib.CookieJar()
    if os.path.exists(session_filename):  
        try: 
            json_data = json.loads(open(session_filename, 'rb').read())
        except ValueError as e:
            print 'Error parsing session JSON:', str(e)
        else:
            for window in json_data.get('windows', []):
                for cookie in window.get('cookies', []):
                    import pprint; pprint.pprint(cookie)
                    c = cookielib.Cookie(0, cookie.get('name', ''), cookie.get('value', ''), 
                        None, False, 
                        cookie.get('host', ''), cookie.get('host', '').startswith('.'), cookie.get('host', '').startswith('.'), 
                        cookie.get('path', ''), False,
                        False, str(int(time.time()) + 3600 * 24 * 7), False, 
                        None, None, {})
                    cj.set_cookie(c)
    else:
        print 'Session filename does not exist:', session_filename
    return cj

2.3使用cookie測試載入登入

session_filename = find_ff_sessions()
cj = load_ff_sessions(session_filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
html = opener.open(COUNTRY_URL).read()

tree = lxml.html.fromstring(html)
print tree.cssselect('ul#navbar li a')[0].text_content()

如果得到的結果是Login則說明沒能正確載入。如果出現這樣情況，你就需要確認一下FireFox中是否已經成功登入救命網站。如果得到下面結果，有Welcome 使用者的first name，則登入表示成功。

[email protected]:~/GitHub/WebScrapingWithPython/6.表單互動$ python 2login_firefox.py 
{u'host': u'127.0.0.1',
 u'httponly': True,
 u'name': u'session_id_welcome',
 u'originAttributes': {u'addonId': u'',
                       u'appId': 0,
                       u'inIsolatedMozBrowser': False,
                       u'privateBrowsingId': 0,
                       u'signedPkg': u'',
                       u'userContextId': 0},
 u'path': u'/',
 u'value': u'127.0.0.1-406df419-ed33-4de5-bc46-cd2d9f3c431b'}
Log In
[email protected]:~/GitHub/WebScrapingWithPython/6.表單互動$

[email protected]:~/GitHub/WebScrapingWithPython/6.表單互動$ python 2login_firefox.py 
 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    【Python爬蟲6】表單互動
      
							
							
							
嚴格來說，本篇表單互動和下一篇驗證碼處理不算是網路爬蟲，而是廣義上的網路機器人。使用網路機器人可以減少提取資料時需要表單互動的一道門檻。
1.手工處理髮送POST請求提交登入表單
我們先在示例網站手工註冊一個賬號，註冊這個賬號需要驗證碼，下一篇會介紹處理驗證碼 

  
 

    

    
    【爬蟲入門8】表單互動與模擬登入
      
                表單互動與模擬登入

表單互動

什麼是表單互動

使用python實現表單提交

無論是簡單網頁還是採用非同步載入的網頁，都是使用GET方法請求網址來請求網頁資訊；

如果想獲得登入表單後的資訊，就需要進行表單互動。

requests的post方法

import req 

  
 

    

    
    【python 3.6】xlwt和xlrd對excel的讀寫操作
      times   python   _for   一行   xlsx   datetime   列數   font   utf-8    
 

#python 3.6
#!/usr/bin/env python
# -*- coding:utf-8 -*-
__author__ = ‘BH8ANK‘


im 

  
 

    

    
    【python學習-6】異常處理
      value   cat   寫博客   目的   種類   n)   這樣的   自己   true   最近在網上看到了一種學習方法名叫費曼學習法，說的是學習一個東西的時候，要嘗試著給別人講出來，就是一種備課式的學習。

第一步，選擇一個你想要理解的概念, 然後拿出一張白紙, 把這個概念寫在白紙的最上邊。
 

  
 

    

    
    【Python設計模式】02 單例模式
       
 
  
  
 1. python實現經典的單例模式 
 python通過覆蓋__new__()方法來控制物件的建立。 if not hasattr(cls, ‘instance’):方法hasattr用於檢視物件cls是否具有屬性instance, 該屬性的作用是檢查該類是否已經生成了一個物件。 
  

  
 

    

    
    【Python爬蟲錯誤】ConnectionResetError: [WinError 10054] 遠端主機強迫關閉了一個現有的連線
       
 
 轉載連結：https://blog.csdn.net/illegalname/article/details/77164521 
 今天寫爬蟲爬取天天基金網站（http://fund.eastmoney.com/）時出現如下圖所示的錯誤。 
  分析原因，是因為使用urlopen方法太過頻繁，引起遠 

  
 

    

    
    【python爬蟲基礎】圖片自動下載器
      
							
							
							
製作爬蟲的基本步驟
順便通過這個小例子，可以掌握一些有關製作爬蟲的基本的步驟。
一般來說，製作一個爬蟲需要分以下幾個步驟：

分析需求（對，需求分析非常重要，不要告訴我你老師沒教你）
分析網頁原始碼，配合F12（沒有F12那麼亂的網頁原始碼，你想看死我？）
編 

  
 

    

    
    【Python爬蟲實戰】獲取2018年重慶智博會參會企業名單，用於市場洞察
      
                【背景】

做市場洞察，經常需要分析某個行業的Top客戶，通常會通過某種活動或某種機構獲取名單。網站上也能收集到，但是手工收集比較麻煩。

下面通過Python網路爬蟲 獲取2018年重慶智博會參會企業的名單來體驗，如何批量獲取目標網頁的名單。

【操作步驟】

1、分析網頁 

  
 

    

    
    【python爬蟲筆記】網路爬蟲之實戰
       
 
  
  
 Unit7 re庫入門 
  
   
    
    操作符 
    說明 
    例項 
    
   
  
    
    . 
    表示任何單個字元 
     
    
    
    [ ] 
    字符集，對單個字元給出取值範圍 
    [abc]表 

  
 

    

    
    【python爬蟲筆記】網路爬蟲之提取
       
 
  
  
 unit 4 BeautifulSoup庫入門 
 BeautifulSoup庫是解析、遍歷、維護“標籤樹”的功能庫 
  
  … 標籤 tag 
  … 
  name(成對出現) attributes(0或多個) 
  
 beautifulSoup對應一個html/xml文件的全 

  
 

    

    
    【python爬蟲筆記】網路爬蟲之規則
       
 
  
  
 WEEK1 
 Unit 1 Requests庫入門 
 Requests庫的get()方法 
 Requests庫的7個主要方法 
  
  reqest() 構造一個請求，支撐一下各方法的基礎方法  
  get() 獲取html網頁的主要方法，對應於http的get 
  head 

  
 

    

    
    【Python爬蟲系列】使用requests爬取圖片
      
                
Python3常用的爬蟲第三方外掛有requests，urllib.request等。這裡主要介紹使用requests抓取網頁上的圖片，該方法只針對靜態網頁，不考慮js動態載入的網頁。
預備知識：

requests模組的基本瞭解，包括get，post等方法和status_ 

  
 

    

    
    【Python爬蟲3】在下載的本地快取做爬蟲
      
							
							
							
下載快取
上篇文章，我們學習瞭如何提取網頁中的資料，以及將提取結果存到表格中。如果我們還想提取另一欄位，則需要重新再下載整個網頁，這對我們這個小型的示例網站問題不大，但對於數百萬個網頁的網站而言來說就要消耗幾個星期的時間。所以，我們可以先對網頁進行快取，就使得 

  
 

    

    
    python爬蟲爆破web表單
      
                
# -*- coding: utf-8 -*-
#利用python 寫的多執行緒爆破後臺使用者名稱+密碼(自備字典),比較實用,即使是在資訊保安這麼重視的今天,
#還是有人不加驗證碼或者異常訪問限制之類的登陸驗證方式,這樣就很容易被弱口令爆破工具拿下,
#(本程式碼僅限學習 

  
 

    

    
    【python爬蟲實戰】使用Selenium webdriver採集山東招考資料
      [toc]
# 1、目標
- 目標：按地區、高校 採集2020年擬在山東招生的所有專業資訊
- 採集地址：http://xkkm.sdzk.cn/zy-manager-web/gxxx/selectAllDq#


# 2、Selenium webdriver說明
## 2.1 為什麼使用webdriver
 

  
 

    

    
    【HTML筆記五】與瀏覽者互動，表單標籤
      
								
								            
							
							
							一、使用表單標籤，與使用者互動 
網站怎樣與使用者進行互動？答案是使用HTML表單(form)。表單是可以把瀏覽者輸入的資料傳送到伺服器端，這樣伺服器端程式就可以處理表單傳過來的資料。 
語法：



 

  
 

    

    
    python爬蟲-->表單互動
      
							
							
							前幾篇博文中，我們的程式下載的靜態網頁總是返回相同的內容。在本篇博文中，我們將與網頁進行互動，根據使用者輸入返回對應的內容。 
本篇博文將主要介紹以下兩種方式進行表單互動


使用cookie登入網頁，更新網頁內容（較麻煩）
使用Mechanize模組實現自動化 

  
 

    

    
    python網路爬蟲——表單互動
      
							
							
							將與網頁進行互動，根據使用者輸入返回對應的內容。有些網站需要在登入後才能訪問某個網頁，在登入之前不允許訪問。所以使用使用者表單互動傳遞引數登入。
表單方法
HTML定義了兩種向伺服器提交資料的方法，分別是GET和POST。使用GET時，會將類似？name1=va 

  
 

    

    
    Python爬蟲入門——3.3 表單互動 Post
      
                迄今為止，我們爬取的網頁都是未登入狀態下的網頁資訊，當我們想要獲取登入之後的資訊該怎麼做呢？這時我們只需要使用requests庫自帶的post方法即可。使用post的過程比較簡單，我們只需要構造講一個字典，然後利用post上傳到網頁即可。使用方法如下：

import req 

  
 

    

    
    【python爬蟲自學筆記】-----爬取網易雲歌單中歌曲歌詞
      
                工具：python3.6 ，pycharm





開始對網頁的內容進行爬取的時候，使用requests獲得響應，只傳url，但是沒有獲得響應，使用urllib新增請求頭部，並對response的內容使用utf-8進行解碼，使用BeautifulSoup轉換為html物件，