1. 程式人生 > >Python爬蟲入門——3.3 表單互動 Post

Python爬蟲入門——3.3 表單互動 Post

迄今為止,我們爬取的網頁都是未登入狀態下的網頁資訊,當我們想要獲取登入之後的資訊該怎麼做呢?這時我們只需要使用requests庫自帶的post方法即可。使用post的過程比較簡單,我們只需要構造講一個字典,然後利用post上傳到網頁即可。使用方法如下:

import requests
params = {
            'name':'xxx',
            'password':'xxx'
         }
res = requests.post(url,data=params)
print(res.text)

還是以豆瓣網為例https://www.douban.com/

,開啟豆瓣網,在‘’登入‘’選項右鍵檢查。定位到元素所在位置。

找到form標籤下的action屬性(這是登入的URL)、以及input標籤。找到之後我們就可以依據這些內容編寫爬取程式了

import requests
#這是登入的URL
url = 'https://accounts.douban.com/login'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}
params = {
    'source':'index_nav',
    #這是你的登入賬號
    'form_email':'xxx',
    #這是你的登入密碼
    'form_password':'xxx'
}
html = requests.post(url,data=params,headers=headers)
print(html.text)

相關推薦

爬蟲入門8】互動與模擬登入

表單互動與模擬登入 表單互動 什麼是表單互動 使用python實現表單提交 無論是簡單網頁還是採用非同步載入的網頁,都是使用GET方法請求網址來請求網頁資訊; 如果想獲得登入表單後的資訊,就需要進行表單互動。 requests的post方法 import req

Python爬蟲入門——3.3 互動 Post

迄今為止,我們爬取的網頁都是未登入狀態下的網頁資訊,當我們想要獲取登入之後的資訊該怎麼做呢?這時我們只需要使用requests庫自帶的post方法即可。使用post的過程比較簡單,我們只需要構造講一個字典,然後利用post上傳到網頁即可。使用方法如下: import req

Python爬蟲入門教程 3-100 美空網資料爬取

簡介 從今天開始,我們嘗試用2篇部落格的內容量,搞定一個網站叫做“美空網”網址為:http://www.moko.cc/, 這個網站我分析了一下,我們要爬取的圖片在 下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下,我需要找到一個圖片列表

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思 消費 時間模塊 intel insert -o switch 簡介 從今天開始,我們嘗試用2篇博客的內容量,搞定一個網站叫做“美空網”網址為:http://www.moko.cc/, 這個網站我分析了一下,我們要爬取的圖片在 下面這個網址

Python爬蟲入門 | 3 爬蟲必備Python知識

Python Python入門 Pyth這是一個適用於小白的Python爬蟲免費教學課程,只有7節,讓零基礎的你初步了解爬蟲,跟著課程內容能自己爬取資源。看著文章,打開電腦動手實踐,平均45分鐘就能學完一節,如果你願意,今天內你就可以邁入爬蟲的大門啦~ 好啦,正式開始我們的第三節課《爬蟲必備Python知識》

Python爬蟲6】互動

嚴格來說,本篇表單互動和下一篇驗證碼處理不算是網路爬蟲,而是廣義上的網路機器人。使用網路機器人可以減少提取資料時需要表單互動的一道門檻。 1.手工處理髮送POST請求提交登入表單 我們先在示例網站手工註冊一個賬號,註冊這個賬號需要驗證碼,下一篇會介紹處理驗證碼

python爬蟲-->互動

前幾篇博文中,我們的程式下載的靜態網頁總是返回相同的內容。在本篇博文中,我們將與網頁進行互動,根據使用者輸入返回對應的內容。 本篇博文將主要介紹以下兩種方式進行表單互動 使用cookie登入網頁,更新網頁內容(較麻煩) 使用Mechanize模組實現自動化

python網路爬蟲——互動

將與網頁進行互動,根據使用者輸入返回對應的內容。有些網站需要在登入後才能訪問某個網頁,在登入之前不允許訪問。所以使用使用者表單互動傳遞引數登入。 表單方法 HTML定義了兩種向伺服器提交資料的方法,分別是GET和POST。使用GET時,會將類似?name1=va

HTML入門3

1  表單的應用 網站的使用者名稱註冊和登入。主要用來接收使用者提交的資訊,並把資訊提交給伺服器,實現客戶端和伺服器的互動。 2  表單基本語法 使用form標籤。表單的所有元素,包括文字域、單選框、複選框、按鈕、列表等等,都要包含在form標籤內。具

Python爬蟲入門——3.4 模擬登入

宣告:參考資料“ 從零開始學Python網路爬蟲 ”作者:羅攀,蔣仟機械工業出版社 Cookie是網站為了識別使用者身份從而儲存在使用者本地終端上的資料,因此我們可以利用Cookie來模擬登入網站。繼續以豆瓣網為例。 進入豆瓣網https://www.douban.com

Python爬蟲入門——3.6 Selenium 爬取淘寶資訊

上一節我們介紹了Selenium工具的使用,本節我們就利用Selenium跟Chrome瀏覽器結合來爬取淘寶相關男士羽絨服商品的資訊,當然你可以用相同的方法來爬取淘寶其他商品的資訊。我們要爬取羽絨服的價格、圖片連線、賣家、賣家地址、收貨人數等資訊,並將其儲存在csv中 fr

Python爬蟲入門——3.1 多程序爬蟲

我們上次爬取了鬥破蒼穹全文小說,並儲存到本地TXT檔案,但是下載速度超級慢(不排除我這垃圾i5電腦的原因),我都玩了一盤王者榮耀,還沒有下載完成。j究其原因是我們只是應用了單程序爬取,所以爬取速度大打折扣。鑑於此我們本節介紹多程序爬蟲。 首先簡單介紹一下多程序。通常我們的計

Python爬蟲入門——3.2 動態網頁爬蟲

當你搜索百度圖片時(百度圖片),你會發現,當你向下滑動滑鼠,就會自動載入下一頁的圖片資料,但是網頁的URL卻沒有改變。從而你就無法通過一般的構造URL的方法來抓取網頁資料。這是由於網頁使用了非同步載入技術。 非同步載入技術 傳統的網頁如果需要更新網頁資訊就需要重新載入整個

python爬蟲beautifulsoup4系列3【轉載】

div 分享 () soup bs4 url地址 並保存 把手 tag 本篇轉自博客:上海-悠悠 原文地址:http://www.cnblogs.com/yoyoketang/tag/beautifulsoup4/ 前言 本篇手把手教大家如何爬取網站上的圖片,並保存到本地電

3設計的最佳技巧

以下內容由Mockplus團隊翻譯整理,僅供學習交流,Mockplus是更快更簡單的原型設計工具 本文簡述了設計師、商人甚至每個人對表單設計的一點想法。 表單是我們日常生活的一部分,但說實話,填寫表單的體驗並不友好。無論是確認購買飛機票還是提交訂

Python爬蟲學習(3

collect nbsp pri div time urlparse links ews 是否 在慕課網學習並創建了一個簡單的爬蟲包,爬取百度百科相關詞條信息 程序中會用到第三方解析包(BeautifulSoup4),Windows環境下安裝命令:pip install B

python爬蟲beautifulsoup4系列3

AS 覆蓋 打開 ima itl 電腦 etc write pen 前言 本篇手把手教大家如何爬取網站上的圖片,並保存到本地電腦 一、目標網站 1.隨便打開一個風景圖的網站:http://699pic.com/sousuo-218808-13-1.html 2.用fir

python爬蟲系列(2.3-requests庫模擬使用者登入)

一、模擬登入拉鉤網 import re import requests class LoginLaGou(object):     """     模擬登入拉鉤網     """    

python爬蟲系列(1.3-關於cookie的認識)

一、關於http無狀態的認識 在網站中,http請求是無狀態的,也就是說第一次與伺服器連線後並且接收到伺服器的返回值的時候,就斷開連線,等第二次連線的時候,又是一個新的連線,伺服器並不知道之前連線過。cookie的出現就是解決這個問題.主要原理: 使用者第一次登陸後,伺服器給瀏覽器返回coo

python爬蟲系列(4.3-資料儲存到mysql資料庫中)

一、如果你對mysql資料庫還不太熟悉   二、基本操作 1、在python中使用pymysql連線mysql 2、安裝包 pip3 install pymysql 3、定義一個建立資料庫的方法(或者手動、SQL語句建立資料庫) # 定義一個建立資料庫的函