1. 程式人生 > >需要登入的網站爬取及formdata獲取

需要登入的網站爬取及formdata獲取

1、查詢from data提交的資訊,構造表單資訊:
payload = {
    "username": USERNAME,
    "password": PASSWORD,
    .......
}

2、程式碼如下:

# coding=utf-8
import requests
from lxml import html

# 登入頁面url
LOGIN_URL = "https://auth.dxy.cn/accounts/login?service=http%3A%2F%2Fwww.dxy.cn%2Fuser%2Findex.do%3Fdone%3Dhttp%3A%2F%2Fwww.dxy.cn%2F"
# 爬取內容所在的url URL = "http://rehab.dxy.cn/" def main(): session_requests = requests.session() # Get login csrf token result = session_requests.get(LOGIN_URL) tree = html.fromstring(result.text) # Create payload payload = { "username": "****@qq.com", "password": "***"
, "loginType": 1, "validateCode":"mdgc", "keepOnlineType": 2, "trys": 0, "nlt": "_c2AABF5AD-CFCC-4DEC-0434-F8E7FB827921_k00905A80-3969-E3D8-A79D-5ACFA9048738", "_eventId": "submit" } # Perform login result = session_requests.post(LOGIN_URL, data = payload, headers
= dict(referer = LOGIN_URL)) # Scrape url result = session_requests.get(URL, headers = dict(referer = URL)) tree = html.fromstring(result.content) bucket_names = tree.xpath("//a[@class='h5 dq-stat-zone']/@title") # print bucket_names for i in bucket_names: print i if __name__ == '__main__': main()

3、執行結果如下:

加速康復外科中國專家共識及路徑管理指南(2018版)
膽戰心驚—我值班那些年的血淚教訓!

相關推薦

需要登入網站formdata獲取

1、查詢from data提交的資訊,構造表單資訊:payload = { "username": USERNAME, "password": PASSWORD, ....... }2、程式碼如下:# coding=utf-8 import reque

登入京東購物車商品價格

#coding:utf-8 import selenium import selenium.webdriver import time import lxml import lxml.etree import requests driver = selenium.webdri

python之梨視訊網站視訊下載

這次爬取的網站結構較為簡單,適用於初學爬蟲! 這次學習需要先把python和pip的環境配好,還需要引入一些包**(re,lxml,os,requests)** 直接在cmd中進行 pip instal

python抓需要登入網站資料的方法總結

scrapy.FormRequest login.py class LoginSpider(scrapy.Spider): name = 'login_spider' start_urls = ['http://www.login.com

網站-案例一:貓眼電影TOP100

瀏覽器 取數據 pos 代碼 裏的 十個 wid 頁面 image 今天有小朋友說想看一下貓眼TOP100的爬取數據,要TOP100的名單,讓我給發過去,其實很簡單,先來看下目標網站: 建議大家都用谷歌瀏覽器: 這是我們要抓取的內容,100個數據,很少 我們看一下頁面結構

網站-案例二:天貓( 第一卷:首頁數據抓)

img .com 我想 提供商 網站 col class scoller bubuko 說到網站數據的爬取,目前為止我見過最復雜的就是天貓了,現在我想對它進行整站的爬取 我們先來看下天貓主頁的界面 天貓頁面很明顯是動態頁面 所以我們需要用selenium模塊 首先

網站-案例三:今日頭條抓(ajax抓JS數據)

今日頭條 頭條 img gin 方便 pos 網頁 圖片 http 今日頭條這類的網站制作,從數據形式,CSS樣式都是通過數據接口的樣式來決定的,所以它的抓取方法和其他網頁的抓取方法不太一樣,對它的抓取需要抓取後臺傳來的JSON數據,先來看一下今日頭條的源碼結構:我們抓取文

網站-案例四:知乎抓(COOKIE登錄抓個人中心)(第二卷)

img 正則 人員 gin 爬取 com 個人 我們 一個 接著上卷來分析,作為開發人員我們都知道,登錄是一個想指定URL發送POST請求的過程,所以我們需要找到請求的URL,以及字段,先用一個錯誤賬號和密碼做一下嘗試,如果是正確的話會直接跳轉到別的頁面,這樣COOKIE就

【Python3 爬蟲】06_robots.txt查看網站限制情況

使用 mage none logs HR python3 clas 分享 處理 大多數網站都會定義robots.txt文件來限制爬蟲爬去信息,我們在爬去網站之前可以使用robots.txt來查看的相關限制信息例如:我們以【CSDN博客】的限制信息為例子在瀏覽器輸入:http

爬蟲系列之鏈家的信息數據分析

enc lib art andro 函數 strip 一次 read 訪問 關於鏈家的數據爬取和分析 已經實現 1.房屋數據爬取並下載 2.房屋按區域分析 3.房屋按經紀人分析 4.前十經紀人 5.經紀人最有可能的位置分析 6.實現以地區劃分房屋 目前存在

requests筆記4---網路圖片儲存

【Python網路爬蟲與資訊提取】.MOOC. 北京理工大學 import requests import os url = 'jpg_url' root = r'D:/pic/' path = root + url.split('/')[-1] try:     i

crawler碎碎念6 豆瓣操作之獲取資料

import requests from lxml import etree   s = requests.Session() for id in range(0,251,25):   url ='https://movie.douban.com/top250/?start-'+str(i

詳解教務系統模擬登入

版權宣告:本文為博主原創文章,轉載 請註明出處:https://blog.csdn.net/sc2079/article/details/82564284 - 寫在前面   上篇部落格教務系統模擬登入與成績爬取對教務處成績成功爬取並將資料儲存在JSON,這篇部落格就實現查詢成績

python+selenium實現動態selenuim的常用操作

應用例項可以參考部落格中的12306自動搶票應用 https://www.cnblogs.com/mumengyun/p/10001109.html 動態網頁資料抓取 什麼是AJAX: AJAX(Asynchronouse JavaScript And XML)非同步JavaScript和XM

Python爬蟲入門教程 4-100 美空網未登入圖片

簡介 上一篇寫的時間有點長了,接下來繼續把美空網的爬蟲寫完,這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點,因為它只是一套入門的教程,老鳥你自動繞過就可以了,或者帶帶我也行。 爬蟲分析 首先,我們已經爬取到了N多的使用者個人主頁,我通過連結拼接獲取到了 www.moko.cc/

Python爬蟲入門教程 2-100 妹子圖網站

字典 註意 while import 我們 分鐘 基礎 便是 訪問 前言 從今天開始就要擼起袖子,直接寫Python爬蟲了,學習語言最好的辦法就是有目的的進行,所以,接下來我將用10+篇的博客,寫爬圖片這一件事情。希望可以做好。 為了寫好爬蟲,我們需要準備一個火狐瀏覽器,還

網站工具

有時候需要將網站資源爬取到本地,檔案少的情況下可以使用Chrome一個個儲存。如果檔案太多,則需要使用下面的輔助工具。 1.Teleport Ultra(不是Teleport Pro) 有點:爬取檔案以及結構比較完整; 缺點:會修改原檔案。會在js中增加tpa標籤和在html中增加tppabs標籤!

京東爬蟲——京東評論資訊評論圖片的下載

之前,我做了一個天貓評論資訊的抓取,和評論圖片的下載,不過那次是將資訊全部存入資料庫後再從資料庫提取圖片資訊進行下載,這次我做了一個資訊抓取和圖片下載的二合一升級版。 本次以京東nike自營店為目標, 老方法,按F12開啟流量監控器,在network中點選js,接下來

從環境雲網站資料

1、環境雲網站:http://www.envicloud.cn/網站中包含全國各地關於環境方面的資料,我們這次只讀取了廣東省24小時天氣歷史資料。 2、關於介面參考環境雲幫助頁面 3、程式碼使用python語言實現 4、爬取需要key,免費申請 5、爬取後的資料儲存在ora

通過scrapy,從模擬登入開始知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。 首先,我們需要知道,想要爬取知乎上面的資料,第一步肯定是登入,所以我們先介紹一下模擬登入: 先說一下我的思路: 1.首先我們需要控制登入的入口,重寫start_requests方法。來控制到這個入口之後,使用