Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

阿新 • • 發佈：2019-02-01

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。

二、實現思路：

1、關於使用者名稱與密碼以及其提交網址：

觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入。

登入資訊的提交網址為，這個網址可以在原始碼中找到，但是非常建議使用Fiddler進行抓包分析得到，方法是首先對Fiddler進行clear，然後故意輸入錯誤的使用者名稱密碼，點選登入，Fiddler立即回抓到登入資訊的提交連結：

2、關於爬取的資訊：

1）使用者名稱稱：在網頁的title標籤中。

2）日記內容：被class屬性為note的div標籤所包圍。

2、關於處理豆瓣的反爬機制：

2）登入驗證碼，採用半自動輸入的方式，在實際工作時可以使用打碼api實現。

三、編寫Scrapy專案程式碼：

1、settings.py（非常重要）：

#非常重要！否則執行爬蟲會報crawl(403)的錯誤，無法爬取資訊
DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
ROBOTSTXT_OBEY = False

2、soubanSpider.py（筆者建立的Scrapy爬蟲檔案）：

import scrapy
from scrapy.http import Request,FormRequest
#匯入用於爬取網頁驗證碼
import urllib.request

class DoubanspiderSpider(scrapy.Spider):
    name = 'doubanSpider'
    allowed_domains = ['douban.com']
    #瀏覽器的header
    header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36 OPR/54.0.2952.71"}
    #start_urls = ['http://www.douban.com/']
    #設定提交登入資訊的網址，注意要設定cookie儲存登入資訊以實現連續爬取
    def start_requests(self):
        return [Request("https://accounts.douban.com/login", callback=self.parse, meta={"cookiejar": 1})]

    #處理資料的方法
    def parse(self, response):
        #嘗試獲取網頁中的驗證碼連結
        captcha = response.xpath("//img[@id='captcha_image']/@src").extract()
        #根據是否爬取到了驗證碼圖片執行相關處理
        if len(captcha) > 0:
            print("此時有驗證碼")
            #爬取驗證碼圖片至本地，提示使用者進行輸入
            localpath = "E:/Scrapy/result/captcha.png"
            urllib.request.urlretrieve(captcha[0], filename=localpath)
            print("請檢視本地驗證碼圖片並輸入驗證碼")
            captcha_value = input()
            #設定需要提交至登入URL的資料，包括使用者名稱、密碼、驗證碼以及登入成功的回撥頁
            data = {
                "form_email": "正確的使用者名稱",
                "form_password": "正確的對應密碼",
                "captcha-solution": captcha_value,
                "redir": "https://www.douban.com/people/164741792/",
            }
        else:
            print("此時沒有驗證碼")
            #設定需要提交至登入URL的資料，包括使用者名稱、密碼以及登入成功的回撥頁
            data = {
                "form_email": "正確的使用者名稱",
                "form_password": "正確的對應密碼",
                "redir": "https://www.douban.com/people/164741792/",
            }
        print("登入……")
        #登入成功後執行後續方法
        return [FormRequest.from_response(response,
                                          meta={"cookiejar": response.meta["cookiejar"]},
                                          headers=self.header,
                                          formdata=data,
                                          callback=self.next,
                                          )]

    #登入成功後，提取使用者資訊
    def next(self, response):
        print("此時已經登陸完成並爬取了個人中心的資料")
        title = response.xpath("/html/head/title/text()").extract()
        note = response.xpath("//div[@class='note']/text()").extract()
        print(title[0])
        print(note[0])

四、執行結果：

1、輸入命令執行爬蟲，等待出現輸入驗證碼提示：

2、到對應目錄檢視驗證碼圖片，本博文儲存在E盤Scrapy的result資料夾中：

3、之後輸入驗證碼，即可檢視爬取結果：

感謝韋瑋老師的指導

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

Python資料分析學習筆記（1）numpy模組基礎入門

numpy模組可以進行高效的資料處理，並提供了陣列的支援，很多模組都依賴他，比如pandas、scipy、matplotlib等，因此這個模組是基礎。（1）匯入： import numpy （2）建立一維和二維陣列： #建立一維陣列 x=numpy.

Python資料分析學習筆記（6）資料規約實戰--以主成分分析PCA為例

一、相關理論： 1、資料規約：產生更小且保持資料完整性的新資料集。意義在於降低無效、錯誤資料；降低儲存成本；少量且具有代表性的資料大幅加快，主要分為以下兩類： ①屬性規約：屬性合併或刪除無關維，目標是尋找最小子集使子集概率分佈儘可能與原來相同。常用方法：（

Python資料爬蟲學習筆記（13）爬取微信文章資料

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：二、搜尋頁URL分析階段： 1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察： 2、注意到頁碼由page=X決定，搜尋關鍵

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

Python資料爬蟲學習筆記（1）讀取併合並Excel

需求：寫一個Python程式，實現多個Excel表格的合併。準備：在E盤3個待合併的測試檔案，如下所示：在每個檔案中的sheet1和sheet2中隨便寫點東西。（1）簡便方法： import openpyxl wb1 = openpyxl.load

Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例 1.檢視該板塊的每一頁的URL：注意到第一頁是“0-1.html”，第二頁是“0-2.html”，由

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

Python爬蟲學習筆記（三）——正則表達式

斜杠這一 seh 爬蟲 class 學習常用方法部分介紹介紹正則表達式是一種處理字符串的強大工具，能實現字符串的檢索、替換、匹配驗證等。在爬蟲中，正則表達式主要用於從HTML裏提取所需要的信息常用的匹配規則模式描述 \w 匹配字母、數字及下劃

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

python爬蟲學習筆記（二）——基礎篇之爬蟲基本原理

包括 for .py 非關系型原理 sof 301跳轉 close bsp 1.什麽是爬蟲？　　請求網站並提取數據的自動化程序 2.爬蟲基本流程　2.1發起請求　　通過HTTP庫向目標站點發起請求，即發起一個Request，請求可以包含額外的headers等信息，等

python 資料分析學習筆記（第三章）

boxplot 箱形圖 catering_sale = '../data/catering_sale.xls' #餐飲資料 data = pd.read_excel(catering_sa

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

Haskell語言學習筆記（19）File IO

副作用才會 lose file 類型 ask pen 函數有效關於IO Action 類型為IO t。運算時不執行，因而沒有任何效果，只有執行時才會有效果，產生副作用。一個IO Action只有在其他IO Action中才能被執行。類型為IO t的I

神箭手爬蟲學習筆記（二）

暫存自動表達 eve doc 常用學習數據 .sh 一，可以使用神劍手已經做好的爬蟲市場直接跑，不需要自己定義爬取規則二，爬蟲市場裏沒有的網站，需要自己去定義規則來爬數據。三，爬取的數據可以先存放在神劍手，也可以放到七牛暫存。（提醒下，網站需要數據備份如果數量不

Python 3.6學習筆記（一）

示例 ror 功能 put -m 但是對象初始化 absolut 開始之前基礎示例 Python語法基礎，python語法比較簡單，采用縮緊方式。 # print absolute value of a integer a = 100 if a >= 0:

流暢的python和cookbook學習筆記（一）

構造函數推導笛卡爾 expr 列表推導叠代建立笛卡兒 imp 1.數據結構 1.1 內置序列類型　　四種序列類型：　　1.容器序列：list、tuple和collections.deque 　　2.扁平序列：str、bytes、bytearray、memory

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

感謝韋瑋老師的指導

相關推薦