用mongodb資料庫, 對爬取的頁面進行監控(mongo_cache)和資料儲存

阿新 • • 發佈：2018-12-25

由於在爬蟲時, 可因為各種原因導致爬蟲在爬取頁面的時候從中間斷開連線, 當再次爬取的時候不知道從什麼地方開始, 這裡利用mongodb封裝一個類, 用來監控哪些網頁已經爬取過, 哪些沒有爬取, 為以後監控提供方便.

建立一個mongo_cache.py的檔案, 具體程式碼如下

import pickle
import zlib
from datetime import datetime, timedelta
from pymongo import MongoClient
from bson.binary import Binary


class MongoCache():
    """
    資料庫快取
    Cache，是一種後關係型資料庫。能併發訪問同一資料的資料庫技術.
    """

    # expires到期時間 timedelta時間間隔
    def __init__(self, client=None, expires=timedelta(days=30)):
        self.client = MongoClient("localhost", 27017)
        self.db = self.client.cache
        # 建立索性, 方便快速查詢, 設定超時時間, 如果達到expireAfterSeconds設定的超時時間, mongodb會把超時資料自動刪除
        self.db.webpage.create_index("timestamp", expireAfterSeconds=expires.total_seconds())

    def __setitem__(self, key, value):
        # 壓縮資料, 設定時間戳
        record = {"result": Binary(zlib.compress(pickle.dumps(value))), "timestamp": datetime.utcnow()}
        # 查詢資料庫, 沒有就插入, 有就更新該資料
        # 使用updata的upset(如果不存在執行insert, 存在執行updata)引數進行插入更新操作, $set內建函式表示覆蓋原始資料
        self.db.webpage.update({"_id": key}, {"$set": record}, upsert=True)

    def __getitem__(self, item):
        # 根據_id以item作為關鍵字(例如url: http://www.baidu.com)查詢相關網頁
        record = self.db.webpage.find_one({"_id": item})
        if record:
            # 解壓縮
            return pickle.loads(zlib.decompress(record["result"]))
        else:
            # 找不到丟擲異常
            raise KeyError(item + "does not exist")

    def __contains__(self, item):
        try:
            self[item]  # 這裡會呼叫__getitem__方法
        except KeyError:
            return False  # 捕獲到keyError異常說明沒有找到相關資料, 參考36行丟擲異常的條件
        else:
            return True  # 找到相應資料庫說明資料庫包含下載內容

    def clear(self):
        # 將快取清空
        self.db.webpage.drop()

在以後要監控別的頁面的時候, 只需要呼叫這個類的方法就可以了.

用mongodb資料庫, 對爬取的頁面進行監控(mongo_cache)和資料儲存

由於在爬蟲時, 可因為各種原因導致爬蟲在爬取頁面的時候從中間斷開連線, 當再次爬取的時候不知道從什麼地方開始, 這裡利用mongodb封裝一個類, 用來監控哪些網頁已經爬取過, 哪些沒有爬取, 為以後監控提供方便. 建立一個mongo_cache.py的檔案, 具體程式碼如下 imp

Scrapy框架的學習(2.scrapy入門，簡單爬取頁面，並使用管道(pipelines)儲存資料)

上個部落格寫了： Scrapy的概念以及Scrapy的詳細工作流程 https://blog.csdn.net/wei18791957243/article/details/86154068 1.scrapy的安裝 pip install scrapy

對爬取的網路資訊進行資訊篩選與資訊提取

準備好模組由於資訊多種多樣，這裡以資訊新聞資訊為例，以beautifulsoup為主re和xpath為輔，分享一下我這幾天的挑選資訊的方法。呼叫beautifulsoup from bs4 import BeautifulSoup soup = Bea

爬取虎嗅網，並對爬取數據進行分析

ror range class index 關於 def mob 文章內容 gin 一、分析背景： 1，為什麽要選擇虎嗅　　「關於虎嗅」虎嗅網創辦於 2012 年 5 月，是一個聚合優質創新信息與人群的新媒體平臺。 2，分析內容分析虎嗅網 5 萬篇文章的基本情況，包括

[實戰演練]python3使用requests模塊爬取頁面內容

取圖簡書服務器二進制 tty ret index 內容亂碼 20px 本文摘要： 1.安裝pip 2.安裝requests模塊 3.安裝beautifulsoup4 4.requests模塊淺析 + 發送請求 + 傳遞URL參數 + 響應內容

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

python 爬取頁面鏈接

鏈接爬蟲提取頁面鏈接思路：1 確定入口鏈接2 構造鏈接提取正則表達式3 模擬成瀏覽器4 過濾重復鏈接示例：#!/usr/bin/env python # -*- coding: utf-8 -*- import re import urllib.request def getlink(url)

Python網絡爬蟲Scrapy+MongoDB +Redis實戰爬取騰訊視頻動態評論教學視頻

並發數 www. 深入圖例編程 ppt 研發 read 網絡爬蟲課程簡介學習Python爬蟲開發數據采集程序啦！網絡編程，數據采集、提取、存儲，陷阱處理……一站式全精通！！！目標人群掌握Python編程語言基礎，有誌從事網絡爬蟲開發及數據采集程序開發的人群。學習目

爬取頁面和審查元素獲取的內容不一致

打開 nbsp 手機信息發送 http arm 動態網站結果手機今天看書看到圖片爬蟲實戰之爬取京東手機圖片這一節，想著自己動手練習一下，因為以前看過視頻所以思路還是比較清晰，主要是為了復習鞏固剛剛學的正則表達式。打開京東手機頁面， https://li

爬蟲系列（六）--爬取頁面上的影象

爬蟲系列（六）--爬取頁面上的影象馬上國慶節了，要是再不寫，可能又要到了十一過後才能寫了。影象的爬取和普通頁面的爬取是一樣的，只是不需要進行轉碼，是二進位制資料，直接寫入檔案中就行了。要注意的地方就是副檔名，還有圖片檔案是否已經存在了。 1.目標簡介下面的內容要實現的是爬取取

Scrapy爬取頁面錯誤原因彙總

錯誤原因彙總１．網址錯誤２．縮排問題３．網頁有反爬蟲反爬蟲解決方案：基本：請求頭user-agent IP代理改機器人協議以及cookie ROBOTSTXT_OBEY = False COOKIES_ENABLED = False 設定延遲　

python 使用selenium和requests爬取頁面資料

目的：獲取某網站某使用者下市場大於1000秒的視訊資訊 1.本想通過介面獲得結果，但是使用post傳送資訊到介面，提示服務端錯誤。 2.通過requests獲取頁面結果，使用html解析工具，發現麻煩而且得不到想要的結果 3.直接通過selenium獲取控制元件的屬性資訊，如圖片、視訊地址，再對時間進行篩選

python 使用selenium和requests爬取頁面數據

ret pre tex 爬取 test user 發現 rom request 目的：獲取某網站某用戶下市場大於1000秒的視頻信息 1.本想通過接口獲得結果，但是使用post發送信息到接口，提示服務端錯誤。 2.通過requests獲取頁面結果，使用html解析工具，發現

對爬取中國裁判文書網的分析

相信做爬蟲的小夥伴們遇到‘中國裁判文書網’，就感覺無從下手。沒關係，救星來了，幫你快速理清爬蟲思路。一.工具：谷歌瀏覽器二.要爬取的內容：所有案件的決定書的詳細內容。例：但右鍵檢視‘網頁原始碼’，卻什麼內容都沒有。三.裁判文書網分析： 1.該網站是動

用selenium製作爬蟲爬取教務課程資訊

前段時間在選課，而我們的教務系統又十分蛋疼。先是在選課時不停崩潰，進不去，選課結束要列印選課單時又因為它自己系統太老而不支援64位瀏覽器列印課表。。。沒有辦法我就寫了一個爬取教務課程資訊並將其儲存在MongoDB中的程式，這個程式稍微改改就可以變成搶課指令碼了。內容有

解析js程式碼實現爬取頁面所有的ip地址[面試題]

該網頁只有在重新整理時, 才能顯示後面的頁面, 且頁面會開啟新的頁面, 跳轉時需要的cookies, 由第一個頁面的cookies動態生成. 下面是具體程式碼: import requests import re import lxml.html class ExamSpider

用Python分分鐘爬取豆瓣本週口碑榜，就是有這麼秀！

平常在生活中，不知道大家是怎麼找電影的，反正小編是通過電影本週口碑榜來找的，個人感覺通過這種方式找來的電影都挺不錯的。既然提到口碑榜，不如我們來爬下豆瓣電影本週口碑榜上的電影吧，怎麼爬嘞，當然是用我們的Python爬蟲啦！下面開始簡單的介紹如何寫爬蟲。在寫爬蟲前，我們首先簡單

用Python分分鐘爬取豆瓣本周口碑榜，就是有這麽秀！

再看 bsp 小夥伴網址 cap 本周提取統一 ext 平常在生活中，不知道大家是怎麽找電影的，反正小編是通過電影本周口碑榜來找的，個人感覺通過這種方式找來的電影都挺不錯的。既然提到口碑榜，不如我們來爬下豆瓣電影本周口碑榜上的電影吧，怎麽爬嘞，當然是用我們的Pytho

電影就要用Python一鍵爬取，你說呢？

本次要爬取的網站是電影天堂，相信不少朋友都在這個網站上下載最近出版的電影，最重要的是這個電影網站是免費的！雖然有時候下載提示需要版權，但中國網民是很強大的，換個網站立馬就又能搜到一個免版權的~ 小編在這裡宣告：本文章用於教學，支援正版好了

利用cookie爬取頁面

在登入網站的過程中，有的網頁只有通過登入之後，才能顯示出來。並且有的網頁登入和不登入是不一樣的。如果通過爬蟲抓取的話，可以通過先登入一次然後通過cookie來進行登入。測試網頁為麥子學校的登入頁面 #!/usr/bin/env python #coding=utf-8im

用mongodb資料庫, 對爬取的頁面進行監控(mongo_cache)和資料儲存

相關推薦