python網路爬蟲磁碟快取資料

阿新 • • 發佈：2018-11-14

import os
import re
import urllib.parse
import pickle

class DiskCache:
    def __init__(self,cache_dir='cache'):
        self.cache_dir=cache_dir

    def __getitem__(self, item):
        '''獲取快取'''
        path=self.url_to_path(item)
        if os.path.exists(path):
            with open(path,'wb')as fp:
                return pickle.load(fp)
        else:
            raise KeyError(url+' dose not exist!')

    def __setitem__(self, key, value):
        '''儲存快取'''
        path=self.url_to_path(key)
        folder=os.path.dirname(path)        #返回dirname目錄
        if not os.path.exists(folder):      #沒有父目錄則建立父目錄
            os.makedirs(folder)
        with open(path,'wb') as fp:         #寫入子檔案
            fp.write(pickle.dumps(value))

    def url_to_path(self,url):
        '''為url建立path'''
        components=urllib.parse.urlparse(url)
        path=components.path
        # 主要是避免特殊情況,可以視情況而定
        '''
        if not path:
            path='/start'                       #如果url沒有path就建立一個
        elif path.endswith('/'):                
            path+='no_end'
        '''
        filename=components.netloc+path+components.query
        #替換檔名中的不合法部分
        filename=re.sub('[^/0-9a-zA-Z\-.,;_]','_',filename)
        filename='/'.join(segment[:255] for segment in filename.split('/'))#建立多級目錄
        return os.path.join(self.cache_dir,filename)

#新增壓縮減少磁碟佔用，但是會加大一點查詢時間，不過無關緊要
#在加一個快取過期

import os
import re
import urllib.parse
import pickle
import zlib
import datetime
from datetime import timedelta

class DiskCache:
    def __init__(self,cache_dir='cache',expire=timedelta(days=30)):
        self.cache_dir=cache_dir
        self.expire=expire

    def __getitem__(self, item):
        '''獲取快取'''
        path=self.url_to_path(item)
        if os.path.exists(path):
            with open(path,'wb')as fp:
                result,time=pickle.load(zlib.decompress(fp.read()))
                if self.has_expire(time):
                    raise KeyError(url+' has expired!')
                return result
        else:
            raise KeyError(url+' dose not exist!')

    def __setitem__(self, key, value):
        '''儲存快取'''
        path=self.url_to_path(key)
        folder=os.path.dirname(path)        #返回dirname目錄
        if not os.path.exists(folder):      #沒有父目錄則建立父目錄
            os.makedirs(folder)
        time=datetime.datetime.utcnow()
        with open(path,'wb') as fp:         #寫入子檔案
            fp.write(zlib.compress(pickle.dumps(value,time)))

    def has_expire(self,timestamp):
        return datetime.datetime.utcnow()>timestamp+self.expire

    def url_to_path(self,url):
        '''為url建立path'''
        components=urllib.parse.urlparse(url)
        path=components.path
        # 主要是避免特殊情況,可以視情況而定
        '''
        if not path:
            path='/start'                       #如果url沒有path就建立一個
        elif path.endswith('/'):                
            path+='no_end'
        '''
        filename=components.netloc+path+components.query
        #替換檔名中的不合法部分
        filename=re.sub('[^/0-9a-zA-Z\-.,;_]','_',filename)
        filename='/'.join(segment[:255] for segment in filename.split('/'))#建立多級目錄
        return os.path.join(self.cache_dir,filename)

python網路爬蟲磁碟快取資料

import os import re import urllib.parse import pickle class DiskCache: def __init__(self,cache_dir='cache'): self.cache_dir=cache_dir

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

python網路爬蟲：股票資料定向爬取

步驟說明步驟1：從東方財富網獲取股票列表步驟2：逐一獲取股票程式碼，並增加到百度股票的連結中，最後對這些連結進行逐個的訪問獲得股票的資訊步驟3：將結果儲存到檔案程式碼實現爬取當天一天的股票資料（上海，深圳交易所的） import reques

Python網路爬蟲--歷史天氣資料採集

在很多機器學習應用中，天氣資料為重要的輔助特徵資料，故本文主要介紹如何利用Python獲取歷史天氣資料。目標網站資料爬取的目標網站為天氣網程式設計實現匯入相關包 import requests # 匯入reques

Python網路爬蟲實戰(二)資料解析

上一篇說完了如何爬取一個網頁，以及爬取中可能遇到的幾個問題。那麼接下來我們就需要對已經爬取下來的網頁進行解析，從中提取出我們想要的資料。根據爬取下來的資料，我們需要寫不同的解析方式，最常見的一般都是HTML資料，也就是網頁的原始碼，還有一些可能是Json資料，Json資料是一種輕量級的資料交換格式，相對來說

資料處理（玩轉python網路爬蟲）

從網頁上採集的資料後，大多數的資料是雜亂無章的，這時就需要對資料進行加工處理，去掉一些垃圾資料才能得到我們想要的資料。常用的方法有以下三種方法：字串操作，正則表示式和第三方模組庫。一、字串操作（擷取、替換、查詢和分割）（1）擷取：字串[開始位置:結束位置:間隔位置] 開始位置為

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

python網路爬蟲-資料採集之遍歷單個爬蟲

之所以稱之為爬蟲（Web Carwler）是因為它們可以沿著網路爬行。它們的本質就是一種遞迴方式。為了找到URL連結，它們必須首先獲取網頁內容，檢查這個頁面的內容，在尋找另外一個URL，然後後獲取URL對應的網頁內容，不斷迴圈這一過程。不過要注意的是：你可以這樣重

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

《Python網路爬蟲之三種資料解析方式？

引入回顧requests實現資料爬取的流程指定url 基於requests模組發起請求獲取響應物件中的資料進行持久化儲存其實，在上述流程中還需要較為重要的一步，就是在持久化儲存之前需要進行指定資料解析。因

Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL

簡述以下的程式碼是使用python實現的網路爬蟲，抓取動態網頁http://hb.qq.com/baoliao/。此網頁中的最新、精華下面的內容是由JavaScript動態生成的。審查網頁元素與網頁原始碼是不同。本人對於Python學習建立了一個小小的學習圈子，為各位提供了

05.Python網路爬蟲之三種資料解析方式

一、正則解析二、Xpath解析 --> 測試頁面資料 1 <html lang="en"> 2 <head> 3 <meta charset="UTF-8" /> 4 <

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

python網路爬蟲（10）分散式爬蟲爬取靜態資料

目的意義爬蟲應該能夠快速高效的完成資料爬取和分析任務。使用多個程序協同完成一個任務，提高了資料爬取的效率。以百度百科的一條為起點，抓取百度百科2000左右詞條資料。說明參閱模仿了：https://book.douban.com/subject/27061630/。作者說是簡單的分散式爬蟲（

Python網路爬蟲——Appuim+夜神模擬器爬取得到APP課程資料

一、背景介紹隨著生產力和經濟社會的發展，溫飽問題基本解決，人們開始追求更高層次的精神文明，開始願意為知識和內容付費。從2016年開始，內容付費漸漸成為時尚。羅輯思維創始人羅振宇全力打造“得到APP”就是這樣一款優質的可以聽音訊、學通識課程、看電子書、看直播、記筆記的知識付費平臺，得到匯聚羅振宇、薛兆豐、樑

Python 網路爬蟲實戰：爬取 B站《全職高手》20萬條評論資料

本週我們的目標是：B站（嗶哩嗶哩彈幕網 https://www.bilibili.com ）視訊評論資料。我們都知道，B站有很多號稱“鎮站之寶”的視訊，擁有著數量極其恐怖的評論和彈幕。所以這次我們的目標就是，爬取B站視訊的評論資料，分析其為何會深受大家喜愛。首先去調研一下，B站評論數量最多的視訊是哪一

python網路爬蟲（一）

網路爬蟲之前奏網路爬蟲之規則 Requests庫入門 requests庫的安裝 requests的詳細資訊 Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。 requests庫安裝成功與否的測試

python網路爬蟲五

實戰三—向搜尋引擎提交搜尋請求關鍵點：利用搜索引擎提供的介面百度的介面：wd=“要搜尋的內容” 360的介面：q=“要搜尋的內容” 所以我們只要把我們提交給伺服器的url修改成對應的格式，就可以向搜尋引擎提交關鍵字。修改url，第一個想到的就是params引數。只

Python網路爬蟲快速入門到精通

阿里雲大學線上工作坊上線，原理精講+實操演練，讓你真正掌握雲端計算、大資料技能。 Python專家為你詳細講解爬蟲技術的原理與實戰，3大框架詳解+6場實戰演練+反爬技術+分散式爬蟲，講師線上答疑，全面掌握Python爬蟲。爬蟲有什麼用呢？你要找工作，想知道哪個崗位當前最熱門，爬取分析

python網路爬蟲磁碟快取資料

相關推薦