Python多程序處理：如何將大量資料放入有限記憶體

簡介

這是一篇有關如何將大量的資料放入有限的記憶體中的簡略教程。

與客戶工作時，有時會發現他們的資料庫實際上只是一個csv或Excel檔案倉庫，你只能將就著用，經常需要在不更新他們的資料倉庫的情況下完成工作。大部分情況下，如果將這些檔案儲存在一個簡單的資料庫框架中或許更好，但時間可能不允許。這種方法對時間、機器硬體和所處環境都有要求。

下面介紹一個很好的例子：假設有一堆表格（沒有使用Neo4j、MongoDB或其他型別的資料庫，僅僅使用csvs、tsvs等格式儲存的表格），如果將所有表格組合在一起，得到的資料幀太大，無法放入記憶體。所以第一個想法是：將其拆分成不同的部分，逐個儲存。這個方案看起來不錯，但處理起來很慢。除非我們使用多核處理器。

目標

這裡的目標是從所有職位中（大約1萬個），找出相關的的職位。將這些職位與政府給的職位程式碼組合起來。接著將組合的結果與對應的州（行政單位）資訊組合起來。然後用通過word2vec生成的屬性資訊在我們的客戶的管道中增強已有的屬性。

這個任務要求在短時間內完成，誰也不願意等待。想象一下，這就像在不使用標準的關係型資料庫的情況下進行多個表的連線。

資料

職位資料

referencenumber	title	postdate	url	company	city	state	description
1652398203	Sales Associate	2014-07-09 13:47:18	URL link	Company Name	City	State	Our Sales Associates are…

“表格太長，請到原文檢視。”

標題資料

ID	Title
82	Pediatricians, General

OES資料

area	area_title	area_type	naics	naics_title	own_code	後略…
99	U.S.	1	000000	Cross-industry	1235	00-0000

“表格太長，請到原文檢視。”

SOC表

2010 SOC Code	2010 SOC Title	2010 SOC Direct Match Title	llustrative Example
11-1011	Chief Executives	CEO

示例指令碼

下面的是一個示例指令碼，展示瞭如何使用multiprocessing來在有限的記憶體空間中加速操作過程。指令碼的第一部分是和特定任務相關的，可以自由跳過。請著重關注第二部分，這裡側重的是multiprocessing引擎。

Python

1234567891011121314151617181920212223242526272829303132333435363738394041424344

#import the necessary packagesimportpandas aspdimportusimportnumpy asnpfrommultiprocessingimportPool,cpu_count,Queue,Manager# the data in one particular column was number in the form that horrible excel version # of a number where '12000' is '12,000' with that beautiful useless comma in there. # did I mention I excel bothers me?# instead of converting the number right away, we only convert them when we need todefmedian_maker(column):returnnp.median([int(x.replace(',',''))forxincolumn])# dictionary_of_dataframes contains a dataframe with information for each title; e.g title is 'Data Scientist'# related_title_score_df is the dataframe of information for the title; columns = ['title','score'] ### where title is a similar_title and score is how closely the two are related, e.g. 'Data Analyst', 0.871# code_title_df contains columns ['code','title']# oes_data_df is a HUGE dataframe with all of the Bureau of Labor Statistics(BLS) data for a given time period (YAY FREE DATA, BOO BAD CENSUS DATA!)defjob_title_location_matcher(title,location):try:related_title_score_df=dictionary_of_dataframes[title]# we limit dataframe1 to only those related_titles that are above # a previously established thresholdrelated_title_score_df=related_title_score_df[title_score_df['score']>80]#we merge the related titles with another table and its codescodes_relTitles_scores=pd.merge(code_title_df,related_title_score_df)codes_relTitles_scores=codes_relTitles_scores.drop_duplicates()# merge the two dataframes by the codesmerged_df=pd.merge(codes_relTitles_scores,oes_data_df)#limit the BLS data to the state we wantall_merged=merged_df[merged_df['area_title']==str(us.states.lookup(location).name)]#calculate some summary statistics for the time we wantgroup_med_emp,group_mean,group_pct10,group_pct25,group_median,group_pct75,group_pct90=all_merged[['tot_emp','a_mean','a_pct10','a_pct25','a_median','a_pct75','a_pct90']].apply(median_maker)row=[title,location,group_med_emp,group_mean,group_pct10,group_pct25,group_median,group_pct75,group_pct90]#convert it all to strings so we can combine them all when writing to filerow_string=[str(x)forxinrow]returnrow_stringexcept:# if it doesnt work for a particular title/state just throw it out, there are enough to make this insignificant'do nothing'

這裡發生了神奇的事情：

Python

1234567891011121314151617181920212223242526272829303132333435363738394041

#runs the function and puts the answers in the queuedefworker(row,q):ans=job_title_location_matcher(row[0],row[  

              
              
            
相關推薦Python多程序處理：如何將大量資料放入有限記憶體 
                簡介這是一篇有關如何將大量的資料放入有限的記憶體中的簡略教程。與客戶工作時，有時會發現他們的資料庫實際上只是一個csv或Excel檔案倉庫，你只能將就著用，經常需要在不更新他們的資料倉庫的情況下完成工作。大部分情況下，如果將這些檔案儲存在一個簡單的資料庫框架中或許更好，但時間 
PYTHON——多執行緒：佇列Queue資料結構 1、佇列模組簡介 
　　佇列是一種資料結構，用於存放資料，類似列表。它是先進先出模式（FIFO模式），類似管道一般； 
單執行緒不需要用到佇列Queue，它主要用在多執行緒之間的，Queue稱為多執行緒利器。 
列表在多執行緒共享資源的話，與queue佇列比較，主要表現為列表在多執行緒中，資料不安全。多個執行 
python多程序併發中，解決資料共享問題Value+Array 
                參考文章：http://www.jb51.net/article/57666.htm之前多執行緒執行的時候，全部用的全域性變數，程式碼如下：#!/usr/bin/env python
#encoding: utf-8

import requestSender as AB
i 
[Golang] 從零開始寫Socket Server（4）：將執行引數放入配置檔案（XML/YAML）  
 
 
     為了將我們寫好的Server釋出到伺服器上，就要將我們的程式碼進行build打包，這樣如果以後想要修改一些程式碼的話，需要重新給程式碼進行編譯打包並上傳到伺服器上。     顯然，這麼做過於繁瑣。。。因此常見的做法都是將Server執行中 
Python的併發處理：（一）並行執行多個互不相干的子程序 
這是併發處理中最簡單的一種情況。應用場景當然也很簡單。一般會是這樣：通過傳遞不同的引數，讓同一個函式在同一時間內執行幾種不同的任務，達到多工並行的效果，提升吞吐量。
我們有這樣一個要求：分別往2個檔案中寫入百W級資料，在序列狀態下的指令碼是這樣的：
【code-1】

import time
     
' 
PYTHON——多程序：Process類 構造方法： 
Process([group [, target [, name [, args [, kwargs]]]]]) 
　　group: 執行緒組，目前還沒有實現，庫引用中提示必須是None； 　　target: 要執行的方法； 　　name: 程序名； 　　args/ 
Python多程序程式設計及多程序間的通訊，資料傳輸 


多程序程式設計及程序間的通訊

意義：充分利用計算機的資源提高程式的運算速率
定義：通過應用程式利用計算機多個核心達到同時執行多個任務的目的，以此提高計算機的執行速率
實施方案：多程序 多執行緒
並行： 計算機同時處理多個任務
併發：同時處理多個任務，核心在不斷的任務間小虎切換，達到好像還都在處理執行的 
Python指令碼：將Redis資料轉存到Mysql列表中 
                目錄

一、思路



三、總結





一、思路

       連線指定的redis和mysql資料庫，從redis中取出資料，然後存到mysql中,中間會遇到幾個問題，在下面的程式碼片段中指出



二、程式碼實現

# coding=utf-8

import js 
【Multiprocessing】Python多程序記憶體共享資料佇列SMQueue 
							
							
							0x00 前言
自從先前研究了下Python的多程序計算（原文連結）之後，
深深地感受到多程序處理的美好，並決定運用到模型訓練時，
作為 feed data 的資料處理模組使用，實現工具類 SharedMemoryQueue。
但是眾所周知，python的程序間 
資料預處理：讀取檔案資料，並存為python陣列  
  
  
 檔案的簡單讀取 
 # 定義一個將檔案中的資料轉化為陣列的類
import numpy as np
class DataUtil:
# =============================================================================
 
python多程序  程序池：multiprocessing.pool 
                在利用Python進行系統管理的時候，特別是同時操作多個檔案目錄，或者遠端控制多臺主機，並行操作可以節約大量的時間。當被操作物件數目不大時，可以直接利用multiprocessing中的Process動態成生多個程序，十幾個還好，但如果是上百個，上千個目標，手動的去限制程序數 
【python Excel】如何使用python將大量資料匯出到Excel中的小技巧之二 
                最近對python的openpyxl 升級到了__version__ = '2.5.4'，發現原先的程式碼不能使用，各種報錯之後，然後重新了寫的版本，故分享給各位同仁。如有錯誤，敬請賜教。# coding:utf-8
"""
File Name:  Excel.py
Func 
使用python多程序快速複製資料夾 from multiprocessing import Pool,Managerimport os,sysimport timeimport argparse 
def recvParameter():parse = argparse.ArgumentParser()parse.add_argument("- 
python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之 多程序  Python多程序 Python 使用multiprocessing 特別耗記 什麼是多執行緒/多程序 
引用蟲師的解釋： 
 
 計算機程式只不過是磁碟中可執行的，二進位制（或其它型別）的資料。它們只有在被讀取到記憶體中，被作業系統呼叫的時候才開始它們的生命期。 
 程序（有時被稱為重量級程序）是程式的一次執行。每個程序都有自己的地址空間，記憶體，資料棧以及其它記錄其執行軌跡的輔助資料 
Python多程序抓取拉鉤網十萬資料  
 
 準備 
 安裝Mongodb資料庫 
 其實不是一定要使用MongoDB，大家完全可以使用MySQL或者Redis，全看大家喜好。這篇文章我們的例子是Mongodb，所以大家需要下載它。 
 在Windows中。由於MongoDB預設的資料目錄為C:\data\db，建議大家直接在安裝的時候更改預設 
python學習筆記4：將list陣列資料報存到csv  
 
 1. 
 import numpy as np
np.savetxt('E:\\forpython\\featvector.csv',data_to_save,delimiter=',') 
 2. 
 import pandas as pd list=[[1,2,3],[4,5,6],[7,9,9 
如果你不會Python多程序！那你會爬蟲？扯淡！抓取拉鉤網十萬資料 這篇文章我們來抓取 拉鉤網 的招聘資訊。全部抓取大概十幾萬條全國招聘資訊，並且儲存資料庫。準備安裝Mongodb資料庫其實不是一定要使用MongoDB，大家完全可以使用MySQL或者Redis，全看大家喜好。這篇文章我們的例子是Mongodb，所以大家需要 下載 它。最後我們需要開啟管理員許可權的 CMD 視 
python數據處理：pandas基礎 log   eat   ges   處理   保留   sed   lang   sce   rop   本文資料來源：
　　Python for Data Anylysis： Chapter 5
　　10 mintues to pandas: http://pandas.pydata.org/pandas- 
python-多線程：調用thread模塊中的start_new_thread()函數來產生新線程 重要   按鈕   指令   usr   utf-8   pre   有一個   dna   上下文   Python 多線程
多線程類似於同時執行多個不同程序，多線程運行有如下優點：

使用線程可以把占據長時間的程序中的任務放到後臺去處理。
用戶界面可以更加吸引人，這樣比如用戶點擊了一個按鈕去觸發某些事件的 
Javascript裏面的時間處理：將時間戳或時間對象轉成字符串格式 local   replace   lin   TP   秒級   ole   date()   itl   -h   　　問題背景：想把一個時間直接轉成字符串格式
　　通過查api發現有個toLocaleString()，根據本地時間格式，把 Date 對象轉換為字符串

new Date().toLoca 

    搜尋
    
        
      
      
    
  
基礎教學 
    Mysql入門  
     Sql入門 
      Android入門 
       Docker入門 
        Go語言入門 
         Ruby程式入門 
          Python入門 
           Python進階 
            Django入門 
             Python爬蟲入門 
             
      
      
 

    最近訪問
      

  
首頁
前端設計
程式設計
免費資源
實用技巧
資料庫
資訊
字典
Copyright © 2002-2020  程式人生 796T.COM All rights reserved. 
 

Python多程序處理：如何將大量資料放入有限記憶體

目標

資料

示例指令碼

Python多程序處理：如何將大量資料放入有限記憶體

PYTHON——多執行緒：佇列Queue資料結構

python多程序併發中，解決資料共享問題Value+Array

[Golang] 從零開始寫Socket Server（4）：將執行引數放入配置檔案（XML/YAML）

Python的併發處理：（一）並行執行多個互不相干的子程序

PYTHON——多程序：Process類

Python多程序程式設計及多程序間的通訊，資料傳輸

Python指令碼：將Redis資料轉存到Mysql列表中

【Multiprocessing】Python多程序記憶體共享資料佇列SMQueue

資料預處理：讀取檔案資料，並存為python陣列

python多程序程序池：multiprocessing.pool

【python Excel】如何使用python將大量資料匯出到Excel中的小技巧之二

使用python多程序快速複製資料夾

python爬蟲入門八：多程序/多執行緒 python佇列Queue Python多執行緒（2）——執行緒同步機制 python學習筆記——多程序中共享記憶體Value & Array python 之多程序 Python多程序 Python 使用multiprocessing 特別耗記

Python多程序抓取拉鉤網十萬資料

python學習筆記4：將list陣列資料報存到csv

如果你不會Python多程序！那你會爬蟲？扯淡！抓取拉鉤網十萬資料

python數據處理：pandas基礎

python-多線程：調用thread模塊中的start_new_thread()函數來產生新線程

Javascript裏面的時間處理：將時間戳或時間對象轉成字符串格式