pandas讀取20W資料excel，每999行生成一個查詢sql語句

阿新 • • 發佈：2018-11-05

前言

工作中遇到一個小問題，Oralce資料庫的查詢是不能大於1000條in查詢的，所以需要對檔案進行切割。資料來源是20w的excel資料，於是想到用pandas對其進行讀取，然後每998行生成一個新的sql檔案。

程式碼實現

# coding = utf-8

"""
@author: sy

@file: readexcel.py

@time: 2018/6/15 10:11

@desc:

"""
import pandas as pd

#from multiprocessing.dummy import Pool as ThreadPool
#from functools import partial 本想試下多執行緒 



def read_data():
    short_data = pd.read_excel('C:/Users/sy/Desktop/split/data.xlsx', sheet_name='Sheet1')
    short_data = short_data.fillna(-1)
    sql_str = 'select t.policyno from xxxxx t where t.policyno in ('
    sum_sql = ''
    # pandas 讀取的型別為DataFrame,也是可迭代的物件
    for i, excel_policy_no in enumerate 
(short_data['保單號']):
        sum_sql += "'" + str(excel_policy_no) + "',"
        if i != 0 and i % 997 == 0:
            sum_sql += "'" + str(excel_policy_no) + "');"
            sql = sql_str + sum_sql
            thread_function(i, sql)
            sum_sql = ''


def thread_function(i, sql):
    write_sql( 
'C:/Users/sy/Desktop/split/' + str(i) + '.sql', sql)


def write_sql(filename, content):
    with open(filename, 'a', encoding='utf-8') as f:
        f.write(content)


if __name__ == '__main__':
    read_data()

總結

耗時多數在讀取20W資料的時候，讀取excel時，一次全讀到記憶體中了，所以比較慢，像pandas自帶的csv讀取，可以進行分塊讀取。excel我查閱了相關官方文件，並沒有看到相應屬性，若有更好的方式歡迎留言討論！

pandas讀取20W資料excel，每999行生成一個查詢sql語句

前言

程式碼實現

總結

pandas讀取20W資料excel，每999行生成一個查詢sql語句

Informix資料表結構分析資料整理之欄位型別說明和查詢SQL語句

從主檔案中讀取n個子資料夾中的圖片（每一子檔案中有兩個資料夾，每兩個檔案中有18張圖片）

文件讀取草稿（excel，csv）

excel vba和python pandas庫在處理excel，數據循環嵌套查詢方面的比較。

pandas 讀取本地csv檔案，處理，儲存

Pandas讀取並修改excel檔案筆記

Pandas讀取並修改excel

【C#】解決進行反序列化時出錯:。InnerException 訊息是“反序列化物件屬於型別 System.String 時出現錯誤。讀取 XML 資料時，超出最大字串內容長度配額 (8192)。

POI包讀取、編輯EXCEL，xls、xlsx

Java POI SAX模式讀取大資料Excel

InnerException 訊息是“反序列化物件屬於型別 *** 時出現錯誤。讀取 XML 資料時，超出最大字串內容長度配額 (8192)。(注意細節)

大資料敲門磚，想入行大資料必須學習這些知識

oracle 分組取第一行資料，查詢sql語句

使用pandas讀取中文unicode的csv和新增行標題的方法

Linux訪問Windows共享資料夾，關於mount cifs的一個問題

C#操作PDF文件--PDFBox讀取pdf文件，O2S.Components.PDFRender4NET生成縮圖

easyui-datagrid行編輯，後臺以主表為基表關聯從表進行查詢資料後，在前臺行編輯欄位內容的顯示

java mybatis學習之$和#區別，mapper代理接口，動態SQL，在日誌中輸出mybatis的sql語句

模糊查詢sql語句條件是中文在後臺從數據庫查不到結果，是英文和字母就可以，而且統一編碼為UTF-8了！！！

pandas讀取20W資料excel，每999行生成一個查詢sql語句

前言

程式碼實現

總結

相關推薦