python從資料庫獲取全量資料的方法

阿新 • • 發佈：2019-02-03

資料庫：postgresql

（1）第一種方法：使用分頁查詢的方式，不推薦使用特別是在資料量大的時候

首先計算總資料量，然後根據每次查詢的大小batch_size計算總共有多少頁，再一頁一頁的去獲取資料。

由於分頁查詢類似ES中的深度分頁，頁數越大效率越低，因此在資料量小的時候用用還湊合。

import psycopg2.pool
from datetime import datetime

# 資料庫連線
conn = psycopg2.connect(database="dbname", user="username", password="123456", host="172.0.0.0", port="5432")
# 獲取遊標
cursor = conn.cursor()
# 批量查詢大小
batch_size = 1000

def limit_offset_query():
    """
    分頁查詢
    :return:
    """
    # 資料總量
    total_count = get_total_count()
    if total_count <= 0:
        return
    # 總頁數
    total_page = total_count / batch_size
    # 開始時間
    start_time = datetime.now()
    for i in range(int(total_page) + 1):# 遍歷每一頁
        # 起始位置
        start = batch_size * i
        # 查詢資料
        result_list = get_tweet_by_page(start, batch_size)
        if (len(result_list) > 0):
            print('獲取%s到%s資料成功' % (start, start + batch_size))
    print('limit offset獲取全量資料所用時間:', (datetime.now() - start_time).seconds)


def get_total_count():
    """
    分頁查詢獲取總數量
    :return:
    """
    sql = "select count(*) from tablename"
    cursor.execute(sql)
    rst = cursor.fetchone()
    if rst is None:
        return 0
    return rst[0]


def get_tweet_by_page(start, pagesize):
    """
    分頁查詢
    :param start:
    :param pagesize:
    :return:
    """
    sql = "select * from tablename limit %s offset %s "
    cursor.execute(sql, [pagesize, start])
    rst = cursor.fetchall()
    return rst

limit_offset_query()

（2）第二種方式，使用遊標fetchmany方法，獲取全量資料，在大資料量下推薦使用

fetchmany方法接受一個size引數，fetchmany每次呼叫的時候從上次的位置向後移動遊標返回size條資料。

參考文件中的例子：

從test表中獲取全部資料，一共有3條資料：

第一次呼叫fetchmany引數返回兩條資料，遊標移動兩個位置。

第二次呼叫fetchmany雖然size傳入為2，但是隻剩一條資料，因此返回一條資料，遊標向後移動一個位置。

第三次呼叫fetchmany方法時由於資料已經全部返回，因此返回空資料。

>>> cur.execute("SELECT * FROM test;")
>>> cur.fetchmany(2)
[(1, 100, "abc'def"), (2, None, 'dada')]
>>> cur.fetchmany(2)
[(3, 42, 'bar')]
>>> cur.fetchmany(2)
[]

關於服務端遊標server side curosr和客戶端遊標client side cursor:

根據文件的描述，通過資料庫連線建立遊標的時候，如果傳入name引數，就會返回一個服務端遊標，如果name引數為空，返回的則是一個客戶端遊標，如果返回的結果集數量比較大，應該使用服務端遊標。

測試資料大概有100萬，剛開始name引數為空執行程式的時候直接記憶體飆升，pycharm卡頓，可能就是因為返回的是客戶端遊標，客戶端遊標只能處理小量資料。

import psycopg2.pool
from datetime import datetime


# 批量查詢大小
batch_size = 1000


def cursor_query():
    # 使用資料庫連線池，使用普通的連線方法執行貌似也會記憶體飆升，因此改為了連線池
    simple_conn_pool = psycopg2.pool.SimpleConnectionPool(minconn=1, maxconn=5, database="dbname", user="username",
                                                          password="123456", host="172.0.0.1", port="5432")
    # 從資料庫連線池獲取連線
    conn = simple_conn_pool.getconn()
    # 自動提交事務設為false
    conn.autocommit = False
    # 建立遊標,這裡傳入name引數，會返回一個服務端遊標否則返回的是客戶端遊標
    cursor = conn.cursor('cursorname')
    # 首先查詢全量資料
    cursor.execute('select * from tablename')
    count = 0
    # 開始時間
    start_time = datetime.now()
    while True:
        count = count + 1
        # 每次獲取時會從上次遊標的位置開始移動size個位置，返回size條資料
        data = cursor.fetchmany(batch_size)
        # 資料為空的時候中斷迴圈
        if not data:
            break
        print('獲取%s到%s資料成功' % ((count - 1) * batch_size, count * batch_size))
    print('fetchmany獲取全量資料所用時間:', (datetime.now() - start_time).seconds)

cursor_query()

資料表大概有100萬資料，分別用兩種方法測試了一下時間：

使用limit offset分頁查詢耗時321s：

limit offset獲取全量資料所用時間：321

使用fetchmany方法耗時122s:

fetchmany獲取全量資料所用時間: 122

python從資料庫獲取全量資料的方法

資料庫：postgresql（1）第一種方法：使用分頁查詢的方式，不推薦使用特別是在資料量大的時候首先計算總資料量，然後根據每次查詢的大小batch_size計算總共有多少頁，再一頁一頁的去獲取資料。由於分頁查詢類似ES中的深度分頁，頁數越大效率越

從資料庫獲取到json資料，前端用vue.js資料繫結

function userinfor() { $.get("http://127.0.0.1:8082/lzghcg/user/userShows", function(result, state) { //這裡顯示從伺服器返回的資料 new Vue

介面測試: 用Jmeter從資料庫獲取測試資料, 作為下一個介面引數方法

現在有一個需求，從資料庫tieba_info表查出rank小於某個值的username和count(*)，然後把所有查出來的username和count(*)作為引數值，用於下一個介面。（資料庫連線配置，請參考我的另外一篇博文jmeter測試mysql資料庫之JDBC請求https://blo

python專案篇-從資料庫獲取資料以Json格式返回前端資料視覺化方式顯示

views.py: def adminEchartIncome(request): ret = models.incomeAccount.objects.all().order_by("dayIncome","id") # ret = serialize("json

symfony2實現從資料庫獲取資料的方法

假設有一張表：test，欄位：name,color 有兩條記錄：Tom blue Lily red 1 $conn=$this->getDoctrine()->getConnection();

史上最全Python從入門到資深書籍資料分享！

暢銷書 jpeg 集成 mar sha 鞏固技能 ima 能力今天我來為大家分享十本不可錯過的Python好書，分別適合入門、進階到精深三個不同階段的人來閱讀。 Python高性能編程 Amazon 五星暢銷書。 Python 入門進階必讀。 Python代碼僅僅能夠

省級聯動從資料庫獲取資料

主要就是前臺js程式碼,後臺就是根據id直接查詢的 html程式碼 <select style="width:130px" name="provinceCode" id="province"> <option value="0">--請選擇--<

陌陌迴應資料洩露：誰都無法直接從資料庫獲取明文密碼

12月3日訊息。有微博網友曝出陌陌2015年的賬戶密碼資訊在暗網上公開售賣，資料量達到3000萬條，而要價只有區區50美元，摺合人民幣還不到350元。不過賣家表示，這批資料是2015年7月17日寫入的，也就是已經三年多，因此不保證現時有效性，只適合撞庫使用，且一經售出

Python從資料庫匯出資料成excel

from trump.db import query from utils.result_process import success,aborted import xlwt import datetime import config_business from sanic

PullToRefersh、網路獲取資料新增到adapter和資料庫然後顯示、無網路時從資料庫獲取資料新增到另一個adapter 然後顯示

package liyuanqi.bwie.com.pulltorrfresh; import android.content.Context; import android.net.ConnectivityManager; import android.net

Echart實現從資料庫獲取資料展示圖表（結合Servlet和SSM實現的兩種例項）

2018年5月30日（UPDATE）: Google郵箱不怎麼上，建議Email [email protected]------------------------------

easyui combobox下拉框省市縣三級聯動(從資料庫獲取資料)

//combobox的onLoadSuccess,onChange,onSelect事件省:<input id="province" style="width: 110px;" /> 市:<input id="city" style="width

Python從資料庫讀取大量資料批量寫入檔案

使用機器學習訓練資料時，如果資料量較大可能我們不能夠一次性將資料載入進記憶體，這時我們需要將資料進行預處理，分批次載入進記憶體。下面是程式碼作用是將資料從資料庫讀取出來分批次寫入txt文字檔案，方便我

動態從資料庫獲取資料實時插入圖表

1.實現效果圖 2.jsp檔案 <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <%@ taglib prefix="f

量化：從okex獲取k線資料，symbol（交易對），去重處理，存入到mongodb資料庫

import json import time import pymongo from threading import Thread import pandas as pd from urllib.request import Request, urlopen

python操作資料庫獲取資料

row = sessinon.execute(sql).ftetchall() 取得所有資料，型別是一個list,一行資料算一個tuple.[(),()] 為空時判斷 row == [] row = sessinon.execute(sql).ftetchone() 取

Python從資料庫取數，對時間進行處理，統計資料彙總後畫圖

#-*- coding: utf8 -*- import odbc import numpy as np import pylab as pl allDate = [] allData = [] if __name__ == '__main__': print("run success") a

hbase海量資料的全量匯入方法

最近有個需求要對mysql的全量資料遷移到hbase,雖然hbase的設計非常利於高效的讀取，但是它的compaction實現對海量資料寫入造成非常大的影響，資料到一定量之後，就開始抽風。分析hbase的實現，不管其執行的機制，其最終儲存結構為分散式檔案系統中的hfile格

ajax寫級聯效果，動態從資料庫獲取資料

要實現的級聯資料的效果是，諮詢方式有多種，有的有子諮詢方式，有的沒有，直接上圖圖一中選擇自選方式，例如：選擇面詢，效果如圖二，後面對應的有面詢的子諮詢方式，有的沒有子諮詢方式，如圖三，沒有子諮詢方式，後面不顯示

從資料庫獲取資料插入頁面

控制器中程式碼記得在路由表中新增路由： public function postCategoryList() { $result = DB::connection('news')->table('categories')->select('id','pi

python從資料庫獲取全量資料的方法

相關推薦