Python 遍歷 Mysql 表中資料

阿新 • • 發佈：2018-12-24

需求

Mysql 表中存在幾千萬到幾億的資料（不存在自增主鍵），需要對錶中資料進行遍歷。

使用的是 pymysql 模組。

方案 1

使用 limit 來分塊返回資料。
劣勢：使用 limit 每次都需要從頭掃描資料表，在資料量超過 1000w 時，效能較低。

LIMIT = 5000
def get_name(sql_client, table_name):
    i = 0
    while True:
        sql.ping()
        cur = sql.cursor()

        sql_cmd = 'select did from {} limit {}, {}' 
.format(table_name, i * LIMIT, LIMIT)

        rt = cur.execute(sql_cmd)
        rt_list = cur.fetchall()
        cur.close()

        yield [rt_tuple[0] for rt_tuple in rt_list]

        if rt < LIMIT:
            yield 0

        i += 1

方案 2

使用 pymysql 中的流式遊標 SSCursor，流式遊標將執行結果卡在網路緩衝區，當網路緩衝區堆滿時 Mysql 將查詢暫停，當網路快取區有位置時，將會在上次暫停的地方繼續讀取。

def mysql_connect():
    mysql_client = pymysql.connect(**SQL_CONFIG)
    cur = mysql_client1.cursor()
    # 設定超時時間
    cur.execute('set session net_write_timeout = 800')
    cur.close()
    return mysql_client

def get_name(mysql_client, table_name):
    sscur = mysql_client.cursor(pymysql.cursors.SSCursor)
    sscur.execute('select name from {}' 
.format(table_name))
    i = 0
    for name in sscur:
        i += 1
        yield i, name[0]

    mysql_client.commit()
    sscur.close()
    yield i, 0

問題：
1. 當資料較多時，Mysql 不能在預設的 net_write_timeout 的時間將資料全部發送到客戶端時，程式會丟擲 error2013 , “Lost connection to MySQL server during query 異常，所以修改 Mysql 會話級別的 net_write_timeout 時間，具體數值根據業務處理時間設定。
2. 當個會話正在返回資料的時候不能再對資料庫進行其他操作，程式會發出警告 warnings.warn("Previous unbuffered result was left incomplete")，並且會伴隨著查詢資料返回出問題。如果此時還需要同時對資料庫進行操作，需另外建立會話。

Python 遍歷 Mysql 表中資料

需求

方案 1

方案 2

Python 遍歷 Mysql 表中資料

python將mysql表中資料抽取到另一個mysql庫中，持續更新抽取到oracle中

ubantu，navicat for mysql 表中資料中文亂碼

Mysql表中資料的新增，檢視，修改，刪除

python遍歷並輸出該資料夾與其子目錄下所有後綴為x的檔案

Mysql遍歷大表（Mysql大量資料讀取記憶體溢位的解決方法）

Python 遍歷資料夾中的檔案，並將檔案放到列表中

Python 遍歷資料夾中的指定型別檔案

自然語言處理爬過的坑：使用python遍歷所有的資料夾中的所有文字.標準庫OS的常用函式總結大全

Python mysql-表中數據的大量插入

Oracle刪除表中資料的時候應該注意的問題 Oracle與MySql他們一些表之間的區別

Python 遍歷資料夾裡面的內容 5*

python 遍歷，刪除，複製資料夾下所有檔案

資料結構之DFS遞迴與非遞迴遍歷鄰接表存圖

執行指令碼獲取mysql表中的資料，報1044錯誤

資料結構--C語言--逆序建立單鏈表，遍歷單鏈表，在單鏈表第5個元素前插入一個值為999的元素，刪除單鏈表第5個元素

如何對比mysql資料表的資料與excel表中資料是否重複？

JDBC批量加密mysql表中已有的密碼欄位資料

去除mysql表中重複的的資料

用Python遍歷資料夾下所有電子字典檔案（不包括子資料夾）提取單詞到一個檔案

Python 遍歷 Mysql 表中資料

需求

方案 1

方案 2

相關推薦