1. 程式人生 > >百萬級數據插入的優化

百萬級數據插入的優化

發送 缺省 速度 相對 oba 顯示 macbook 不能 -i

插入分析

MySQL中插入一個記錄需要的時間由下列因素組成,其中的數字表示大約比例:

  • 連接:(3)
  • 發送查詢給服務器:(2)
  • 分析查詢:(2)
  • 插入記錄:(1x記錄大小)
  • 插入索引:(1x索引)
  • 關閉:(1)

如果我們每插入一條都執行一個SQL語句,那麽我們需要執行除了連接和關閉之外的所有步驟N次,這樣是非常耗時的,優化的方式有一下幾種:

  1. 在每個insert語句中寫入多行,批量插入
  2. 將所有查詢語句寫入事務中
  3. 利用Load Data導入數據

每種方式執行的性能如下。

Innodb引擎

InnoDB 給 MySQL 提供了具有事務(commit)、回滾(rollback)和崩潰修復能力(crash recovery capabilities)的事務安全(transaction-safe (ACID compliant))型表。InnoDB 提供了行鎖(locking on row level)以及外鍵約束(FOREIGN KEY constraints)。

InnoDB 的設計目標是處理大容量數據庫系統,它的 CPU 利用率是其它基於磁盤的關系數據庫引擎所不能比的。在技術上,InnoDB 是一套放在 MySQL 後臺的完整數據庫系統,InnoDB 在主內存中建立其專用的緩沖池用於高速緩沖數據和索引。

測試環境

Macbook Air 12mid apache2.2.26 php5.5.10 mysql5.6.16

總數100W條數據

插入完後數據庫大小38.6MB(無索引),46.8(有索引)

  • 無索引單條插入 總耗時:229s 峰值內存:246KB
  • 有索引單條插入 總耗時:242s 峰值內存:246KB
  • 無索引批量插入 總耗時:10s 峰值內存:8643KB
  • 有索引批量插入 總耗時:16s 峰值內存:8643KB
  • 無索引事務插入 總耗時:78s 峰值內存:246KB
  • 有索引事務插入 總耗時:82s 峰值內存:246KB
  • 無索引Load Data插入 總耗時:12s 峰值內存:246KB
  • 有索引Load Data插入 總耗時:11s 峰值內存:246KB

MyIASM引擎

MyISAM 是MySQL缺省存貯引擎。設計簡單,支持全文搜索。

測試環境

Macbook Air 12mid apache2.2.26 php5.5.10 mysql5.6.16

總數100W條數據

插入完後數據庫大小19.1MB(無索引),38.6(有索引)

  • 無索引單條插入 總耗時:82s 峰值內存:246KB
  • 有索引單條插入 總耗時:86s 峰值內存:246KB
  • 無索引批量插入 總耗時:3s 峰值內存:8643KB
  • 有索引批量插入 總耗時:7s 峰值內存:8643KB
  • 無索引Load Data插入 總耗時:6s 峰值內存:246KB
  • 有索引Load Data插入 總耗時:8s 峰值內存:246KB

總結

我測試的數據量不是很大,不過可以大概了解這幾種插入方式對於速度的影響,最快的必然是Load Data方式。這種方式相對比較麻煩,因為涉及到了寫文件,但是可以兼顧內存和速度。

引用:http://www.codeceo.com/article/mysql-insert-compare.html

二、PHP+MySQL百萬數據插入

第一種方法:使用insert into 插入,代碼如下:

技術分享

最後顯示為:23:25:05 01:32:05 也就是花了2個小時多! 這是時間擼幾把 都行。。。

第二種方法:使用事務提交,批量插入數據庫(每隔10W條提交下)

最後顯示消耗的時間為:22:56:13 23:04:00 ,一共8分13秒 ,代碼如下:

技術分享

時間是一下縮短不少但還是有點長。

第三種方法:使用優化SQL語句:將SQL語句進行拼接,使用 insert into table () values (),(),(),()然後再一次性插入,如果字符串太長,

則需要配置下MYSQL,在mysql 命令行中運行 :set global max_allowed_packet = 2*1024*1024*10;消耗時間為:11:24:06 11:24:11;

我擦 插入200W條測試數據僅僅用了不到6秒鐘!代碼如下:

技術分享

可能這裏又會有人說數據不大 sql文件導出來也是小200M 5秒鐘 對一表格 進行200萬條數據 速度已經不錯了。

這個再跟大家說一個 TP框架了的 addall方法

技術分享

速度也很快 但是還不如原生。

著了說一下其中可能會遇到的問題 比如試驗時可能會出現PHP內存限制 和mysql的SQL語句溢出甚至宕機

這裏數幾個方案

1、可以進行相關的配置php.ini my.ini 等

2、大家可以用隊列進行分批處理

3、或者自己的一些方法

好了數據的插入就到這裏 大家有覺得不對的 盡請評論 或留言。

百萬級數據插入的優化