1. 程式人生 > >多程序PHP指令碼實現海量資料轉移總結

多程序PHP指令碼實現海量資料轉移總結

 

背景

由於專案的新版本有大改動,需求是將一些舊錶的資料轉移到新表來,於是使用PHP寫了資料指令碼,對MySQL的資料進行讀取,計算,轉移,插入等處理,實現千萬級別資料的計算和轉移。這裡面也遇到一些問題,這裡做下總結:

需求

  • 將幾個舊錶的資料拷到新表來,有些欄位發生了變化,有些欄位的值需要計算;
  • 單表資料量到達千萬級,而且線上有多個庫,要對指令碼進行必要的優化;
  • 指令碼執行時間控制在兩個小時之內;

 

實現過程

1、分析表資料的關聯性,整合指令碼。

分析了幾個表資料之間的聯絡,可以將一些有關聯的表的資料放在一個數據指令碼中,比如user表和user_detail表,這兩個表的資料是有一些關聯的,一些資料值的計算不用重複讀取,減少指令碼的計算操作,節約時間;

 

2、資料讀取時,減少配置資料的載入操作,減少資料查詢操作。

開始資料轉移時,必要的配置資料必須在指令碼開始時全部載入進來,不能在轉移時用到再去進行查詢,因為每次查詢都是意味著消耗更多時間。當然這裡有個前提是你的機器記憶體要夠大,PHP的這種載入是比較消耗記憶體的。一個指令碼執行起來,記憶體都要佔了很多G,這種其實就是用空間換時間的做法。當然,當機器記憶體不夠大,或者效能不夠強時,還是先保證指令碼的健壯性,再來考慮效能。

PHP可以使用set_time_limit ( 0 ); @ini_set('memory_limit','2048M');來指定指令碼執行的最長時間和使用記憶體的最大值;

 

3、指令碼處理資料時,需要分段分批處理。

我們在處理資料時,需要先讀取出使用者id,在根據id查詢表的資料再做處理。就是我們的處理邏輯都是以使用者id為基準,按照使用者id做key,資料做value的方式,遍歷資料。為了減少機器的負載,充分利用機器的效能,我們使用一個while迴圈,每次處理3000個使用者的資料,轉移完後再查詢出3000個使用者的資料,如此類推,直到所有資料處理完,也就是跳出while迴圈。

同時必須要保證資料的有效性,不然insert不進去。這裡還遇到過一個問題,就是在使用PHP的函式批量insert資料時,有時一個sql語句資料量太多,會超過MySQL最大的insert限制,所以在insert之前,需要將需要插入的資料進行分段,也就是對資料進行隔斷處理,分批插入。PHP中可以使用array_slice()對陣列資料進行分段。

 

4、將多次MySQL處理集合在一次的commit上。

我們在一次迴圈中是使用了一次try-catch來監控一次操作,當某個資料處理有異常時,就直接丟擲異常,保證每次處理資料的完整性。我們每次處理開始前,先開啟一個事務,處理完成後會進行一次提交事務。為了節省時間,可以優化成:開啟一個事務,在遍歷了多個使用者資料後,再進行一次提交,或者在遇到異常後也提交一次,這樣可以保證資料完整,也可以減少多次commit db的操作,節約時間。

 

5、使用shell指令碼整合每個PHP指令碼,開啟多個PHP程序。

因為我們處理一個庫的資料要涉及到多個PHP指令碼,可以使用shell來整合多個指令碼,並且讓其順序執行。使用nohub命令不掛斷地執行命令(後面再單獨介紹這個linux命令)。根據機器的核數來開啟多少個PHP程序,充分發揮機器的效能。

 

例子

比如執行一個PHP指令碼,可以這樣子:

程序1:php move_user.php a 0 10000

程序2:php move_user.php a 10000 20000

程序3:php move_user.php b 0 10000

程序4:php move_user.php b 10000 20000

 

這樣表示使用PHP cli模式(命令模式)執行一個PHP指令碼,對於程序1,a 表示是資料庫a,0 和10000表示從使用者id 0開始,執行到使用者id 10000 結束,一個程序處理10000個使用者資料。

程序2表示執行資料庫a 10000 到20000的使用者資料。

這樣多個程序,可以同時執行多個庫的資料,多個區段的使用者資料,節省時間。

當然,每次處理多少個使用者資料,每次開多少個程序,每次遍歷多少資料,都是根據專案的業務資料,和機器的最大負載來綜合處理,達到一個平衡狀態。

總結

  • 此次資料處理原本預期要一個小時,結果由於其他原因,後面花費了兩個多小時,但整體都是在計劃之內,所以是正常的;
  • PHP和MySQL做資料互動,充分利用了PHP的效能後,瓶頸就在與MySQL更新和插入資料了,我們就是通過分段迴圈處理,分段提交事務來平衡了MySQL的瓶頸;
  • MySQL單表資料太大,後面需要單獨對這塊進行優化,不然以後對資料進行更新和備份時,都要浪費大量的時間;
  • 必須保證指令碼邏輯沒有問題,不然後面重跑就很蛋疼了。

 

相關閱讀

PHP+MySQL實現海量資料匯入匯出的一些總結

 

---------------------------------------------------END----------------------------------------------------

歡迎關注我的公眾號【phper的進階之路】

不斷更新各種技術心得,免費提供各種學習資源!

&n