采用Kettle分頁處理大數據量抽取任務

阿新 • • 發佈：2018-09-01

ont pen -m rownum red 對數 target ktr 無法使用

作者：Grey

原文地址： http://www.cnblogs.com/greyzeng/p/5524614.html

需求：

將Oracle數據庫中某張表歷史數據導入MySQL的一張表裏面。

源表（Oracle）：table1

目標表（MySQL）：table2

數據量：20,000,000

思路：

由於服務器內存資源有限，所以，無法使用Kettle一次性從源表導入目標表千萬級別的數據，考慮采用分頁導入的方式來進行數據傳輸，即：

根據實際情況設置一個每次處理的數據量，比如：5,000條，然後根據總的數據條數和每次處理的數據量計算出一共分幾頁，

假設總數據量有：20,000,000，所以頁數為：20,000,000/5,000=4,000頁

註: 若存在小數，小數部分算一頁，比如：20.3算21頁

步驟：

根據需求的條件，首先對數據進行分頁：

數據量：20,000,000

每頁數據量：5,000

頁數：4,000

源表（Oracle）：table1

目標表（MySQL）：table2

主流程：transfer_table1_to_table2.kjb

技術分享圖片

流程說明：
transfer_table1_to_table2.kjb: 主流程

build_query_page.ktr: 構造頁數遊標

loop_execute.kjb: 根據頁數來執行數據導入操作

我們分別來看各個部分的構成：

build_query_page.ktr: 構造頁數遊標

這一步中，我們需要構造一個類似這樣的數據結構：

技術分享圖片

其中P_PAGE是表頭，其余為頁碼數，

註: 在這裏取頁碼數我通過這個表的rownum來構造

SQL：

select rownum as P_PAGE from mds.mds_balances_hist where rownum<=4000

具體實現如下圖：

技術分享圖片

loop_execute.kjb: 根據頁數來執行數據導入操作

在上一步中，我們構造了頁數，在這步中，我們遍歷上一步中的頁碼數，通過頁碼數找出相應的數據集進行操作，

其中包括set_values.ktr和execute_by_page.ktr兩個轉換

loop_execute.kjb具體實現如下：

技術分享圖片

set_values.ktr：表示獲取從上一步中獲得的頁數

技術分享圖片

execute_by_page.ktr：表示根據頁數進行數據導入操作

技術分享圖片

其中query_by_page采用Oracle經典三層嵌套分頁算法：

SELECT b.rn,b.* FROM

(

SELECT A.*, ROWNUM RN

FROM (SELECT * FROM table1) A

WHERE ROWNUM <= (${VAR_P_PAGE}*5000)

) b

WHERE RN >= ((${VAR_P_PAGE}-1)*5000+1)

技術分享圖片

註: ${VAR_P_PAGE}為每次獲取的頁碼數。

select_field為設置需要導入的列名：

技術分享圖片

output_target目的是輸出到目標表table2：

技術分享圖片

因為要遍歷上一次執行的結果，那麽需要在transfer_table1_to_table2.kjb的loop_execute.kjb中做如下設置：

技術分享圖片

最後，執行transfer_table1_to_table2.kjb即可。

總結：

通過上述方法，我們可以很好的解決內存不足的情況下，大數據量在不同的數據庫之間的導入工作。

FAQ：

在Kettle導入大量數據的過程中，可能會出現連接斷開的現象：

http://forums.pentaho.com/showthread.php?74102-MySQL-connection-settings-at-java-level

(Idle connection timeout if we keep kettle idle for 8hours).

解決辦法：

技術分享圖片

采用Kettle分頁處理大數據量抽取任務

ont pen -m rownum red 對數 target ktr 無法使用作者：Grey 原文地址： http://www.cnblogs.com/greyzeng/p/5524614.html 需求：將Or

採用Kettle分頁處理大資料量抽取任務

需求：將Oracle資料庫中某張表歷史資料匯入MySQL的一張表裡面。源表（Oracle）：table1 目標表（MySQL）：table2 資料量：20,000,000 思路：由於伺服器記憶體

由DB2分頁想到的,關於JDBC ResultSet 處理大數據量

行數據 nbsp 保存是否 oop 客戶端瀏覽器大量同時索引最近在處理DB2 ,查詢中，發現如下問題。如果一個查詢 count(*),有幾十萬行，分頁如何實現 select row_number() over (order by f

mysql存儲過程嵌套循環並分頁處理數據

null 異常處理 != type arch else while exist bsp 業務背景：公司存證產品升級，隨著數據量的增加，存證產品線按業務分表，導致以往的存證關聯數據需要做數據同步更新。版本發布前，通過當前存儲過程解決數據升級問題。##創建存證文檔關聯情況下更

PHP處理大數據量老用戶頭像更新的操作

time action dpi rac cat -- left AC lec /** * @title 老用戶頭像更新--每3秒調用一次接口,每次更新10條數據 * @example user/createHeadPicForOldUser?

java處理大數據量任務時的可用思路--未驗證版，具體實現方法有待實踐

mapr 正向碰撞並且 aggregate pear 因此 mapreduce and 1.Bloom filter適用範圍：可以用來實現數據字典，進行數據的判重，或者集合求交集基本原理及要點：對於原理來說很簡單，位數組+k個獨立hash函數。將hash函數對應的值的

WPF使用異步+綁定的方式處理大數據量

prop 虛擬 mod .com 方式大數據量 ont www. 大數據原文:WPF使用異步+綁定的方式處理大數據量 WPF的優勢在於界面處理，即使是這樣，在面對大數據量的時候也免不了界面假死，同一個線程裏處理界面跟大數據量，這是不可避免的。解決辦法還是有的

MyBatis SQL分頁處理及查詢總數據量

batis ger 分頁 var index add and resultmap ted 查詢數據總數：<select id="selectCount" resultType="java.lang.Integer"> <!-- WAR

MySQL大數據量分頁查詢方法及其優化

占用對象 page 數據查詢結果 sel 原因希望 war ---方法1: 直接使用數據庫提供的SQL語句---語句樣式: MySQL中,可用如下方法: SELECT * FROM 表名稱 LIMIT M,N---適應場景: 適用於數據量較少的情況(元組百/千級)--

MySQL大數據量快速分頁實現

article 設計時 sql 存儲百萬 tps 開始需要字符以下分享一點我的經驗一般剛開始學SQL語句的時候，會這樣寫代碼如下: SELECT * FROM table ORDER BY id LIMIT 1000, 10; 但在數據達到百

hadoop-多機分布式大數據處理推導-hadoop概念介紹

推導大數據技術數據 png src -h nbsp 分享圖片 hadoop-多機分布式大數據處理推導-hadoop概念介紹

分頁處理

ica list .class XML new pac 查詢 com emma 　　 package com.taotao.controller; import java.util.List; import org.junit.Test;import org.springf

分布式大數據系統巧實現，全局數據調度管理不再難

存在 png 但是影響商業 system 驗證題目創建背景看到這個題目，我們會有很多疑問：什麽是分布式大數據系統中的全局數據管理？為什麽要從全局對數據進行管理？這種對數據從全局進行分布和調度的策略是在什麽樣的背景下產生的？如果我們不解決全局數據管理的問題，分布式

關於MATLAB處理大數據坐標文件201761

導致特征 tlab 判斷尋找自己一段過擬合 mat 前幾天備戰考試，接下來的日子將會繼續攻克大數據比賽雖然停止了一段時間沒有提交數據，但是這幾天的收獲還是有的，對Python 隨機森林了解的更了解了隨機森林是由多課決策樹組成（當然這個雖然我們初

關於MATLAB處理大數據坐標文件2017620

關於解釋代碼計算一句話而是我會我希望 python語言暑假已至，接下來組內成員將會各回各家，各找各媽，這肯定是對本次大數據比賽是很不利的。接下來我會把任務分配給組員，當然任務會比起初的時候輕一點，因為我認為本次比賽的目的並不是我要求組員做什麽，而是我的組

【大數據處理】高效能，大數據量存儲方案SqlBulkCopy

完全 mapping state blog tails 內存 closed timeout tail 前些日子，公司要求做一個數據導入程序，要求將Excel數據，大批量的導入到數據庫中，盡量少的訪問數據庫，高性能的對數據庫進行存儲。於是在網上進行查找，發現了一個比較好的解決

關於MATLAB處理大數據坐標文件2017622

決策程序為我一個利用時間使用大數據關於今天新提交了一次數據，總量達到10337個，本以為成績會突飛猛進，沒想到還是不如從前但是已經找到人工鼠標軌跡的程序，有待完善，接下來兵分四路：找特征、決策樹、完善人工軌跡程序，使其可以將生成的數據自動儲存、還一個是

處理大數據流常用的三種Apache框架：Storm、Spark和Samza。(主要介紹Storm)

領導 hdf 客戶端 orm 至少 per yar 持續性 apache 處理實時的大數據流最常用的就是分布式計算系統，下面分別介紹Apache中處理大數據流的三大框架: Apache Storm 這是一個分布式實時大數據處理系統。Storm設計用於在容錯和

C# DataTable分頁處理

for toa cast array urn int data [] edt public DataTable GetPagedTable(DataTable dt, int PageIndex, int PageSize)//PageIndex表示第幾頁，PageSize

采用LinkedList來模擬棧數據結構的集合--先進後出

oid 數據結構 collect urn link list() 集合 add clas 三、用LinkedList來模擬棧數據結構的集合 /* * 自定義一個數據結構為LinkedList的集合類*/public class MyCollection_LinkedList

采用Kettle分頁處理大數據量抽取任務

作者：Grey

原文地址： http://www.cnblogs.com/greyzeng/p/5524614.html

需求：

思路：

步驟：

build_query_page.ktr: 構造頁數遊標

loop_execute.kjb: 根據頁數來執行數據導入操作

set_values.ktr：表示獲取從上一步中獲得的頁數

execute_by_page.ktr：表示根據頁數進行數據導入操作

總結：

FAQ：

相關推薦