Hadoop Hive Spark hive建表語句對錶在hdfs上儲存的file或block數量、以及後續spark讀檔案跑模型的影響

阿新 • • 發佈：2019-01-12

問題描述：

前段時間使用hive語句建了兩張較為相似的資料表，後來在spark上用這兩張表跑相同的模型，發現兩張表的模型訓練時間不同，其中一張表跑起來非常慢。而兩張表的欄位數量和資料量並沒有太大的差別，頗為奇怪。

解決方法：

先說結論：

以上問題是兩張表在hdfs上儲存的檔案數量不一樣導致的，初始原因是在執行建表語句的時候兩張表用的reducer個數不同。
hive語句建的表在hdfs上儲存的file個數（即fs -ls命令展示的items個數）等於語句執行時候的reducer個數，而spark又是根據file的讀取檔案。所以若資料表的資料量過大而檔案數量太少，導致每個檔案過大，容易拖慢spark的執行速度。
可以通過設定reducer個數調整在hadoop上儲存的file個數，從而調節spark讀取的每個檔案的大小，進一步提高模型訓練速度。
需要注意：

若file的大小若超過hdfs設定的block size，則會對應多個block(即，file數量總數大於等於block個數)，
hadoop叢集上的有block.Size引數的設定，一般是64M、128M、256M等，hive上也有一個dfs.block.size引數，但是這個應該和map數量有關。

可以從以下原理、命令自行實驗理解，此處不再贅述。

Hive部分：
Map與Reducer個數的確定：
Map數的計算公式：

num_Map_tasks = max[${Mapred.min.split.size},
                min(${dfs.block.size 
},  ${Mapred.max.split.size})]

Reducer個數：
1. 直接指定： set mapred.reduce.tasks=100;
2. 調整每個reducer處理的資料大小：

 num_Reduce_tasks = min[${Hive.exec.Reducers.max}， 
                      (${input.size} / ${ Hive.exec.Reducers.bytes.per.Reducer})]

Mapred.min.split.size指的是資料的最小分割單元大小。
Mapred.max.split.size指的是資料的最大分割單元大小。
dfs.block.size指的是HDFS設定的資料塊大小。

Hadoop命令：
查看錶檔案

hadoop fs -ls /xx/xx.db/xxtable

檢視file和block

 hadoop fsck /xx/xx.db/dual    -files   -blocks

檢視某個block的block.size設定值以及備份個數

 hadoop fs -stat "%o %r"  /xx/xx.db/dual/000000_0

Hadoop Hive Spark hive建表語句對錶在hdfs上儲存的file或block數量、以及後續spark讀檔案跑模型的影響

問題描述：

解決方法：

先說結論：

Hadoop Hive Spark hive建表語句對錶在hdfs上儲存的file或block數量、以及後續spark讀檔案跑模型的影響

hive建表語句（不同的資料儲存格式，包括txt、orc、分割槽）

hive程式設計指南學習筆記之一：建表語句以及分隔符定義

如何獲取hive建表語句（轉載）

Hive_ Hive 建表語句詳解

hive建表語句（包括txt、Orc和分割槽）

oracle經典建表語句--scott建表

oracle導出表的建表語句拼接SQL

Mysql DBA 高級運維學習筆記-mysql建表語句及表知識

如何使用plsql導出oracle中的建表語句文件

MySQL幾種常用的建表語句（一）

將mysql資料庫的建表語句修改成green plum資料庫中可執行的指令碼

ORA-00904:識別符號無效的一個奇葩原因--工具生成建表語句的問題

java生成mysql資料庫建表語句、欄位、欄位型別、欄位註釋，可實現不用mysqldump備份資料庫

Java，基於SSM,省市區三級聯動後臺查詢（單表），附（建表語句+查詢Sql）

sqlserver2008r2建表語句優化

MySQL建表語句轉PostgreSQL建表語句全紀錄

Oracle資料庫迴圈建表語句及多表迴圈插入語句

DDL建表語句線上轉換為 javaBean

mysql workbench 匯出建表語句匯出資料

Hadoop Hive Spark hive建表語句對錶在hdfs上儲存的file或block數量、以及後續spark讀檔案跑模型的影響

問題描述：

解決方法：

先說結論：

相關推薦