1. 程式人生 > >hive數據倉庫表設計

hive數據倉庫表設計

bsp ora 行數 com group by 字段 phone gen 可能

昨天面對某客戶域做表關聯的時候發現了。有兩張相同內容的表。但是表的設計結構並不相同:

+------------+------------+----------+--+
| col_name | data_type | comment |
+------------+------------+----------+--+
| id      | int | |
| name   | string | |
| phone   | string | |
| gender   | string | |
| cardno  | string | |
| age    | string | |
| school   | string | |
| quora    | int | |

..

...

..

目測有60個字段這是一張寬表.
+------------+------------+----------+--+

+------------+------------+----------+--+
| col_name | data_type | comment |
+------------+------------+----------+--+
| id      | int | |
| value1  | string | |
| type1  | string | |
| value2  | string | |
| type2  | string | |
| age    | string | |
| school   | string | |
| quora    | int | |

目測有不到10個字段
+------------+------------+----------+--+

這是一張窄表

select type1,type2 from thistable group by type1,typ2;

發現類型數據有14種類左右

這樣就相當於把第一個寬表的數據(可能剔除了不重要的字段)然後完全放開,行數暴增。

為什麽這樣設計。我也不明白

我不太清楚

hive數據倉庫表設計