hive數據倉庫表設計
昨天面對某客戶域做表關聯的時候發現了。有兩張相同內容的表。但是表的設計結構並不相同:
+------------+------------+----------+--+
| col_name | data_type | comment |
+------------+------------+----------+--+
| id | int | |
| name | string | |
| phone | string | |
| gender | string | |
| cardno | string | |
| age | string | |
| school | string | |
| quora | int | |
..
...
..
目測有60個字段這是一張寬表.
+------------+------------+----------+--+
+------------+------------+----------+--+
| col_name | data_type | comment |
+------------+------------+----------+--+
| id | int | |
| value1 | string | |
| type1 | string | |
| value2 | string | |
| type2 | string | |
| age | string | |
| school | string | |
| quora | int | |
目測有不到10個字段
+------------+------------+----------+--+
這是一張窄表
select type1,type2 from thistable group by type1,typ2;
發現類型數據有14種類左右
這樣就相當於把第一個寬表的數據(可能剔除了不重要的字段)然後完全放開,行數暴增。
為什麽這樣設計。我也不明白
我不太清楚
hive數據倉庫表設計