1. 程式人生 > >【每日一學】數據倉庫之全量表、增量表、拉鏈表、流水表

【每日一學】數據倉庫之全量表、增量表、拉鏈表、流水表

水表 打開 tails 開始 當我 net 最大的 閱讀 增量

每日一悟

數據倉庫之全量表、增量表、拉鏈表、流水表

背景

從使用MySQL階段,到前陣子跳槽到新公司開始使用hive,面對的表變多,數據量也完全超過之前。基本是隨便核查個問題都已經不是Excel能承擔得起的了。
於是重心變成了Python。。。
這是題外話,這裏要將的是最近遇到的坑——數據倉庫中的一張表到底是怎麽記錄的?
話說一個月之前我還是連分區是啥都不知道的人啊。
幾天前,當我在表管理查到這張表是個全量處理的時候,我天真的以為dt設置為昨天就可以跑所有當前狀態的數據了。
但昨天再次跑這張表的時候,我忽然冒出個疑慮(也許是數據跑多了開始成長了。。),這張表到底是怎麽記錄的?
通過短暫的思索,我發揮了我“強大的”驗證數據的能力,並得出一個結論:“這tm是個增量表”。。。

承受著巨大的打擊的我,暗戳戳地戳開數據群,詢問著數據倉庫的人,結果人家告訴我這個庫都是拉鏈程序生成並拋給我一個拉鏈表的查詢方式。。。
wtf?
認真的嗎?這是唬我不懂這個嗎?

我保持沈默,並打開了熊掌,成功搜到一篇https://blog.csdn.net/mtj66/article/details/78019370/

經過短暫的閱讀,終於認識到原來不止有全量表、增量表,還有拉鏈表這樣的東西。

但顯然,那張表真的是張增量表。。。

但我是不會去辯的,與交流少還沒形成默契的人用文字是說不清的。太強硬傷感情。

所以只能使用增量表的方式查詢,並在後續的使用中慢慢總結規律並與數倉好好溝通改善吧。最大的改善是:不要相信他寫的“全量”,也許他就只會寫這倆字。。。。自己驗證吧。

全量表、增量表、拉鏈表、流水表

看這篇文字,說得很清楚了:
https://blog.csdn.net/mtj66/article/details/78019370/

【每日一學】數據倉庫之全量表、增量表、拉鏈表、流水表