1. 程式人生 > >阿里大資料工程師:教你如何快速的搭建資料庫

阿里大資料工程師:教你如何快速的搭建資料庫

資料倉庫,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個數據儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

下面我們來講大資料開發核心流程。

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
當我們接到一個需求,首先會進行需求分析,然後做工作流設計,比如這個任務是什麼時候跑的、依賴於哪些業務。工作流設計完成後進行資料採集和資料同步。接下去就是資料開發,我們提供了WEB-IDE,支援SQL、MR、SHELL和 PYTHON等。然後我們提供了冒煙測試的場景,測試完成後釋出到線上,讓它每天定時進行自動排程,並進行資料質量監控。以上步驟都完成後,就能把我們的資料環流到業務系統庫,或者用QuickBI、DataV這些工具進行頁面展現。

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
我們設計的任務是離線的,每天會在12點的時候把設計的任務變成一個例項快照。目前我們的任務依賴在業內也是最先進的。

現在最常見的需求就是每天有日報,每週要寫週報,每月要寫月報。為了節省資源,就可以使用日報的資料直接轉成周報或月報。

在這裡插入圖片描述
線上系統在每天6點的時候要保證資料已經回籠到業務系統,系統要開始使用了。

如上圖所示,假設有D和E兩個任務,它們依賴於B和A。任務D的執行時間是1.5小時,E是2小時。我們必須確保B每天在4點之前把B的任務執行完成,一般正常執行時間是2小時。那就要保證A每天任務完成的時間不晚於2點。如果A的執行時間是10分鐘,到1點的時候發現A的任務失敗了,這時就能計算出A還剩下多少餘量,我們可以進行人工監督排查。在1:50之前人工介入,從而保證任務D和E能在6點前準時產出。

總結
在這裡插入圖片描述

如圖所示,MaxCompute是圖上小人的“心臟”,所有執行的任務都在MaxCompute裡面。排程是資料架構的“大腦”。“眼睛”是資料監控,目前在資料架構平臺上它還是一個“近視眼”,還沒有正式推出。資料整合就像兩隻“手”,不停地從其它地方搬運資料。底層的開發環境和運維中心就像兩條“腿”,保證整個資料架構平臺走得更遠。而資料質量就像是一個“人體健康中心”,也就是資料質量的監控。

對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。在這裡插入圖片描述