資料倉庫系統框架結構
一、系統結構
流程:源資料層—>資料加工層—>資料倉庫層—>資料應用層—>資料訪問層
左側:結構化資料(Mysql)(研究)
右側:非結構化資料(Hadoop)(不研究)
二、目標|群體
目標:熟悉資料倉庫的框架結構、概念和步驟
群體:適合資料倉庫的入門資料分析小白群體
排版:極簡
三、分析步驟
1、結構化資料倉庫系統
資料倉庫系統
流程:資料來源—>ETL—>資料倉庫(資料集市)|資料倉庫伺服器—>OLAP伺服器—>資料應用(高階報表、多維分析、資料探勘)
資料倉庫系統:由資料來源、整合工具(ETL)、資料倉庫與資料倉庫伺服器、OLAP伺服器、元資料與元資料管理工具、資料集市和前臺分析工具等組成。
2、資料來源
資料來源:外部資料、操作型資料庫、訂單系統、商家系統、客戶系統、客服系統等
3、資料儲存和管理
ETL(Extract - Transform - Load ):資料抽取(Extracting)、清洗(Cleaning)、轉換(Transformation)、載入(Load)工具,簡稱為ETL工具,完成資料的整合。
資料抽取:就是從資料來源中選擇資料倉庫需要的資料。資料抽取的技術難點在於要針對不同平臺、不同結構、不同廠商的資料庫,設計不同的抽取工具。
資料清洗:為了保證資料的質量,對抽取得到的資料要進行清洗,例如,消除不一致性(同名異義、異名同義等)、統一計量單位、估算預設值,等等。
資料轉換:是將清洗後的資料按照資料倉庫的主題進行組織。
資料載入,就是將資料裝入資料倉庫中。
ELT:(Extract - Load- Transform ):方法與ETL相反。
資料庫(DB):簡而言之可視為電子化的檔案櫃,儲存電子檔案的處所,使用者可以對檔案中的資料進行新增、擷取、更新、刪除等操作。
操作資料儲存(ODS:Operational Data Store):是資料倉庫體系結構中的一個 可選部分 ,ODS具備資料倉庫的部分特徵和OLTP系統的部分特徵,它是“面向主題的、整合的、當前或接近當前的、不斷變化的”資料。
資料倉庫(DW):面對主題、整合、不可更新、隨時間不斷變化的資料集合,用以更好地支援企業或組織的決策分析處理。
資料倉庫伺服器(data warehouse server),負責管理資料倉庫中的資料,儲存企業級的資料,為整個企業的資料分析提供一個完整的、統一的檢視。一般由關係資料庫管理系統擴充套件而成。
資料集市:是一種小型的資料倉庫。它通常有較少的主題域,因此細節資料以及歷史資料都較少,是部門級的。資料集市面向部門級的應用,一般只能為某個部門的管理人員服務,因此也稱之為部門級資料倉庫。
資料集市:從屬型資料集市和獨立型資料集市,“自上而下“地建立資料倉庫是從屬型資料集市,“自下向上”地建立資料倉庫是獨立型資料集市。
企圖由資料集市直接升級為資料倉庫的做法,實際上是避開了資料倉庫建設中必須面對的核心問題:組織問題和設計問題。一個完全由資料集市簡單疊加而成的“資料倉庫”,不可能成為真正有用的決策分析平臺。首先,資料集市設計中的不全面性導致了它不可能具有資料倉庫所需要的長期穩定的體系結構。同時,這種簡單疊加的“資料倉庫”不僅會影響企業原有的業務系統,而且也會影響先期建立的資料集市,任何一方的輕微變動都可能給其他系統帶來自底向上的一系列大的變動。
4、分析和挖掘引擎
OLAP伺服器(Online Analytical Processing:線上資料分析程式):對分析需要的資料按照多維資料模型進行再次重組,以支援使用者多角度、多層次的資料分析。其具體實現可以分為:ROLAP、MOLAP、HOLAP以及特殊SQL伺服器。
元資料:是整個資料倉庫的所有描述性資訊(描述資料的資料),例如列名,或描述結構、功能等。
5、應用
image.png
查詢報表:製作各類表格式資料報表、圖形報表的工具,代表軟體EXCEL
多維分析
多維分析:將資料存放在一個n維陣列中,而不是像關係資料庫那樣以記錄的形式存放,代表軟體Tableau、FindBI。
多維分析
多維分析方法:切塊、切片、旋轉、鑽取、上卷。
資料探勘分類
資料探勘:資料庫中挖掘資訊的過程,代表軟體:SAS、SPSS
資料倉庫使用物件:操作層(基層程式設計師)—>資料倉庫層(企業高層或DSS分析員)—>部門|資料集市(部門級)—>個體層(主管經理層|)
四、設計資料倉庫
1、主要步驟:
資料倉庫的規劃和需求分析(Powerdesigner)—>資料倉庫的建模—>資料倉庫的物理模型設計—>資料倉庫的部署—>資料倉庫的維護。
2、設計示意:
五、疑問解答
1、關係型資料庫和非關係型資料庫區別?
2、DB、ETL、DW、OLAP、DM、BI關係區別?
①、DB/Database/資料庫——這裡一般指的就是OLTP資料庫,線上事物資料庫,用來支援生產的,比如超市的買賣系統。DB保留的是資料資訊的最新狀態,只有一個狀態!比如,每天早上起床洗臉照鏡子,看到的就是當時的狀態,至於之前的每天的狀態,不會出現的你的眼前,這個眼前就是db。
②、DW/Data Warehouse/資料倉庫——這裡儲存的是DB中的不同時間點的狀態,比如,每天早上洗完照鏡子時,都拍一張照片,天天這樣,這些照片放入到一個相簿中,之後就可以檢視每一天的狀態了,這個相簿就是資料倉庫,他儲存的是資料在不同時間點的狀態,對同一個資料資訊,保留不同時間點的狀態,就便於我們做統計分析了。
③、ETL/Extraction-Transformation-Loading——用於完成DB到DW的資料轉存,它將DB中的某一個時間點的狀態,“抽取”出來,根據DW的儲存模型要求,“轉換”一下資料格式,然後再“載入”到DW的一個過程,這裡需要強調的是,DB的模型是ER模型,遵從正規化化設計原則,而DW的資料模型是雪花型結構或者星型結構,用的是面向主題,面向問題的設計思路,所以DB和DW的模型結構不同,需要進行轉換。
④、OLAP——線上分析系統,簡單說就是報表系統,銷售報表,統計報表,等等,這個大家都熟悉,當然,OLAP的統計要更復雜更豐富一些,比如切面,鑽取等等。
⑤、DM/Data Mining/資料探勘——這個挖掘,不是簡單的統計了,他是根據概率論的或者其他的統計學原理,將DW中的大資料量進行分析,找出我們不能直觀發現的規律,比如,如果我們每天早上照相,量身材的時候,還記錄下頭一天吃的東西,黃瓜,豬腿,烤鴨,以及心情,如果記錄上10年,形成了3650天的相貌和飲食心情的資料,我們每個人都記錄,有20萬人記錄了,那麼,我們也許通過這些記錄,可以分析出,身材相貌和飲食的客觀規律;再說一個典型的例項,就是英國的超市,在積累了大量資料之後,對資料分析挖掘之後,得到了一個規律:將小孩的尿布和啤酒放在一起,銷量會更好——業務專家在得到該結論之後,仔細分析,知道了原因,因為英國男人喜歡看足球的多,老婆把小孩介紹男人看管,小孩尿尿需要尿布,而男人看足球喜歡喝酒,所以兩樣商品有密切的關係,放在一起銷售會更好!
⑥、BI/Business Intelligence/商業智慧——領導,決策者,在獲取了OLAP的統計資訊,和DM得到的科學規律之後,對生產進行適當的調整,比如,命令超市人員將啤酒喝尿布放在一起銷售,這就反作用於DB修改存貨資料了——這就是整個BI的作用!
參考: https://www.cnblogs.com/ycdx2001/p/4538750.html
3、資料倉庫為什麼要分層?
①、清晰資料結構:每一個數據分層都有它的作用域,這樣我們在使用表的時候能更方便地定位和理解。
②、資料血緣追蹤:簡單來講可以這樣理解,我們最終給業務誠信的是一能直接使用的張業務表,但是它的來源有很多,如果有一張來源表出問題了,我們希望能夠快速準確地定位到問題,並清楚它的危害範圍。
③、減少重複開發:規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算。
④、把複雜問題簡單化:講一個複雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護資料的準確性,當資料出現問題之後,可以不用修復所有的資料,只需要從有問題的步驟開始修復。
⑤、遮蔽原始資料的異常。
⑥、遮蔽業務的影響,不必改一次業務就需要重新接入資料。
4、資料倉庫如何分層?
資料運營層(ODS)、資料倉庫層/資料集市(DW)、資料產品層(APP)
六、概念補充
DSS(Decision Support System):支援決策系統
OLTP(On-line Transaction Processing):操作型處理主要完成資料的收集、整理、儲存、查詢和增、刪、改操作等,主要由一般工作人員和基層管理人員完成。
OLAP(On-Line Analytical Processing):分析型處理是對資料的再加工,往往要訪問大量的歷史資料,進行復雜的統計分析,從中獲取資訊,因此也稱為資訊型處理,主要由中高階管理人員完成。
OLTP與OLAP區別
星型模式
星形模式(Star Schema)是最常用的資料倉庫設計結構的實現模式,它由一個事實表和一組維表組成,每個維表都有一個維主鍵,所有這些維組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外來鍵。
雪花模式
雪花模式(Snowflake Schema)是對星形模式的擴充套件,每一個維表都可以向外連線多個詳細類別表。
星形模式與雪花模式差異
事實星座模型
事實星座模型:需要多個事實表共享維度表,因而可以視為星形模型的集合,故亦被稱為星系模型。
三正規化:
第一正規化:欄位是最小的的單元不可再分;
第二正規化:滿足第一正規化,表中的欄位必須完全依賴於全部主鍵而非部分主鍵;
第三正規化:滿足第二正規化,非主鍵外的所有欄位必須互不依賴;
七、參考文獻
《資料倉庫工具箱(第3版)-維度建模權威指南》
《資料倉庫與資料分析教程-王珊-高等教育出版社》
《資料倉庫與資料探勘實踐-電子工業出版社》
八、備註資訊
若有錯誤,還望指出,我會及時更新,謝謝!