資料倉庫快速入門教程1簡介
資料倉庫是從各種渠道收集和管理資料的技術,可提供有意義的業務洞察,戰略性地使用資料。
它用於查詢和分析而不是事務處理,是將資料轉換為資訊並及時向用戶提供的過程。
決策支援資料庫(資料倉庫)與組織的運營資料庫分開維護。 但是資料倉庫不是產品,而是環境。 它是屬於資訊系統,向用戶傳統運營資料儲存難以訪問或展示的當前和歷史決策支援資訊。
資料倉庫是BI系統的核心,BI是為資料分析和報告而構建的。
你們很多人都知道,3NF設計的庫存系統資料庫很多都有相互關聯的表。 例如,有關當前庫存資訊的報告可包含超過12個連線條件,查詢慢。 資料倉庫提供了一種新設計,可以縮短響應時間,提高報表和分析查詢的效能。
資料倉庫系統的其他名稱:
- 決策支援系統(DSS Decision Support System)
- 執行資訊系統(Executive Information System)
- 管理資訊系統(Management Information System)
- 商業智慧解決方案(Management Information System)
- 分析應用(Analytic Application)
- 資料倉庫(Data Warehouse)

圖片.png
資料倉庫的歷史
資料倉庫使使用者能夠理解並提高其組織的績效。 隨著計算機系統變得越來越複雜並需要處理越來越多的資訊,倉庫資料的需求也在不斷變化。
-
1960年 - Dartmouth和General Mills在一個聯合研究專案中,提出了維度概念。
-
1970 - Nielsen和IR為零售引入了維度資料。
-
1983- Tera推出了專為決策支援而設計的資料庫管理系統
-
資料倉庫始於20世紀80年代後期,當時IBM工作人員Paul Murphy和Barry Devlin開發了業務資料倉庫。
-
然而,真正的概念是由Inmon Bill提出的。 他是資料倉庫之父。 他撰寫了關於倉庫和公司資訊工廠的建設,使用和維護的各種主題。
Datawarehouse如何運作?
資料倉庫作為中央儲存庫,資訊從一個或多個數據源到達。 資料從事務系統和其他關係資料庫流入資料倉庫。
資料可能是:
- 結構化的
- 半結構化
- 非結構化資料
處理,轉換和提取資料,以便使用者可以通過商業智慧工具,SQL客戶端和電子表格訪問資料倉庫中的已處理資料。 資料倉庫將來自不同來源的資訊合併到綜合資料庫中。
通過合併所有這些資訊,組織可以更全面地分析其客戶。 這有助於確保它已考慮所有可用資訊。 資料倉庫使資料探勘成為可能。 資料探勘旨在尋找可能導致更高銷售額和利潤的資料模式。
資料倉庫的型別
1.企業資料倉庫:
企業資料倉庫是一個集中式倉庫。 它為整個企業提供決策支援服務。 它提供了統一的方法來組織和表示資料。 它還提供根據主題對資料進行分類並根據這些劃分進行訪問的能力。
2.運營資料儲存:
只需要資料儲存的運營資料儲存(也稱為ODS)。 在ODS中,資料倉庫實時重新整理。 因此,它廣泛地用於諸如儲存僱員記錄等。
3.資料集市:
資料集市是資料倉庫的子集。 它專門針對特定業務部門而設計,例如銷售,財務,銷售或財務。 在獨立的資料集市中,資料可以直接從源收集。
資料倉庫的一般階段
離線操作資料庫:
在此階段,資料只是從運營系統複製到伺服器。
離線資料倉庫:
資料倉庫中的資料定期從運營資料庫更新。 資料倉庫中的資料經過對映和轉換,以滿足資料倉庫的目標。
實時資料倉庫:
運營資料庫中發生任何事務,就會更新資料倉庫。 例如,航空公司或鐵路預訂系統。
整合資料倉庫:
運營系統執行事務時,資料倉庫會不斷更新。 然後,Datawarehouse生成傳遞迴運營系統的事務。
資料倉庫的元件
資料倉庫的四個組成部分是:
載入管理器:載入管理器也稱為前端元件。 它執行與提取和載入資料到倉庫相關的所有操作。 這些操作包括轉換準備用於進入資料倉庫的資料。
倉庫管理:倉庫管理執行與倉庫中資料管理相關的操作。 它執行資料分析等操作,以確保一致性,索引和檢視的建立,非規範化和聚合的生成,源資料的轉換和合並以及歸檔和備份資料。
查詢管理器:查詢管理器 也被稱為後端元件。 它執行與使用者查詢管理相關的所有操作操作。 此資料倉庫元件的操作是對相應表的直接查詢。
終端使用者訪問工具:
這分為五個不同的組,如1.資料報告2.查詢工具3.應用程式開發工具4. EIS工具 5.OLAP工具和資料探勘工具。
參考資料
- python測試開發專案實戰-目錄
- python工具書籍下載-持續更新
- python 3.7極速入門教程 - 目錄
- 討論qq群630011153 144081101
- 原文地址
- 本文涉及的python測試開發庫 謝謝點贊!
- [本文相關海量書籍下載]( https://github.com/china-testing/python-api-tesing/blob/master/books.md
- http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html
誰需要資料倉庫?
- 依賴大資料的決策者
- 使用自定義複雜流程從多個數據源獲取資訊的使用者。
航空公司:
在航空公司系統中,它用於職員分配,路線盈利能力分析,旅客計劃促銷等。
銀行業:
管理可用的資源。 一些銀行也用於市場調研,產品和運營的績效分析。
衛生保健:
醫療保健行業還使用資料倉庫來制定戰略並預測結果,生成患者的治療報告,與保險公司等共享資料,醫療援助服務等。
公共部門:
在公共部門,資料倉庫用於情報收集。 它有助於政府機構維護和分析每個人的稅務記錄,健康政策記錄。
投資和保險業:
分析資料模式,客戶趨勢以及跟蹤市場變動。
零售:
在零售連鎖店中,資料倉庫廣泛用於分銷和營銷。 它還有助於跟蹤專案,客戶購買模式,促銷以及用於確定定價政策。
電信:
產品促銷,銷售決策和制定分銷決策。
酒店業:
設計和估計他們希望根據客戶的反饋和旅行模式定位客戶的廣告和促銷活動。
實施資料倉庫的步驟
- 企業戰略 :在此我們確定技術,包括當前的架構和工具。 我們還確定事實,維度和屬性。 還傳遞了資料對映和轉換。
- 分階段交付 :應根據主題領域分階段實施資料倉庫。 應首先實施預訂和計費等相關業務實體,然後相互整合。
- 迭代原型 :資料倉庫應該迭代開發和測試。
這裡是Datawarehouse實施的關鍵步驟及其可交付成果。

圖片.png
實施資料倉庫的最佳實踐
- 確定計劃以測試資料的一致性,準確性和完整性。
- 資料倉庫必須很好地整合,定義良好並帶有時間戳。
- 在設計Datawarehouse時,請確保使用正確的工具,堅持生命週期,注意資料衝突並準備好從錯誤中學習。
- 切勿更換運營系統和報告
- 不要在提取,清理和載入資料上花費太多時間。
- 確保所有利益相關者(包括業務人員)參與資料倉庫實施流程。 確定資料倉庫是聯合/團隊專案。 您不希望建立對終端使用者無用的資料倉庫。
- 為終端使用者準備培訓計劃。
為什麼我們需要資料倉庫? 優點缺點
資料倉庫的優點:
- 資料倉庫允許業務使用者快速訪問來自某些來源的關鍵資料。
- 資料倉庫提供有關各種跨職能活動的一致資訊。 它還支援臨時報告和查詢。
- 資料倉庫有助於整合許多資料來源,以減少生產系統的壓力。
- 資料倉庫有助於縮短分析和報告的總週轉時間。
- 重組和整合使使用者更容易用於報告和分析。
- 資料倉庫允許使用者訪問多個源關鍵資料。 因此,它節省了使用者從多個源檢索資料的時間。
- 資料倉庫儲存大量歷史資料。 這有助於使用者分析不同的時間段和趨勢,以便進行未來的預測。
資料倉庫的缺點:
- 不是非結構化資料的理想選擇。
- 資料倉庫的建立和實施肯定會有時間混亂。
- 資料倉庫很容易過時
- 難以對資料型別和範圍,資料來源架構,索引和查詢進行更改。
- 資料倉庫看起來很簡單,但實際上,對於普通使用者來說,它太複雜了。
- 儘管在專案管理方面做出了最大努力,但資料倉庫專案範圍仍將不斷增加。
- 有時倉庫使用者會制定不同的業務規則。
- 組織需要將大量資源用於培訓和實施目的。
資料倉庫的未來
- 監管約束的 變化可能會限制組合不同資料來源的能力。 這些不同的來源可能包括難以儲存的非結構化資料。
- 隨著資料庫 規模 的增長,對構成非常大的資料庫的估計值繼續增長。 構建和執行資料倉庫系統非常複雜,而且資料倉庫系統的規模也在不斷擴大。 目前可用的硬體和軟體資源不允許線上儲存大量資料。
- 多媒體資料 檢索問題。
資料倉庫工具
市場上有許多資料倉庫工具。 這裡有一些最突出的:
1.MarkLogic:
MarkLogic使用一系列企業功能使資料整合更容易,更快捷。 此工具有助於執行非常複雜的搜尋操作。 它可以查詢不同型別的資料,如文件,關係和元資料。
http://developer.marklogic.com/products
甲骨文:
Oracle是業界領先的資料庫。 它為內部部署和雲端提供了廣泛的資料倉庫解決方案選擇。 它有助於通過提高運營效率來優化客戶體驗。
https://www.oracle.com/index.html
3.亞馬遜RedShift:
它使用標準SQL和現有BI工具分析所有型別資料的簡單且經濟高效的工具。 它還允許使用查詢優化技術運行鍼對數PB的結構化資料的複雜查詢。