1. 程式人生 > >海量數據模型實施方法論恢復

海量數據模型實施方法論恢復

log 模型設計 基於 完整 定義 數據接口 二義性 多對多 全量

模型是現實世界實物特征的一種抽象,比如地圖,沙盤,氣象圖或者星象圖等。數據模型是實物數據特征的抽象。 一。LDM(邏輯數據模型) 三要素:實體,屬性和關系,采用實體-關系模型,用ERwin建模。 模型設計的好壞直接關系到數據的: -穩定性 -易用性 -查詢性能 -存儲空間 -維護成本 理想的邏輯數據模型結構應該如下: -將相關的主題域進行組合,形成更少的高階分組。 -主題域至少應該包含在一個主要主題域裏面,達到可重用性。 -不同行業的主要主題域都不相同 -真實世界實物的描述,靜態實體,以及它們之間動態的關系 -實體代表一個人,一個組織,概念或者事件 -屬性描述了實體的特征和數據事實 -它們的關系有一對多,多對一,多對多 -相關對象的組合(實體,屬性和關系)以表達一個特定的業務功能 -實體可以屬於一個或者多個主題域,達到可重用性。 -一個主題域可以由一個或者多個ER圖構成,以表達主要目標的不同方面 統一的邏輯數據模型框架構成: -用於管理數據建模的標準和規範 -用於創建可用於業務功能描述的模型方法論 -將邏輯數據模型封裝到行業邏輯數據模型的方法論 二。模型設計流程 1)信息分析和數據提取 -了解源業務系統:業務種類和規則 -源業務系統的關系:數據接口,加工規則,怎樣保持一致性 -了解源數據結構和流向 -數據概況:數據量,增全量導出方式,數據格式,數據質量 重點講樣本數據檢驗規則!!: - 驗證業務規則 -表間數據關系分析 -每個字段的分析: 字段業務含義,字段取值範圍, 字段間有無關聯關系, 字段關系是否完整, 數據質量情況(非代碼字段的空值,非法值,主鍵完整性,唯一性,外鍵完整性) -填寫樣本數據和代碼表取值 2)邏輯模型的設計 目標: - 不針對某個特定的應用而設計 - 以第三範式存放數據,業務發生變化時易於擴展,適應復雜業務情況 - 穩定性:能夠在很長時間(比如5年內)適應和回答不斷變化的業務問題 - 易解釋性:使用業務語言設計,易於IT和業務人員進行交流 步驟: - 統一業務術語:對重要的業務元素進行統一定義 - 構建LDM原型框架:確定著數據倉庫的數據組織原則和基本形式,也確定著數據倉庫的應用範圍和應用模式 確定模型設計的主題範圍,主題重要的LOGICAL VIEW, 各主題重要的實體,分類和關系,確定各實體的主鍵和候選鍵 - 基於LDM原型框架,進行各主題的詳細設計: 創建各主題的實體和屬性,盡可能簡單,用業務無法二義性解釋的語言進行說明 建立各實體的關系,準確體現業務規則 選擇主鍵:邏輯主鍵或者代理主鍵 整理相關代碼表:建立主外鍵關系 - 定義轉化規則:從源系統到LDM的映射,數據類型,業務轉換規則,對數據質量差和缺失的數據的業務規則進行補充說明 - 完善與跟蹤: 與技術人員進行討論: - 如果源業務系統的數據與業務描述不對應 - 如果重要的數據缺失 - 如果實體之間的關系不正確 與業務人員或者分析師進行討論: - 是否能準確實現業務需求 - 是否能方便理解 - 重要的業務規則是否得以體現 3)物理模型的設計: 在邏輯數據模型的框架和原則上,針對系統性能和應用需求進行適當的非範式化的物理模型設計: 與LDM相同點: - 主題,實體,屬性和關系一致

海量數據模型實施方法論恢復