1. 程式人生 > >【Wyn Enterprise BI知識庫】 認識多維資料建模與分析 ZT

【Wyn Enterprise BI知識庫】 認識多維資料建模與分析 ZT

與業務系統類似,商業智慧的基礎是資料。但是,因為關注的重點不同,業務系統的資料使用方式和商業智慧系統有較大差別。本文主要介紹的就是如何理解商業智慧所需的多維資料模型和多維資料分析。

 

資料立方體

多維資料模型是為了滿足使用者從多角度多層次進行資料查詢和分析的需要而建立起來的基於事實和維的資料庫模型,其基本的應用是為了實現OLAP(Online Analytical Processing)。

 

其中,每個維對應於模式中的一個或一組屬性,而每個單元存放某種聚集度量值,如count或sum。資料立方體提供資料的多維檢視,並允許預計算和快速訪問彙總資料。

 

資料立方體是一類多維矩陣,讓使用者從多個角度探索和分析資料集,通常是一次同時考慮三個或更多因素(維度)。資料立方體是二維表格的多維擴充套件,如同幾何學中立方體是正方形的三維擴充套件一樣。“立方體”這個詞讓我們想起三維的物體,我們也可以把三維的資料立方體看作是一組類似的互相疊加起來的二維表格。下面是一個數據立方體的示意圖,這張圖上,每一個小方格代表著一個“源、路線、時間”組合下的包數和上一次的時間。

 

  

 

圖1:資料立方體

 

關於資料立方體,這裡必須注意的是資料立方體只是多維模型的一個形象的說法。立方體其本身只有三維,但多維模型不僅限於三維模型,可以組合更多的維度,但一方面是出於更方便地解釋和描述,同時也是給思維成像和想象的空間;另一方面是為了與傳統關係型資料庫的二維表區別開來,於是就有了資料立方體的叫法。

 

多維資料模型的基本概念

在多維資料模型中,有一些基本概念,結合上面的例子,這些概念很好理解。

  • 維度:就是觀察資料的一種角度。在這個例子中,路線,源,時間都是維度,這三個維度構成了一個立方體空間。維度可以理解為立方體的一個軸。要注意的是有一個特殊的維度,即度量值維度。
  • 維度成員:構成維度的基本單位。對於時間維,它的成員分別是:第一季度、第二季度、第三季度、第四季度。
  • 層次:維度的層次結構,要注意的是存在兩種層次:自然層次和使用者自定義層次。對於時間維而言,(年、月、日)是它的一個層次,(年、季度、月)是它的另一個層次,一個維可以有多個層次,層次可以理解為單位資料聚合的一種路徑。
  • 級別:級別組成層次。對於時間維的一個層次(年、月、日)而言,年是一個級別,月是一個級別,日是一個級別,顯然這些級別是有父子關係的。
  • 度量值:要分析展示的資料,即指標。如圖1中一個cell中包含了兩個度量值:裝箱數和截至時間,可以對其進行多維分析。

在不同的資料分析軟體或方法中,上述概念可能有不同的表述,比如Wyn Enterprise中將“度量值”稱為“度量”但是核心含義是可以觸類旁通的。

多維分析操作

多維資料模型支援多種操作,這些操作被稱為多維分析操作,它們支撐著商業智慧的互動性。多維分析操作包括:鑽取(Drill-down)、上卷(Roll-up)、切片(Slice)、切塊(Dice)以及旋轉(Pivot),下面還是以上面的資料立方體為例來逐一解釋。

 

 

圖2:多維分析的基本操作

 

  鑽取(Drill-down):在維的不同層次間的變化,從上層降到下一層,或者說是將彙總資料拆分到更細節的資料,比如通過對2018年第二季度的總銷售資料進行鑽取來檢視2018年第二季度4、5、6每個月的消費資料,如上圖;當然也可以鑽取浙江省來檢視杭州市、寧波市、溫州市……這些城市的銷售資料。

 

  上卷(Roll-up):鑽取的逆操作,即從細粒度資料向高層的聚合,如將江蘇省、上海市和浙江省的銷售資料進行彙總來檢視江浙滬地區的銷售資料,如上圖。

 

  切片(Slice):選擇維中特定的值進行分析,比如只選擇電子產品的銷售資料,或者2010年第二季度的資料。

 

  切塊(Dice):選擇維中特定區間的資料或者某批特定值進行分析,比如選擇2010年第一季度到2010年第二季度的銷售資料,或者是電子產品和日用品的銷售資料。

 

  旋轉(Pivot):即維的位置的互換,就像是二維表的行列轉換,如圖中通過旋轉實現產品維和地域維的互換。部分商業智慧軟體,如Wyn Enterprise將旋轉和鑽取合二為一,大大提升了資料分析的便利性。

總結

本文介紹了商業智慧的資料基礎,多維資料模型與分析方法的概念。商業智慧軟體的核心就是從業務系統或其他資料來源中抓取資料,組織成多維資料模型,並且提供一系列包括資料視覺化在內的互動手段,幫助使用者進行多維資料分析。

隨著時代的進步,包括Wyn Enterprise在內的商業智慧軟體已經可以讓使用者通過在頁面上妥妥拽拽即可完成本文中介紹的建模和分析過程,一定程度上,拉低了商業智慧的門檻,讓更多的企業可以通過商業智慧獲益。