1. 程式人生 > >商務智慧 BI 的四大關鍵技術

商務智慧 BI 的四大關鍵技術

               

   商務智慧是一套完整的解決方案,它是將資料倉庫、聯機分析處理(OLAP)和資料探勘等結合起來應用到商業活動中,從不同的資料來源收集資料,經過抽取(Extract)、轉換(Transform)和載入(Load),送入到資料倉庫或資料集市,然後使用合適的查詢與分析工具、資料探勘工具和聯機分析處理工具對資訊進行處理,將資訊轉變成為輔助決策的知識,最後將知識呈現於使用者面前,以實現技術服務與決策的目的。

  商務智慧的四大關鍵技術

  商務智慧的支撐技術主要包括ETL(資料的提取、轉換與載入)技術和資料倉庫與資料集市技術、OLAP技術、資料探勘技術與資料的釋出與表示技術。

  1.資料倉庫技術

  實施BI首先要從企業內部和企業外部不同的資料來源,如客戶關係管理(CRM)、供應鏈管理(SCM)、企業資源規劃(ERP)系統以及其他應用系統等蒐集有用的資料,進行轉換和合並,因此需要資料倉庫和資料集市技術的支援。

  資料倉庫(Data Warehouse)是指從多個數據源收集的資訊,以一種一致的儲存方式儲存所得到的資料集合。資料倉庫創始人之一W.H.Inmon的定義為:“資料倉庫是一個面向主題的、整合的、穩定的、包含歷史資料的資料集合,它用於支援管理中的決策制定過程”。在構造資料倉庫時,要經過資料的清洗、資料的抽取轉換、資料整合和資料載入等過程。面向不同的需求,對資料進行清洗以保證資料的正確性,然後對資料進行抽取,轉換成資料倉庫所需形式,並實現載入到資料倉庫。

  資料倉庫是一種語義上一致的資料儲存,充當決策支援資料模型的物理實現,並存放企業戰略決策所需資訊。資料倉庫的資料模型有星型模式、雪花模式。星型模式最為常見,有一個包含大批資料並且不含冗餘的中心表,每維一組小的附屬表。雪花模式中某些維表是規範化的,因而把資料進一步分解到附加的表中,模式圖形成了類似雪花的形狀。對資料倉庫的研究集中在資料整合中資料模式的設計、資料清洗和資料轉換、匯入和更新方法等。

  資料倉庫通常是企業級應用,因此涉及的範圍和投入的成本非常巨大,使一些企業無力承擔。因而,他們希望在最需要的關鍵部門建立一種適合自身應用的、自行定製的部門資料倉庫子集。正是這種需求使資料集市應運而生。資料集市( Data Mart) 是聚焦在選定的主題上的,是部門範圍的。根據資料的來源不同,資料集市分為獨立的和依賴的兩類。在獨立的資料集市中,資料來自一個或多個操作的系統或外部資訊提供者,或者來自在一個特定的部門或地域區域性產生的資料。依賴的資料集市中的資料直接來自企業資料倉庫。

  2.聯機分析處理技術(OLAP)

  聯機分析處理(Online Analytical Processing ,簡稱OLAP) 又稱多維分析,由EF Codd 在1994 年提出,它對資料倉庫中的資料進行多維分析和展現,是使分析人員、管理人員或執行人員能夠從多種角度對從原始資料中轉化出來的、能夠真正為使用者所理解的、並真實反映企業維特性的資訊進行快速、一致、互動地存取,從而獲得對資料更深入瞭解的一類軟體技術。它的技術核心是“維”這個概念,因此OLAP也可以說是多維資料分析工具的集合。

  進行OLAP分析的前提是已有建好的資料倉庫,之後即可利用OLAP 複雜的查詢能力、資料對比、資料抽取和報表來進行探測式資料分析了。稱其為探測式資料分析,是因為使用者在選擇相關資料後,通過切片(按二維選擇資料)、切塊(按三維選擇資料)、上鑽(選擇更高一級的資料詳細資訊以及資料檢視)、下鑽(展開同一級資料的詳細資訊)、旋轉(獲得不同檢視的資料) 等操作,可以在不同的粒度上對資料進行分析嘗試,得到不同形式的知識和結果。聯機分析處理研究主要集中在ROLAP(基於關係資料庫的OLAP) 的查詢優化技術和MOLAP(基於多維資料組織的OLAP) 中減少儲存空間和提高系統性能的方法等。

3.資料探勘技術

  與OLAP 的探測式資料分析不同,資料探勘是按照預定的規則對資料庫和資料倉庫中已有的資料進行資訊開採、挖掘和分析,從中識別和抽取隱含的模式和有趣知識,為決策者提供決策依據。資料探勘的任務是從資料中發現模式。模式有很多種,按功能可分為兩大類:預測型( Predictive)模式和描述型(Descriptive)模式。

  預測型模式是可以根據資料項的值精確確定某種結果的模式。挖掘預測型模式所使用的資料也都是可以明確知道結果的。描述型模式是對資料中存在的規則做一種描述,或者根據資料的相似性把資料分組。描述型模式不能直接用於預測。在實際應用中,根據模式的實際作用,可細分為分類模式、迴歸模式、時間序列模式、聚類模式、關聯模式和序列模式6 種。其中包含的具體演算法有貨籃分析(Market Analysis)、聚類檢測(Clustering Detection)、神經網路(Neural Networks)、決策樹方法(Decision Trees)、遺傳演算法(Genetic Analysis)、連線分析(Link Analysis)、基於範例的推理(Case Based Reasoning)和粗集(RoughSet)以及各種統計模型。

  OLAP 與資料探勘的區別和聯絡是:OLAP 側重於與使用者的互動、快速的響應速度及提供資料的多維檢視,而資料探勘則注重自動發現隱藏在資料中的模式和有用資訊,儘管允許使用者指導這一過程。OLAP 的分析結果可以給資料探勘提供分析資訊作為挖掘的依據,資料探勘可以拓展OLAP 分析的深度,可以發現OLAP 所不能發現的更為複雜、細緻的資訊。資料探勘的研究重點則偏向資料探勘演算法以及資料探勘技術在新的資料型別、應用環境中使用時所出現新問題的解決上, 如對各種非結構化資料的挖掘、資料探勘語言的標準化以及視覺化資料探勘等。

  4.BI 的表示和釋出技術

  為了使分析後的資料直觀、簡練地呈現在使用者面前,需要採用一定的形式表示和釋出出來,通常採用的是一些查詢和報表工具。不過,目前越來越多的分析結果是以視覺化的形式表現出來,這就需要採用資訊視覺化技術。

  所謂資訊視覺化是指以圖形、影象、虛擬現實等易為人們所辨識的方式展現原始資料間的複雜關係、潛在資訊以及發展趨勢,以便我們能夠更好地利用所掌握的資訊資源。隨著Web 應用的普及,商務智慧的解決方案能夠提供基於Web 的應用服務,這樣就擴充套件了商務智慧的資訊釋出範圍。作為基於Web 的商務智慧解決方案,需要一些基本的組成要素,包括基於Web 的商務智慧伺服器、會話管理服務、檔案管理服務、排程、分配和通知服務、負載平衡服務和應用服務等。