1. 程式人生 > >大資料時代的新BI系統架構發展趨勢

大資料時代的新BI系統架構發展趨勢

     商業智慧(BI,Business Intelligence),它是一套完整的解決方案,用來將企業中現有的資料進行有效的整合,快速準確的提供報表並提出決策依據,幫助企業做出明智的業務經營決策。
    商業智慧的概念最早在1996年提出。當時將商業智慧定義為一類由資料倉庫(或資料集市)、查詢報表、資料分析、資料探勘、資料備份和恢復等部分組成的、以幫助企業決策為目的技術及其應用。目前,商業智慧通常被理解為將企業中現有的資料轉化為知識,幫助企業做出明智的業務經營決策的工具。商務智慧系統中的資料來自企業其他業務系統。例如商貿型企業,其商務智慧系統資料包括業務系統的訂單、庫存、交易賬目、客戶和供應商資訊等,以及企業所處行業和競爭對手的資料、其他外部環境資料。而這些資料可能來自企業的CRM、SCM等業務系統。

    商業智慧能夠輔助的業務經營決策,既可以是操作層的,也可以是戰術層和戰略層的決策。為了將資料轉化為知識,需要利用資料倉庫、聯機分析處理(OLAP)工具和資料探勘等技術。因此,從技術層面上講,商業智慧不是什麼新技術,它只是資料倉庫、OLAP和資料探勘等技術的綜合運用。傳統的商業智慧系統一般採用以下的系統架構進行構建

     系統主要由三層構成:分別是1)資料抽取層即傳統的ETL;2)資料分析層,即傳統的資料倉庫;3)資料展示層,即傳統的OLAP。

      BI系統是一類提供給使用者對資料進行分析的工具,自然而然其應該具有強大的資料處理和分析能力。隨著大資料時代的來臨,對於大量資料的快速分析能力的需求成為BI系統的需求之一,因此也給傳統的BI分析架構帶來了革命性的變革。根據TDWI對48加BI使用企業和生產企業的一份分析報告指出

如下圖所示

國外近80%的企業都正在或準備3年內將大資料分析結合進傳統的BI系統中通過結合大資料分析技術,可以在分析能力和分析型別上對傳統的BI系統進行擴充套件。具體描述如下:

     1、分析能力的增強:通過將Hadoop等分散式大資料分析平臺結合進BI系統可以增強資料的分散式並行處理能力,從而從底層增加計算能力,為傳統的資料探勘分析帶來新鮮血液。

      2、分析能力的擴充套件:結合大資料分析,可以將以往無法分析的非結構化資料或半結構化資料分析結合進BI系統,極大的擴充套件Bi系統的分析能力。

      3、對專家系統的機器學習補充:傳統的BI系統資料倉庫和資料集市是由專家知識構建的,這樣的專家知識可能隨著業務的變遷或擴充套件不再完全準確,因此BI系統如果想真正實現智慧化的分析過程,不僅需要專家知識,更需要從與實際業務實時相關的資料中分析出資料的關聯性和知識性。因而對於智慧化的資料分析與挖掘能力的需求與日俱增。大資料分析能力正好彌補了傳統BI系統無法從資料中機器學習和分析的能力的不足。

        針對BI技術的大資料擴充套件趨勢,目前多家公司都制定了自己的融合軟體架構方案。其中Pentaho作為一家開源的BI開發公司也實現了自己的BI融合Hadoop架構。在著名的開源ETL專案Kettel5.0版本中已經實現了大資料補丁,提供與大資料分析系統的互動。其架構如下。

清晰可見的hadoop小象。通過其PDI(pentaho date integration)層主要是ETL,實現與傳統的關係資料庫和hadoop間進行互動。同時其也提出了結合hadoop的大資料分析虛擬層。

     目前國內主要的BI生產商大多還是採用的傳統架構作為實現方案。也有不少國內主要BI開發企業正在向或計劃實踐大資料分析BI系統的改造。在分析工具中而論,下一個時代很定時大資料分析的時代。(甚至在機器學習,模型學習研究領域也正在採用hadoop或storm此類分散式和實時分析平臺構建模型,各類傳統的機器模式技術,影象識別、語音識別等也正在向大資料分析轉型。可憐看樣以後做機器智慧和學習的,沒個hadoop都不好做實驗了)。