1. 程式人生 > >資料分析的資料架構知識詳解(一)

資料分析的資料架構知識詳解(一)


大家都知道,資料分析師一門比較高深的學問,並且對於各行各業都有一個很大的幫助。但是大家知道不知道資料分析的資料架構知識呢?資料架構的知識有很多,下面就由小編為大家解答一下這個問題,希望這篇文章能夠給大家帶來幫助。

就目前而言,很多的資料分析工作都是做的是隱藏工作,說白了就是隱藏在業務系統背後,但是具有非常重要的作用,資料分析的結果對決策、對業務發展有著舉足輕重的作用。就目前而言,資料分析的工作已經開始越來越流行了。資料探勘、資料探索等專有名詞的曝光度越來越高,但是在大資料分析系統大行其道之前,資料分析工作已經歷了長足的發展,尤其是以BI系統為主的資料分析,已經有了非常成熟和穩定的技術方案和生態系統。在BI系統裡面,核心的模組是Cube。Cube是一個更高層的業務模型抽象,在Cube之上可以進行多種操作,而大部分BI系統都基於關係型資料庫,而關係型資料庫使用SQL語句進行操作,但是SQL在多維操作和分析的表示能力上相對較弱,所以Cube有自己獨有的查詢語言MDX。BI系統更多以分析業務資料產生的密度高、價值高的結構化資料為主,對於非結構化和半結構化資料的處理非常乏力。例如圖片、文字、音訊的儲存、分析。

而MDX表示式具有更強的多維表現能力,因此以Cube為核心的分析系統基本佔據著資料統計分析的半壁江山,大多數的資料庫服務廠商直接提供BI套裝軟體服務,輕易便可搭建出一套OLAP分析系統,不過BI的問題也隨著時間的推移逐漸暴露出來。由於資料倉庫為結構化儲存,當資料從其它系統進入資料倉庫這個東西,我們通常叫做ETL過程,ETL動作和業務進行了強繫結,通常需要一個專門的ETL團隊去和業務做銜接,決定如何進行資料的清洗和轉換。隨著異構資料來源的增加,例如如果存在視訊、文字、圖片等資料來源,要解析資料內容進入資料倉庫,則需要非常複雜的ETL程式,從而導致ETL變得過於龐大和臃腫。

通過這篇文章我們已經知道了資料分析的架構知識的詳細解釋了,但是這些內容還不能夠完整的說出資料分析結構的知識,我們在下一篇文章為大家更加深入的解答一下這個問題。