1. 程式人生 > >淺談資料倉庫、商業智慧、資料探勘、大資料、雲技術的前世今生。

淺談資料倉庫、商業智慧、資料探勘、大資料、雲技術的前世今生。

開題之前先做宣告,以下內容純為我一家之言。

何為資料倉庫? 

資料倉庫(Data Warehouse可簡寫為DW或DWH)。資料倉庫,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個數據儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

簡單概括:將多個操作型資訊系統資料集中在一起,然後進行加工、處理,最後提供給資料使用方。而資料倉庫是面向主題的,即資料倉庫中的資料是按照一定的主題域進行組織。主題是指使用者使用資料倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型資訊系統相關。對於主題很多人有誤區,認為針對某一方面出分析報表,該分析報表就是一個主題,這麼理解是不準確的。

簡單概括主題,假如你有櫃面交易系統、網銀系統、ATM系統、支付系統等,某一天BOSS心血來潮想看全行客戶基礎資訊,於是數倉將這些系統客戶資訊抽過來,但BOSS要看的是全行資訊,不是各個系統孤立的資訊,於是數倉將資料加工成一張彙總的客戶資訊表。這張客戶資訊表是以“客戶”為主題的。BOSS看完後很滿意,於是想看這些客戶的徵信資訊、資產資訊等。這些資訊統一圍繞客戶這個主題,被稱為“客戶”的主題域。主題域的資料是介於ODS層與分析應用層之間的粗粒度資料。在具體點說,假如BOSS想看本行客戶的存款情況。那本次需求會用到客戶和存款兩個主題。你可以把主題想象成積木,具體幾個積木拼在一起,完全看你需求了。

何為商業智慧?

商業智慧(Business Intelligence,簡稱:BI),又稱商業智慧或商務智慧,指用現代資料倉庫技術、線上分析處理技術、資料探勘和資料展現技術進行資料分析以實現商業價值。

簡單概括:基於資料倉庫資料進行多維度分析。上面提到的分析報表可以歸為商業智慧範疇。

何為資料探勘?

資料探勘(Data mining),又譯為資料探勘、資料採礦。它是資料庫知識發現中的一個步驟。資料探勘一般是指從大量的資料中通過統計、線上分析處理、情報檢索、機器學習、專家系統(依過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與電腦科學有關,靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

簡答概括:在看似雜亂無章的資料中尋找規律、預測趨勢,其中典型代表是啤酒與尿布的故事。

何為大資料?

大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

大資料的5V特點:

1、Volume(大量)

2、Velocity(高速)

3、Variety(多樣)

4、Value(低價值密度)

5、Veracity(真實性)

簡單概括:隨著網際網路行業的崛起出現了井噴式增長的資料,這樣大量的、多樣的、低價值密度,傳統結構化資料庫技術處理不了的資料稱為大資料。值得注意的是,由於近年大資料風潮的湧起,很多人盲目跟風,宣稱在做大資料分析,殊不知概念都沒搞懂,與大資料相差甚遠。

何為雲技術?

雲技術(Cloud technology)基於雲端計算商業模式應用的網路技術、資訊科技、整合技術、管理平臺技術、應用技術等的總稱,可以組成資源池,按需所用,靈活便利。雲端計算技術將變成重要支撐。技術網路系統的後臺服務需要大量的計算、儲存資源,如視訊網站、圖片類網站和更多的入口網站。

雲技術基於雲端計算,雲端計算的關鍵技術:

1、虛擬化技術(CPU、作業系統、伺服器)

2、分散式海量資料儲存(HDFS等分散式儲存系統)

3、海量資料管理技術(HBase等Nosql)

4、程式設計方式(Map—Reduce)

5、雲端計算平臺管理技術(自動化、智慧化運營)

簡單概括:期初為了處理海量增長的資料,於是出現了以Hadoop為代表的新興技術,但隨著技術的發展,人們發現這種海量處理資料的能力,還能用在虛擬化上,於是就出現了雲技術。

說到這,筆者不禁想起某潮公司的雲產品,在我看來就把VMware裝在PC機上然後開幾個虛擬機器,就說自己是雲。PC機換成了伺服器,VMware換成了自主研發的虛擬化軟體,硬碟換成了儲存。說好的分散式儲存系統呢?說好的Map—Reduce呢?說好的可擴充套件性呢?要知道,在雲技術裡損壞是常態,哪用的起昂貴的伺服器,都是廉價的PC,並且任何PC損壞都不影響正常提供服務。

說了這麼多,最後總結一下他們之間的前世今生:

隨著企業資訊系統越來越多,人們發現將資料集中,並統一處理已迫在眉睫,於是出現了資料倉庫,當資料積累到一定量時,發現可以利用這些資料進行統計分析,於是出現了商業智慧。但人們不滿足於此,希望能在雜亂無章的資料中尋找規律、預測趨勢,於是出現了資料探勘。再後來網際網路行業崛起,出現了大資料,這些資料傳統資料庫技術無法處理,於是出現了Hadoop為代表的新技術,該新興技術逐漸成熟,於是有了現在的雲。