1. 程式人生 > >跟我一起資料探勘(1)——建立資料倉庫的意義

跟我一起資料探勘(1)——建立資料倉庫的意義

資料倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。資料倉庫是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個數據儲存,出於分析性報告和決策支援的目的而建立。 為企業提供需要業務智慧來指導業務流程改進和監視時間、成本、質量和控制。

1、多資料整合

將分佈在各處的資料整合到統一的資料倉庫中,以便處理。

上圖是資料倉庫的典型結構。

資料經過抽取、清理、裝載、重新整理等步驟完成統一的資料倉庫化。

2、構建資料立方

通常資料倉庫是對歷史資料進行的多維度的分析,那麼就需要構建資料立方體。每個維對應於模式中的一個或一組屬性。來看一張圖更深入的理解一下:

立方體的三個維度分別為地區、時間和產品,我們可以根據不同的維度分組,得到哪個地區哪個產品的銷售件數、銷售金額等多種資料,每個資料落到資料立方的相應的區域中。同時,資料立方也可以根據不同的維度進行上下鑽取。

時間維度上可以向上鑽取到年,向下鑽取到月。地區維度可以向下鑽取到某個地市的區,如果是跨國的向上鑽取到國家,中國、日本等。商品可以向上鑽取到分類,向下鑽取到品牌。

3、事務資料記錄

事務資料是指在一個處理過程中,如使用者到超市的一次購買記錄,網站的一次登入到點選流程,對應的記錄方式為:

點選流這個概念更注重使用者瀏覽網站的整個流程,網站日誌中記錄的使用者點選就像是圖上的“點”,而點選流更像是將這些“點”串起來形成的“線”。

形成事務資料記錄,而記錄的結果可以根據需要進行構建。

這些資料對於進行購物欄分析,頻繁項集的挖掘非常有用。

4、其它型別資料

包括時間相關的序列資料、空間資料(如地圖)、網頁資料等多種資料格式。根據訊息流可以進行入侵檢測、通過時間序列可以進行趨勢預測、通過顧客的意見,瞭解產品在市場被接受的程度,大資料已經深入了影響了我們的生活,而資料倉庫的構建是重中之重。

相關推薦

一起資料1——建立資料倉庫意義

資料倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。資料倉庫是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個數據儲存,出於分析性報告和決策支援的目的而建立。 為企業提供需要業務智慧來指導業務流程改進和監視時間、成本、質量和控制。

用 WEKA 進行資料 1簡介和迴歸

簡介 什麼是 資料探勘?您會不時地問自己這個問題,因為這個主題越來越得到技術界的關注。您可能聽說過像 Google 和 Yahoo! 這樣的公司都在生成有關其所有使用者的數十億的資料點,您不禁疑惑,“它們要所有這些資訊幹什麼?”您可能還會驚奇地發現 Walmart 是最為先進的進行資料探勘並將結果

資料1知識點總結

詳細文章轉自:https://blog.csdn.net/sinat_22594309/article/details/74923643資料探勘的一般過程包括以下這幾個方面:1、 資料預處理2、 資料探勘3、 後處理一、資料預處理主要手段分為兩種:選擇分析所需的資料物件和屬性

一起資料20——網站日誌挖掘

收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術,對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理,從而發現Web使用者的訪問模式和興趣愛好等,這些資訊對站點建設潛在有用的可理解的未知資訊和知識,用於分析站點的被訪問情況,輔助站點管理和決策支援等。 1、

一起學Mysql介紹

資料庫常用的術語 DB:資料庫(databases)儲存資料的“倉庫”。它儲存了一系列有組織的資料 DBMS:資料庫管理系統(Database Management System)。資料庫是通過DBMS建立和操作的容器 SQL:結構化查詢語言(Structure Query

資料KDD初學基礎概要

資料探勘(KDD)Knowledge discovery in database 從各種各樣的應用資料中發現有趣資料模式。 資料來源包括:資料庫、資料倉庫、Web、其他資訊儲存庫。 可挖掘的資料型別:資

一起玩Win32開發2:完整的開發流程

上一篇中我給各位說了一般人認為C++中較為難的東西——指標。其實對於C++,難點當然不侷限在指標這玩意兒上,還有一些有趣的概念,如模板類、虛基類、純虛擬函式等,這些都是概念性的東西,幾乎每一本C++書上都會介紹,而平時我們除了會接觸到純虛擬函式外,其他的不多用。純虛擬函式,

一起玩Win32開發21:複製&貼上&剪貼簿操作

我要提醒一下大家,看了我的博文學到的知識,千萬不要用於實際開發,不然你會被你的上司罵:“媽的,這些東西哪來的,從來沒有人這樣做過。”不信你試試,腦細胞被凍結的經理或者技術總監們肯定會這樣說的。 如果是一些有X年工作經驗(X永遠不可能大於100)的程式設計師肯定會說:“你怎麼

資料2關聯規則FpGrowth演算法

介紹了關聯規則挖掘的一些基本概念和經典的Apriori演算法,Aprori演算法利用頻繁集的兩個特性,過濾了很多無關的集合,效率提高不少,但是我們發現Apriori演算法是一個候選消除演算法,每一次消除都需要掃描一次所有資料記錄,造成整個演算法在面臨大資料集時顯得無能

在R中使用支援向量機SVM進行資料

在R中,可以使用e1071軟體包所提供的各種函式來完成基於支援向量機的資料分析與挖掘任務。請在使用相關函式之前,安裝並正確引用e1071包。該包中最重要的一個函式就是用來建立支援向量機模型的svm()函

大宗交易資料

思路 在網上可以看到很多關於股票的資料探勘,其中也包括了一些大宗交易的資料探勘和分析。本人之前也做過比較長時間的學習,所以出於好奇,嘗試對這類資料進行挖掘: 最開始的想法 來看下百度百科對於大宗交易的解釋: 百度百科的大宗交易介紹 總的來說,就是大宗

資料倉庫資料

一·資料處理的兩種基本型別:操作型,分析型。 二·操作型數據和分析型資料的區別 操作型資料 分析型資料 細節的 綜合的,或提煉的 在存取瞬間是準確的(當前資料) 代表過去的資料(歷史資料) 可更新 不可更新 操作需求

資料分類模型的描述與效能評估,以決策樹為例

關於分類的第一部分我們要講一些關於分類的基本概念,然後介紹最基本的一種分類模型-決策樹模型,再基於此討論一下關於分類模型的效能評估。 =================================

淺談資料概論

前言:學習資料的來源均出自,《圖解機器學習》-杉山將,中國工信出版集團。《資料探勘導論》-戴紅,清華大學出版書,資料探勘演算法原理與實現。 筆者自述:不知道什麼時候就開始有想學習資料探勘這一塊的知識,但是卻從來都沒有過開始。直到幾天前,突然鬼使神差的去了圖書館,找了基本資料

一起動手實現Tomcat:實現簡單的Servlet容器

前言 最近筆者讀了《深入剖析tomcat》這本書(原作:《how tomcat works》),發現該書簡單易讀,每個章節 循序漸進的講解了tomcat的原理,在接下來的章節中,tomcat都是基於上一章新增功能並完善,到最後形成 一個簡易版tomcat的完成

一起學 Selenium WebDriver1——入門篇

   zTree 東西不多,我也一直使用著原始的人工測試手段,隨著內容的不斷增多,測試起來就越發的繁雜,而且經常犯懶,這樣就會忽略很多本該發現的問題,而且也容易出現舊的bug 反覆出現的情況,這都是測試不規範造成的。要做好東西就要更加規範和嚴格,於是乎決定要學習一下 S

一起玩Win32開發23:漸變顏色填充

GradientFill函式可以對特定的矩形區域或者三角形區域進行漸變顏色的填充。我們先來看看GradientFill函式到底長得什麼樣子,帥不帥。 BOOL GradientFill( _In_ HDC hdc, _In_ PTRIVERTEX pVertex

新浪微博資料python本週人們在討論的熱門話題的提取

分析熱門話題微博: (1)人們在討論(查詢)什麼話題(熱門話題) (2)該話題下的微博獲取 (3)那些人轉發了微博(涉及的人物) (4)轉發的時間和地點(話題的在時間和空間上的影響度) (5)網民對此持有什麼態度(情感分析) 開始之前,python的字典和列表的操作知識必須

GitHub學習:Phpstorm中的git使用1--建立本地倉庫與推送

這段時間在學php的laravel框架,用的開發軟體是xampp建站整合軟體和phpstorm,前幾天做完了表單處理工程,因為上班和在家用的是兩臺電腦,所以需要用github來儲存程式碼,在這裡記錄下phpstorm中的git使用,以免以後忘了。 我已經寫了一部分的程式碼的工程,我現在的第一步就是

資料學習------------------1-資料準備-4-主成分分析PCA降維和相關係數降維

1.4資料降維 在分析多個變數時發現它們中有一定的相關性。有一種方法將多個變數綜合成少數幾個相互無關的代表性變數來代替原來的變數,這就是資料降維,可以考慮主成分分析法。 1)、主成分分析法(PCA) 1、基本思想 (1)如果將選取的第一個線性組合即第一個綜合變數記為F