1. 程式人生 > >資料倉庫與資料探勘(三)

資料倉庫與資料探勘(三)

一·資料處理的兩種基本型別操作型,分析型。

二·操作型數據和分析型資料的區別

操作型資料

分析型資料

細節的

綜合的,或提煉的

在存取瞬間是準確的(當前資料)

代表過去的資料(歷史資料)

可更新

不可更新

操作需求事先可知道

操作需求事先不知道

生命週期符合SDLC(系統生命週期)

完全不同的生命週期

對效能要求高

對效能要求寬鬆

一個時刻操作一單元

一個時刻操作一集合

事務驅動

分析驅動

面向應用(業務處理)

面向分析

一次操作資料量小,計算簡單

一次操作資料量大,計算複雜

支援日常操作

支援管理需求

注:不要求能夠完全按照表格方式進行對比記憶,儘可能多的記住其特性,如果可以直接將表格完全記憶最好。

三·資料庫系統的侷限性

資料的分散,“蜘蛛網”問題,資料不一致問題,資料動態整合問題,歷史資料問題,資料的綜合問題。

四·資料倉庫的四個基本特徵

       面向主題,整合,不可更新,隨時間不斷變化。

       已有資料紀錄不可更新;整體資料倉庫內資料跟隨時間變化不斷增加新的資料,並且去除某一時間點之前的資料。只有讀取,刪除,插入操作,沒有修改操作。

五·資料倉庫體系結構

       資料來源,整合工具,資料倉庫與資料倉庫伺服器,

OLAP伺服器,元資料與元資料管理工具,資料集市和前臺分析工具等組成。

六·ODS

       ODS主要是適應進行企業級的全域性應用的需求而產生的。這種全域性應用還可以大致地劃分為兩類:一類是進行企業級的聯機事務處理,另一類可以稱之為“即時OLAP”資料處理。

七·資料粒度

兩種形式:第一種粒度是對資料倉庫中資料的綜合程度高低的一個度量;另一種特殊形式的粒度是樣本資料庫。

粒度越小,細節程度越高,綜合程度越低,回答查詢的種類就越多。

八·資料分割(分片/資料分片)

       將資料分佈到各自的物理單元中,以便能分別獨立處理,提高資料分析效率。

·資料倉庫中資料的追加

       時標方法;DELTA檔案;前後快照檔案的方法;日誌檔案。

十·維的構成維成員,維層,維層次,維屬性。

十一·度量:要分析的目標或物件,有可累計型和不可累計型。

十二·常見的多維資料模型:星形,雪片,事實群模型。

       星形模型:由一個很大的中心表和一組較小的表組成。不支援維的層結構,實現時將所有的維層屬性存放在這一個表中,沒有進行規範化。每個層有自己的屬性,有很多冗餘。當不同的維層有相同屬性時只能使用換名方法,影響查詢。

       雪片模型:對維表進行規範化後形成,用多張維表描述一個複雜維,支援對不同層上的相同屬性查詢,易於維護而且節省儲存空間。執行查詢時需要進行較多的連結操作,可能影響系統的效能。

       事實群模型(星系模型):在複雜的應用中需要多個事實表共享維表,類似於星形模型集合。

十三·聚集函式分類:分佈型聚集函式,代數型聚集函式,整體型聚集函式。

       分佈型聚集函式:將資料分成n份,對其中每一份應用該函式,可以得到n個聚集值,對這n個聚集值進行計算得到的結果和整個資料(不劃分)應用該函式得出結果一致。具有可累計的特性。

代數型聚集函式:一個函式可以由若干個分佈型函式進行代數運算得出。

整體型聚集函式:一個函式不能由其他函式進行代數運算得出。

十四·常用多維分析操作:切片,切塊,旋轉,下鑽,上卷。

       切片:在資料方體的某一維上選定一個維成員的動作。

切塊:在資料方體的某一維上選定某一區間的維成員的動作。

旋轉:改變資料方體維的次序的動作。

下鑽:在某個分析的過程中,使用者需要從更多的維或者某個維的更細層次上觀察資料。操作型別有兩種,第一種為在現有的維上鑽取到更細一層的資料;另一種是增加更多的維。

上卷:在某個分析的過程中,使用者需要從更少的維或者某個維的更粗層次上觀察資料。操作型別有兩種,第一種為上捲到現有的某個維的更高層次去進行分析;另一種是減少一個維來進行分析。

十五·資料方體的儲存

       通常將基於多維陣列儲存的OLAP實現方式維MOLAP;基於關係表儲存的OLAP實現方式稱為ROLAP

十六·提高資料倉庫效率的方法

       1 合併表,2 建立資料序列,3 引入冗餘,4 進一步細分資料,5 生成匯出資料,6 建立廣義索引,7 粒度劃分,8 分割。

十七·支援度與置信度

  支援度:指項集XY在資料庫D中同時出現的概率。(符合集數量/總樣本數量)

       置信度:指在項集X出現的情況下,項集Y在資料庫D中同時出現的條件概率,即Pr(Y/X)=Pr(XUY)/Pr(X)(符合集數量/X樣本數量)

注:這裡可能會有計算題,需要注意其中各個量的識別,不要把支援度與置信度搞混。

十八、決策樹演算法歸納 基本演算法 (貪婪演算法) 由上到下,分而治之,遞迴構造樹 開始時,所有的訓練樣本都在樹根 屬性都是可分類的屬性(如果是連續值的話,首先要對其進行離散化) 根據選擇的屬性,對樣本遞迴地進行劃分 在啟發式或統計度量(如informationgain)的基礎上選擇測試屬性 停止劃分的條件 某個節點上的所有樣本都屬於相同的類 所有的屬性都用到了–這時採用多數有效的方法對葉子節點進行分類 沒有樣本了