資料倉庫與資料探勘(三)
一·資料處理的兩種基本型別:操作型,分析型。
二·操作型數據和分析型資料的區別
操作型資料 |
分析型資料 |
細節的 |
綜合的,或提煉的 |
在存取瞬間是準確的(當前資料) |
代表過去的資料(歷史資料) |
可更新 |
不可更新 |
操作需求事先可知道 |
操作需求事先不知道 |
生命週期符合SDLC(系統生命週期) |
完全不同的生命週期 |
對效能要求高 |
對效能要求寬鬆 |
一個時刻操作一單元 |
一個時刻操作一集合 |
事務驅動 |
分析驅動 |
面向應用(業務處理) |
面向分析 |
一次操作資料量小,計算簡單 |
一次操作資料量大,計算複雜 |
支援日常操作 |
支援管理需求 |
注:不要求能夠完全按照表格方式進行對比記憶,儘可能多的記住其特性,如果可以直接將表格完全記憶最好。
三·資料庫系統的侷限性
資料的分散,“蜘蛛網”問題,資料不一致問題,資料動態整合問題,歷史資料問題,資料的綜合問題。
四·資料倉庫的四個基本特徵
面向主題,整合,不可更新,隨時間不斷變化。
已有資料紀錄不可更新;整體資料倉庫內資料跟隨時間變化不斷增加新的資料,並且去除某一時間點之前的資料。只有讀取,刪除,插入操作,沒有修改操作。
五·資料倉庫體系結構
資料來源,整合工具,資料倉庫與資料倉庫伺服器,
六·ODS
ODS主要是適應進行企業級的全域性應用的需求而產生的。這種全域性應用還可以大致地劃分為兩類:一類是進行企業級的聯機事務處理,另一類可以稱之為“即時OLAP”資料處理。
七·資料粒度
兩種形式:第一種粒度是對資料倉庫中資料的綜合程度高低的一個度量;另一種特殊形式的粒度是樣本資料庫。
粒度越小,細節程度越高,綜合程度越低,回答查詢的種類就越多。
八·資料分割(分片/資料分片)
將資料分佈到各自的物理單元中,以便能分別獨立處理,提高資料分析效率。
九·資料倉庫中資料的追加
時標方法;DELTA檔案;前後快照檔案的方法;日誌檔案。
十·維的構成:維成員,維層,維層次,維屬性。
十一·度量:要分析的目標或物件,有可累計型和不可累計型。
十二·常見的多維資料模型:星形,雪片,事實群模型。
星形模型:由一個很大的中心表和一組較小的表組成。不支援維的層結構,實現時將所有的維層屬性存放在這一個表中,沒有進行規範化。每個層有自己的屬性,有很多冗餘。當不同的維層有相同屬性時只能使用換名方法,影響查詢。
雪片模型:對維表進行規範化後形成,用多張維表描述一個複雜維,支援對不同層上的相同屬性查詢,易於維護而且節省儲存空間。執行查詢時需要進行較多的連結操作,可能影響系統的效能。
事實群模型(星系模型):在複雜的應用中需要多個事實表共享維表,類似於星形模型集合。
十三·聚集函式分類:分佈型聚集函式,代數型聚集函式,整體型聚集函式。
分佈型聚集函式:將資料分成n份,對其中每一份應用該函式,可以得到n個聚集值,對這n個聚集值進行計算得到的結果和整個資料(不劃分)應用該函式得出結果一致。具有可累計的特性。
代數型聚集函式:一個函式可以由若干個分佈型函式進行代數運算得出。
整體型聚集函式:一個函式不能由其他函式進行代數運算得出。
十四·常用多維分析操作:切片,切塊,旋轉,下鑽,上卷。
切片:在資料方體的某一維上選定一個維成員的動作。
切塊:在資料方體的某一維上選定某一區間的維成員的動作。
旋轉:改變資料方體維的次序的動作。
下鑽:在某個分析的過程中,使用者需要從更多的維或者某個維的更細層次上觀察資料。操作型別有兩種,第一種為在現有的維上鑽取到更細一層的資料;另一種是增加更多的維。
上卷:在某個分析的過程中,使用者需要從更少的維或者某個維的更粗層次上觀察資料。操作型別有兩種,第一種為上捲到現有的某個維的更高層次去進行分析;另一種是減少一個維來進行分析。
十五·資料方體的儲存
通常將基於多維陣列儲存的OLAP實現方式維MOLAP;基於關係表儲存的OLAP實現方式稱為ROLAP。
十六·提高資料倉庫效率的方法
1 合併表,2 建立資料序列,3 引入冗餘,4 進一步細分資料,5 生成匯出資料,6 建立廣義索引,7 粒度劃分,8 分割。
十七·支援度與置信度
支援度:指項集X和Y在資料庫D中同時出現的概率。(符合集數量/總樣本數量)
置信度:指在項集X出現的情況下,項集Y在資料庫D中同時出現的條件概率,即Pr(Y/X)=Pr(XUY)/Pr(X)。(符合集數量/X樣本數量)
注:這裡可能會有計算題,需要注意其中各個量的識別,不要把支援度與置信度搞混。
十八、決策樹演算法歸納 基本演算法 (貪婪演算法) 由上到下,分而治之,遞迴構造樹 開始時,所有的訓練樣本都在樹根 屬性都是可分類的屬性(如果是連續值的話,首先要對其進行離散化) 根據選擇的屬性,對樣本遞迴地進行劃分 在啟發式或統計度量(如informationgain)的基礎上選擇測試屬性 停止劃分的條件 某個節點上的所有樣本都屬於相同的類 所有的屬性都用到了–這時採用多數有效的方法對葉子節點進行分類 沒有樣本了