1. 程式人生 > >《資料探勘導論》第一章之緒論

《資料探勘導論》第一章之緒論

資料探勘數學基礎:

                             線性代數, 維度規約, 概率統計, 迴歸和優化

資料探勘涵蓋領域:

                 資料預處理,視覺化,預測建模,關聯分析,聚類,異常檢測

資料探勘涵蓋主題:

               資料,分類,關聯分析,聚類,異常檢測

資料探勘必要基礎知識:

                       統計學,線性代數,機器學習

資料庫中知識發現(KDD):

                       (1)資料預處理:    特徵選擇,維規約,規範化,選擇資料子集

                       (2)資料探勘:

                       (3)後處理:       模式過濾, 視覺化, 模式表示

資料探勘借鑑的領域:

                                 (1)統計學: 抽樣,估計和假設檢驗

                                 (2)人工智慧,模式識別和機器學習:  搜尋演算法,建模技術和學習理論

                                   (3)最優化,進化計算,資訊理論,訊號處理,視覺化,資訊檢索

資料探勘任務分類:

                                (1)預測任務:  根據 自變數 預測 因變數

                                 (2)描述任務: 匯出概括資料中潛在聯絡的模式

                                                          (相關,趨勢,聚類,軌跡和異常)

本書主要講述資料探勘任務:

                                       (1)預測建模:

                                                                      分類(classification):預測離散的目標變數

                                                                       迴歸(regression):預測連續的目標變數

                                       (2)關聯分析:

                                                                  描述資料中強關聯特徵的模式

                                                                    模式:用蘊涵規則或特徵子集的形式表示

                                       (3)聚類分析:發現緊密相關的觀測值組群,是的屬於統一簇的觀測值之間儘可能相似

                                       (4)異常檢測:識別異常點離群點

                                                                 異常點(離群點): 特徵顯著不同於其他資料的觀測值。