1. 程式人生 > >資料探勘(KDD)初學基礎概要

資料探勘(KDD)初學基礎概要

資料探勘(KDD)Knowledge discovery in database

從各種各樣的應用資料中發現有趣資料模式。 資料來源包括:資料庫、資料倉庫、Web、其他資訊儲存庫。 可挖掘的資料型別:資料庫資料、資料倉庫資料、事務資料。

1. 資料庫資料 即資料庫系統(也稱資料庫管理系統:由一組內部相關的資料,即資料庫;一組管理存取資料的軟體程式組成)裡的資料。最常用的是關係資料庫。 關係資料庫是一組的彙集,每個表由許多元組構成,每個元組代表一個物件,有唯一的識別符號(關鍵字),且有許多屬性組成。

2. 資料倉庫 是一個從多個數據源收集的資訊儲存庫,並存放在一個模式下,在單個站點。 資料倉庫通過:資料清理、資料變換、資料整合、資料裝入、定期資料重新整理來構造。

3. 事務資料 事務資料庫的每個記錄代表一個事務,如顧客的一次購物。一個事務包含唯一的識別符號ID,以及一組構成事務的。(如購物籃分析(關聯規則))。

其他型別資料的挖掘概述 除了以上資料外,還有其他各種形式和結構的資料。如下: 1.時間相關或序列資料 eg. 股票交易、歷史記錄、時間序列 2.資料流 eg. 視訊監控、感測器資料,他們連續播放 3. 空間資料 eg. 地圖 4. 工程設計資料 eg. 建築資料、系統部件 5. 圖和網狀資料 eg. 社會和資訊網路

我們可以挖掘什麼? 挖掘計算機網路資料,根據訊息流的異常進行入侵檢測。這種異常可以通過聚類、流模型的動態構建,或把當前的頻繁模式和先前的比較來發現。 挖掘空間資料

,可以得到根據城市離主要公路的距離,描述都市貧困率的變化趨勢的模式。 挖掘文字資料,通過挖掘客戶對產品發表的評論,可以評估客戶的意見,瞭解產品被市場接受的程度。

可以挖掘什麼型別的模式? 資料探勘的功能主要有: 1.特徵化與區分 2.頻繁模式、關聯和相關性挖掘 3.分類與迴歸 4.聚類分析 5.離群點分析

資料探勘的功能主要用於指定,資料探勘任務中發現的模式。一般分為描述性任務、預測性任務。 1.特徵化與區分(通過類/概念描述) 資料特徵化:是對目標資料特性或特徵的彙總。 資料區分:將目標資料一般特性與多個對比類物件的一般特性進行比較。 2.挖掘頻繁模式、關聯和相關性 在購物籃分析中,通過關聯規則可獲得滿足支援度和置信度的不同商品強關聯規則。 3.用於預測分析的分類與迴歸 分類(類標號預測):決策樹、神經網路、樸素貝葉斯分類、支援向量機、k最近鄰分類。 迴歸(數值預測):建立連續型函式模型,預測缺失值。 4.聚類分析 不考慮類標號,分析資料物件進行聚類,使類(簇)內相似度最大,類間相似度最小。 5.離群點分析 通常情況下離群點被視為噪聲點被丟棄。但在一些應用中(如,欺詐檢測)。也稱異常挖掘。

相關學習 統計學、機器學習、模式識別、視覺化、資料庫和資料倉庫、演算法、資訊檢索等。