1. 程式人生 > >大資料學習——資料探勘理論基礎

大資料學習——資料探勘理論基礎

本文學習來源於《資料探勘理論與技術》(電子工業出版社)

資料探勘概述

資料探勘方法可以是基於數學理論的,也可以是非數學的;可以是演繹的,也可以是歸納的。從研究的歷史看,它們是資料庫、人工智慧、數理統計、電腦科學以及其它方面的學者和工程技術人員,在資料探勘的探討性研究過程中創立的理論體系。1997年,Mannila對當時流行的資料探勘的理論框架做出了綜述。結合最新的研究成果,有下面一些重要的理論框架可以準確地解釋資料探勘的概念與技術特點。

理論基礎

  • 模式發現(Pattern Discovery)架構
  • 規則發現(Rule Discovery)架構
  • 基於概率和統計理論
  • 微觀經濟學觀點(Microeconomic View)
  • 基於資料壓縮(Data Compression)理論
  • 基於歸納資料庫(Inductive Database)理論
  • 視覺化資料探勘(Visual Data Mining)

資料探勘相關概念

  • 統計學
  • 機器學習
  • 資料倉庫
  • 多維分析
  • 客戶關係管理

資料探勘知識基礎

KDDI

資料探勘與資料庫中的知識發現(KDD)既有聯絡又有區別,從資料處理的不同層面,分析出資料探勘自身的特點。

  • KDD 可看成資料探勘的一個特例
  • 資料探勘是KDDI過程的一個步驟
  • KDDI與資料探勘含義相同

資料集

功能與分類

  • 分類 :按照分析物件的屬性、特徵,建立不同的類來描述事物
  • 聚類:識別分析出內在的規則,按照這些規則把物件分成若干類
  • 關聯規則和序列模式發現:關聯是某種事物發生時其它事物也會發生的一種聯絡
  • 預測:把握分析物件發展的規律,對未來的趨勢做出預見
  • 偏差檢測:對分析物件的少數的、極端的特例進行描述,提示內在的原因。
    根據資料探勘的物件劃分,有如下若干種資料來源:關係資料庫、面向物件資料庫、空間資料庫、時態資料庫、文字資料來源、多媒體資料、異質資料庫、遺產(Legacy)資料庫,以及Web資料來源。

根據資料探勘的方法可粗分為:統計方法、機器學習方法、神經網路方法和資料庫方法。統計方法中可細分為:迴歸分析(多元迴歸、自迴歸等)、判別分析(貝葉斯判別、費歇爾判別、非引數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析等),以及模糊集、粗糙集、支援向量機等。
機器學習方法可細分為:歸納學習方法(決策樹、規則歸納等)、基於範例的推理CBR、遺傳演算法、貝葉斯信念網路等。
神經網路方法可細分為:前向神經網路(BP演算法等)、自組織神經網路(自組織特徵對映、競爭學習等)。
資料庫方法主要是基於視覺化的多維資料分析或OLAP方法,另外還有面向屬性的歸納方法。

模式的發現可以分為如下幾類

  • 關聯規則
  • 序列模式
  • 分類模式
  • 聚類模式
  • 迴歸模式
  • 偏差分析