1. 程式人生 > >第二章:數據挖掘概述

第二章:數據挖掘概述

檢驗 樹根 卡方檢驗 對數 自變量 包括 數據挖掘 算法 第二章

數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為規則、概念、規律及模式等

2.1數據挖掘的發展歷史

.....

2.2數據分析與數據挖掘的主要區別

相對於傳統的統計分析技術,數據挖掘有如下特點:

  • 數據挖掘擅長處理大數據(幾十幾百萬行或者更多的數據)
  • 數據挖掘在實踐應用中一般都會借助數據挖掘工具
  • 數據分析應用的趨勢是用大型數據庫中抓取數據

數據挖掘是統計分析技術的延伸和發展

數據挖掘和統計分析的差別:

統計分析的基礎之一就是概率論,對數據進行統計分析需要對數據分布和變量間的關系做假設,確定用什麽概率函數來描述變量間的關系,以及如何檢驗參數的統計顯著性,數據挖掘應用中,不需要對數據發布做任何假設,數據挖掘中的算法會自動尋找變量間的關系,相對於海量數據數據挖掘有明顯的應用優勢

統計分析在預測中常常表現為一個或者一組函數關系式,數據挖掘在預測應用中重點在於預測結果,很多時候不會從結果中產生明確的函數關系式,有時候不知道那些變量起作用,如何起作用

2.3數據挖掘的主要成熟技術以及在數據化運營中的主要應用

2.3.1決策樹:是一種非常成熟、普遍采用的數據挖掘技術,建模過程類似樹的成長過程,分析的數據樣本先是集成為一個樹根,經過層層分支,最終形成N個節點,每個節點代表一個結論

最常用的3種決策樹算法分別是

  • CHAID(卡方自動相互關系檢測):依據局部最優原則,利用卡方檢驗來選擇對應變量最有影響的自變量,應用前提是因變量為類別型變量
  • CART(分類和回歸樹):依據總體最優原則,利用基尼系數等不純度的指標
  • ID3(包括C4.5\C5.0)

CHAID和CART的區別:

CHAID局部最優原則,利用卡方檢驗來選擇對應變量最有影響的自變量

CART依據總體最優原則,利用基尼系數等

2.4互聯網行業數據挖掘應用的特點

第二章:數據挖掘概述