1. 程式人生 > >詳解數據挖掘與機器學習的區別與聯系

詳解數據挖掘與機器學習的區別與聯系

更新 有意義 可能 關註 學習方法 很多 water 人工 大數據

1、大數據 (海量數據的存取,會設計到數據庫技術)

大數據就是許多數據的聚合;
大數據的特征:
1、數據量大
2、結構復雜
3、數據更新速度快

2、機器學習 (理論和工具)

機器學習是人工智能的核心,要對大數據進行發掘,靠人工肯定是做不到的,要通過一個模型讓計算機按照模型去執行,就是機器學習。

3、數據挖掘 (用機器學習對大數據進行分析,挖掘出有用的知識)

機器學習方法在大型數據庫中的應用稱為數據挖掘(Data Mining)
數據挖掘就是把大數據的價值發掘出來,比如根據過去30年的氣象數據,通過數據挖掘,幾乎可以預測明天的天氣是怎麽樣的,有較大概率是正確的;

相關應用如:

零售業分析歷史數據,來構建市場應用模型,預測產品的銷售情況;
制造業的學習模型用於故障檢測,來完善產品;
物理學、天文學、生物學的海量數據分析;

0、為什麽寫這篇博文
  最近有很多剛入門AI領域的小夥伴問我:數據挖掘與機器學習之間的區別與聯系。為了不每次都給他們長篇大論的解釋,故此在網上整理了一些資料,整理成此篇文章,下次誰問我直接就給他發個鏈接就好了。

  本篇文章主要闡述我個人在數據挖掘、機器學習等方面的學習心得,並搜集了網上的一些權威解釋,或許不太全面,但應該會對絕大多數入門者有一個直觀地解釋。

  本文主要參照周誌華老師的:機器學習與數據挖掘 一文。有興趣的可以自行百度,其文對人工智能、數據挖掘、機器學習等演變歷程,有詳細介紹。

1、概念定義
首先,第一步,我們對機器學習和數據挖掘的定義做一下總結,看看大家有沒有一點體會:

  機器學習:廣泛的定義為 “利用經驗來改善計算機系統的自身性能。”,事實上,由於“經驗”在計算機系統中主要是以數據的形式存在的,因此機器學習需要設法對數據進行分析,這就使得它逐漸成為智能數據分析技術的創新源之一,並且為此而受到越來越多的關註。

  數據挖掘:一種解釋是“識別出巨量數據中有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程”,顧名思義,數據挖掘就是試圖從海量數據中找出有用的知識

2、關系與區別
2.1 關系
   數據挖掘可以認為是數據庫技術與機器學習的交叉,它利用數據庫技術來管理海量的數據,並利用機器學習和統計分析來進行數據分析。其關系如下圖:

技術分享圖片
  數據挖掘受到了很多學科領域的影響,其中數據庫、機器學習、統計學無疑影響最大。粗糙地說,數據庫提供數據管理技術,機器學習和統計學提供數據分析技術。由於統計學界往往醉心於理論的優美而忽視實際的效用,因此,統計學界提供的很多技術通常都要在機器學習界進一步研究,變成有效的機器學習算法之後才能再進入數據挖掘領域。從這個意義上說,統計學主要是通過機器學習來對數據挖掘發揮影響,而機器學習和數據庫則是數據挖掘的兩大支撐技術。

2.2 區別
   數據挖掘並非只是機器學習在工業上的簡單應用,他們之間至少包含如下兩點重要區別:

1.傳統的機器學習研究並不把海量數據作為處理對象,因此,數據挖掘必須對這些技術和算法進行專門的、不簡單的改造。

2.作為一個獨立的學科,數據挖掘也有其獨特的東西,即:關聯分析。簡單地說,關聯分析就是希望從數據中找出“買尿布的人很可能會買啤酒”這樣看起來匪夷所思但可能很有意義的模式

詳解數據挖掘與機器學習的區別與聯系