1. 程式人生 > >資料探勘與資料分析的主要區別是什麼?

資料探勘與資料分析的主要區別是什麼?

資料分析只是在已定的假設,先驗約束上處理原有計算方法,統計方法,將資料分析轉化為資訊,而這些資訊需要進一步的獲得認知,轉化為有效的預測和決策,這時就需要資料探勘,也就是我們資料分析師系統成長之路的“更上一樓”。
資料探勘與資料分析兩者緊密相連,具有迴圈遞迴的關係,資料分析結果需要進一步進行資料探勘才能指導決策,而資料探勘進行價值評估的過程也需要調整先驗約束而再次進行資料分析。
而兩者的具體區別在於:
(其實資料分析的範圍廣,包含了資料探勘,在這裡區別主要是指統計分析)
  • 資料量上:資料分析的資料量可能並不大,而資料探勘的資料量極大。
  • 約束上:資料分析是從一個假設出發,需要自行建立方程或模型來與假設吻合,而資料探勘不需要假設,可以自動建立方程。
  • 物件上:資料分析往往是針對數字化的資料,而資料探勘能夠採用不同型別的資料,比如聲音,文字等。
  • 結果上:資料分析對結果進行解釋,呈現出有效資訊,資料探勘的結果不容易解釋,對資訊進行價值評估,著眼於預測未來,並提出決策性建議。
資料分析是把資料變成資訊的工具,資料探勘是把資訊變成認知的工具,如果我們想要從資料中提取一定的規律(即認知)往往需要資料分析和資料探勘結合使用。

舉個例子說明:你揣著50元去菜市場買菜,對於琳琅滿目的雞鴨魚豬肉以及各類蔬菜,想葷素搭配,你逐一詢問價格,不斷進行統計分析,能各自買到多少肉,多少菜,大概能吃多久,心裡得出一組資訊,這就是資料分析。而關係到你做出選擇的時候就需要對這些資訊進行價值評估,根據自己的偏好,營養價值,科學的搭配,用餐時間計劃,最有價效比的組合等等,對這些資訊進行價值化分析,最終確定一個購買方案,這就是資料探勘。
資料分析與資料探勘的結合最終才能落地,將資料的有用性發揮到極致。

關於資料探勘,涉及的主要方法主要有:資料分析的方法、可視技術、關聯法則、神經網路、決策樹、遺傳演算法等。

主要使用的工具有:R語言,SAS,weka,SPSS Modeler(Clementine)等,可參考幾款開源的軟體:

http://www.iteye.com/news/4693

人大經濟論壇資料分析師系統培訓第四部分課程是:R軟體及資料探勘技術應用。由中央財經大學統計學院副院長馬景義教授主講,喜歡的同學可以過來一起學習。

使用的具體案例有:

  • 電信客戶分類,船隻損壞率分析

  • 電信客戶流失預測,房價預測

  • 信用卡逾期客戶預測

  • 手機使用者市場細分,購物籃分析