1. 程式人生 > >資料分析與資料探勘概述

資料分析與資料探勘概述

1.什麼是資料分析與資料探勘技術?

所謂資料分析,即對已知的資料進行分析,然後提出一些有價值的資訊。比如統計出平均數、標準差等資訊,資料分析的資料量有可能不會太大。而資料探勘,是指對大量的資料進行分析和挖掘,得到一些未知的有價值的資訊等,比如從網站的使用者或使用者行為資料中挖掘出潛在需求資訊,從而對網站進行改善等。資料分析與資料探勘密不可分,資料探勘是資料分析的提升。

2.資料分析與挖掘技術能做什麼事情?

資料探勘技術能夠幫助我們更好的發現事物之間的規律。所以,我們可以利用資料探勘技術實現資料規律的探索,比如發現竊電使用者、發覺使用者潛在需求、實現資訊的個性化推送、發現疾病與症狀甚至疾病與藥物之間的規律...等。

3.資料探勘的流程:

1.定義資料探勘目標

對我們要解決的問題定義一個目標,也就是我們的資料探勘要解決一個怎樣的問題。

2.獲取資料

常用的手段有通過爬蟲採集或者下載一些統計網站釋出的資料。

3.資料探索

收集到初步的樣本資料集後,接下來要考慮的問題是:

(1) 樣本資料集的數量和質量能夠滿足模型構建的需求?

(2) 是否出現從未預料的資料狀態?

(3) 其中有沒有明顯的規律和趨勢?

(4) 各因素之間有什麼樣的關聯性?

通過檢驗資料集的資料質量、繪製圖表、計算某些特徵量等手段,對樣本資料集的結構和規律進行分析的過程就是資料探索。

資料探索有助於選擇合適的預處理和建模方法,甚至可以完成一些通常由資料探勘解決的問題。

4.資料預處理

因為我們獲取的資料並不一定是乾淨的,可能會存在一些汙染、缺失等問題,在資料預處理中就需要對資料進行清洗、集中、規範化、精簡,使得這些資料能夠適合我們做資料建模。

5.資料建模

資料建模比較常用的四類演算法:分類演算法、聚類演算法、關聯演算法、預測演算法。

6.模型評估與釋出

 最後對模型進行驗證,是否可以達到我們設定的資料探勘目標,如果能夠可靠的解決我們的問題,之後可以進行釋出。

轉載: https://www.cnblogs.com/wanghuaijun/p/8687902.html