1. 程式人生 > >資料探勘步驟(流程)

資料探勘步驟(流程)

流程說明:

暫且總結為五步:1、確立挖掘目的,2、資料準備,3、數學建模,4、模型評估,5、模型應用。

第一步:確立挖掘目的,

確立業務目標 -->  對目標做簡單評估,確立所需要的資料型別,人力資源及風險等, ----> 確立資料探勘的目標  ---->制定實施計劃

第二步:資料準備

1)、資料選擇:白貓黑貓能抓老鼠就是好貓,只要第一步確立了目標, 奔著這個目標選擇各種與目標相關的資料,公司內部資料,外部行業資料,網際網路資料等。可以爬去公開網站資料等。

2)、資料篩選:判斷資料是否有缺失,如果缺失確定填充缺失欄位或者刪除缺失欄位,資料型別一致性如日期時間,編碼格式。等

3)、資料轉換:對於結構化資料進行彙總匯出排序異常值處理等,非結構化資料進行分詞,情感分析,詞頻統計,去噪音等。

4)、資料優化:深入分析資料,主要清洗噪音資料。修改或刪除異類資料

第三步:數學建模

1)、技術選擇:根據自己技能選擇適合的模型

2)、構建模型:根據資料,構建模型,

3)、模型評估:根據測試如交叉驗證等測試結果,進行引數調優,並且評估各個模型,最終選擇最合適的模型。

第四步:結果評估

根據模型跑出的結果,結合第一步中資料探勘的目的。根據實際應用的情況,驗證模型是否適合解決實際問題。如果能夠解決,選擇最優的一套模型或者多套模型混合部署在業務應用系統。從而為實際問題服務,如果都沒能解決實際問題。返回重新調整模型或者重建。實踐是檢驗真理的唯一標準。

第五步:模型應用

上一步以說。如果有合適的模型。與業務系統對接。確立最終方案。Do it !!!