全面解析資料探勘流程及技術分析
Hadoop系統的發展解決了企業大資料的儲存和處理能力的問題。但是系統本身並不能對資料形成分析和理解。如何從海量的資料中發現有用的知識併為企業發展提供幫助和指導,是資料探勘技術的研究目標。
簡單來說,資料探勘就是利用人工智慧、機器學習、統計學、模式識別等技術,從大量的、含有噪聲的實際資料中提取其中隱含的、事先不為人所知的有效資訊的過程。一方面,資料探勘所處理的資料物件是真實的、包含噪音,因此是一門實際應用科學;另一方面,其目的在於發現人們感興趣的知識,與市場邏輯存在著緊密聯絡。大資料時代的資料探勘技術並不是一門新的學科,其基本原理與傳統資料探勘並無本質區別。只是由於所需要處理的資料規模龐大、且價值密度低,在處理方法和邏輯上被賦予了新的含義。比如傳統資料探勘由於資料量較小,為真實反應實際情況,需要構建相對複雜的模型;而大資料時代提供了海量的資料,可能使用相對簡單的模型便可以滿足需求。

所示為資料探勘基本流程,包括商業理解、資料準備、資料理解、模型建立、模型評估和模型應用幾個步驟。
首先是商業理解,也就是對資料探勘問題本身的定義 。所謂做正確的事比正確的做事更重要,在著手做資料模型之前一定要花時間去理解需求,弄清楚真正要解決的問題是什麼,根據需求制定工作方案。這個過程需要比較多的溝通和市場調研,瞭解問題提出的商業邏輯。在溝通交流過程中,為了便於對溝通效果進行把控,可以採取思維導圖等工具對的結果進行記錄、整理。
明確需求後,接下來就是要收集並整理資料建模所需要的資料 。這個過程是資源調配的過程,需要與企業的相關部門明確可以使用的資料維度有哪些,哪些維度與建模任務相關性比價高。這個過程通常需要一定的專業背景知識。
資料理解指的是對用於挖掘資料的預處理和統計分析過程,有時也稱為ETL過程。主要包括資料的抽取、清洗、轉換和載入,是整個資料探勘過程最耗時的過程,也是最為關鍵的一環。資料處理方法是否得當,對資料中所體現出來的業務特點理解是否到位,將直接影響到後面模型的選擇及模型的效果,甚至決定整個資料探勘工作能否完成預定目標。該過程需要有一定的統計學理論和實際經驗,並具備一定的專案經驗。
模型建立是是整個資料探勘流程中最為關鍵的一步,需要在資料理解的基礎上選擇並實現相關的挖掘演算法,並對演算法進行反覆除錯、實驗。 通常模型建立和資料理解是相互影響,經常需要經過反覆的嘗試、磨合,多次迭代後方可訓練處真正有效的模型。
模型評估是在資料探勘工作基本結束的時候,對最終模型效果進行評測的過程。在挖掘演算法初期需要制定好最終模型的評測方法、相關指標等,在這個過程中對這些評測指標進行量化,判斷最終模型是否可以達到預期目標。通常模型的評估人員和模型的構建人員不是同一批人,以保證模型評估的客觀、公正性。
最終,當挖掘得到的模型通過評測後可以安排上線、正式進入商業化流程中。為了避免由於建模資料與線上真實情況不一致而導致模型失效的狀況出現,通常在應用過程中採取A/B測試的步驟,對模型在實際線上環境中的執行狀況進行觀察跟蹤,確保模型在線上環境中符合預期。
瞭解了資料探勘的基本流程,常用的資料探勘任務和所用到的挖掘大資料技術有哪些?總的來說,資料探勘任務可以概括為描述性預測性兩大類。描述性任務主要是對現有資料的理解和整理,從中發現其中的一般特性,是對歷史知識的總結和歸納。預測性任務則是利用當前資料對事務的未來發展趨勢進行推斷,是知識的外延和推理過程。
在此我向大家推薦一個大資料開發交流圈:658558542 (☛點選即可加入群聊)裡面整理了一大份學習資料,全都是些乾貨,包括大資料技術入門,大資料離線處理、資料實時處理、Hadoop 、Spark、Flink、推薦系統演算法以及原始碼解析等,送給每一位大資料小夥伴,讓自學更輕鬆。這裡不止是小白聚集地,還有大牛線上解答!歡迎初學和進階中的小夥伴一起進群學習交流,共同進步!
比較常見的資料探勘技術有如下幾類:
關聯規則分析:
包括頻繁模式挖掘、序列模式挖掘,用於發現能夠描述資料項之間關係的規則。典型應用是使用者購物籃分析,發現使用者經常一起購買的商品集合,如購買啤酒的人經常也會順手購買小孩尿布;及使用者購買某商品之後後續最有可能購買的其他商品,如使用者購買自行車兩個月左右後通常會再購買打氣筒。前者可以用來指導商場的商品陳列,將使用者最可能在一起購買的商品擺列在一起。後者則可以用來對使用者的未來消費行為進行推薦引導。
分類和預測:
分類是按照已知的分類模式找出資料物件的共同特點,並將樣本劃分到相應的類別中,是最為基本的資料探勘技術,廣泛用於客戶喜好分析、滿意度分析等場景。如銀行根據使用者的消費能力和還款記錄對其信用評級進行劃分等。預測是將樣本對映到連續的數值型目標值,發現屬性見的依賴關係。如對產品未來一段時間的銷售狀況進行預測等。
聚類分析:
將一組物件按照相似性和差異程度劃分到幾個類別,使同一類別中樣本的相似性儘可能大。如在金融行業中對不同股票的發展趨勢進行歸類,找出股價波動趨勢相近的股票集合。
推薦技術:
根據使用者的興趣特點和歷史的行為,向用戶推薦其感興趣的資訊或商品。其最為成功的應用是在電子商務網站中,向用戶推薦其可能購買的商品,從而增加商品的銷售規模並提高使用者粘性。
連結分析:
根據樣本或資料物件之間的關聯,可以構建物件之間的連結網路。連結分析是指利用圖論模型對這些連結網路進行分析挖掘的一系列技術。其中最為知名的當屬Google通過分析網頁之間的跳轉關係對頁面權威度進行排序的PageRank演算法。
其他相關挖掘技術還包括孤立點分析、資料演變分析等。
感謝您的觀看,如有不足之處,歡迎批評指正。最後祝福所有遇到瓶頸的大資料程式設計師們突破自己,祝福大家在往後的工作與面試中一切順利。