資料探勘演算法概念與經典演算法簡介
阿新 • • 發佈:2019-01-22
一、資料探勘演算法概念
什麼是資料探勘?資料探勘一般是指從大量的資料中自動搜尋隱藏於其中的有著特殊關係性的資訊的過程。什麼是資料探勘演算法?資料探勘演算法是根據資料建立資料探勘模型的一組試探法和計算。 為了建立模型,演算法將首先分析您提供的資料,並查詢特定型別的模式和趨勢。資料探勘演算法主要分為以下型別:分類 (Classification); 估計(Estimation);預測(Prediction) ;相關性分組或關聯規則(Affinity grouping or association rules);聚類(Clustering);複雜資料型別挖掘(Text, Web ,圖形影象,視訊,音訊等)。
分類:首先從資料中選出已經分好類的訓練集,在該訓練集上運用資料探勘分類的技術,建立分類模型,對於沒有分類的資料進行分類。
估計:估計與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的輸出;分類
的類別是確定數目的,估值的量是不確定的。
預測:是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時間後,才知道預言準確性是多少。
相關性分組或關聯規則:決定哪些事情將一起發生。
聚類:聚類是對記錄分組,把相似的記錄在一個聚集裡。聚類和分類的區別是聚集不依賴於預先定義好的類,不需要訓練集。
二、常用的資料探勘演算法介紹
下面介紹比較經典的資料探勘演算法。
1:C4.5
C4.5就是一個決策樹演算法,它是決策樹(決策樹也就是做決策的節點間像一棵樹一樣的組織方式,其實是一個倒樹)核心演算法ID3的改進演算法,所以基本上了解了一半決策樹構造方法就能構造它。決策樹構造方法其實就是每次選擇一個好的特徵以及分裂點作為當前節點的分類條件。C4.5比ID3改進的地方時: ID3選擇屬性用的是子樹的資訊增益(這裡可以用很多方法來定義資訊,ID3使用的是熵(entropy)(熵是一種不純度度量準則)),也就是熵的變化值,而C4.5用的是