1. 程式人生 > >資料探勘基本演算法

資料探勘基本演算法

資料探勘主要分為4類,即預測、分類、聚類和關聯,根據不同的挖掘目的選擇相應的演算法。R語言博大精深,吸納了來自各方的挖掘演算法包,這些包都是由統計學家或是演算法研究人員提供,我們可以站在這些偉人的肩膀上實現演算法的應用。下面對常用的資料探勘包做一個彙總:
連續因變數的預測:
stats包
lm函式,實現多元線性迴歸
stats包 
glm函式,實現廣義線性迴歸
stats包 
nls函式,實現非線性最小二乘迴歸
rpart包
rpart函式,基於CART演算法的分類迴歸樹模型
RWeka包
M5P函式,模型樹演算法,集線性迴歸和CART演算法的優點
adabag包 
bagging函式,基於rpart演算法的整合演算法
adabag包 
boosting函式,基於rpart演算法的整合演算法
randomForest包
randomForest函式,基於rpart演算法的整合演算法
e1071包
svm函式,支援向量機演算法
kernlab包 
ksvm函式,基於核函式的支援向量機
nnet包 
nnet函式,單隱藏層的神經網路演算法
neuralnet包
neuralnet函式,多隱藏層多節點的神經網路演算法
RSNNS包 
mlp函式,多層感知器神經網路
RSNNS包
rbf函式,基於徑向基函式的神經網路


離散因變數的分類:
stats包 
glm函式,實現Logistic迴歸,選擇logit連線函式
stats包 
knn函式,k最近鄰演算法
kknn包 
kknn函式,加權的k最近鄰演算法
rpart包 
rpart函式,基於CART演算法的分類迴歸樹模型
adabag包
bagging函式,基於rpart演算法的整合演算法
adabag包
boosting函式,基於rpart演算法的整合演算法
randomForest包
randomForest函式,基於rpart演算法的整合演算法
party包
ctree函式,條件分類樹演算法
RWeka包
OneR函式,一維的學**規則演算法
RWeka包
JPip函式,多維的學**規則演算法
RWeka包
J48函式,基於C4.5演算法的決策樹
C50包
C5.0函式,基於C5.0演算法的決策樹
e1071包
svm函式,支援向量機演算法
kernlab包
ksvm函式,基於核函式的支援向量機
e1071包
naiveBayes函式,貝葉斯分類器演算法
klaR包
NaiveBayes函式,貝葉斯分類器算分
MASS包
lda函式,線性判別分析
MASS包
qda函式,二次判別分析
nnet包
nnet函式,單隱藏層的神經網路演算法
RSNNS包
mlp函式,多層感知器神經網路
RSNNS包
rbf函式,基於徑向基函式的神經網路


聚類:
Nbclust包
Nbclust函式可以確定應該聚為幾類
stats包
kmeans函式,k均值聚類演算法
cluster包
pam函式,k中心點聚類演算法
stats包
hclust函式,層次聚類演算法
fpc包
dbscan函式,密度聚類演算法
fpc包
kmeansruns函式,相比於kmeans函式更加穩定,而且還可以估計聚為幾類
fpc包
pamk函式,相比於pam函式,可以給出參考的聚類個數
mclust包
Mclust函式,期望最大(EM)演算法


關聯規則:
arules包
apriori函式,Apriori關聯規則演算法