R語言與資料分析之三：分類演算法2

阿新 • • 發佈：2019-01-19

上期與大家分享的傳統分類演算法都是建立在判別函式的基礎上，通過判別函式值來確定目標樣本所屬的分類，這類演算法有個最基本的假設：線性假設。今天繼續和大家分享下比較現代的分類演算法：決策樹和神經網路。這兩個演算法都來源於人工智慧和機器學習學科。

首先和小夥伴介紹下資料探勘領域比較經典的Knn（nearest neighbor）演算法（最近鄰演算法）

演算法基本思想：

Step1：計算出待測樣本與學習集中所有點的距離（歐式距離或馬氏距離），按距離大小排序，選擇出距離最近的K個學習點；

Step2：統計被篩選出來的K個學習點，看他們在分類中的分佈，頻數最大的分類及為待測點的分類；

決策樹（Decision tree）

該演算法主要來源於人工智慧，常用語博弈論，基本邏輯如下圖（解釋女網友見男網友的決策過程）。決策數學習集的屬性可以是非連續的，可以是因子，也可以邏輯是非等。決策過程中需要找到資訊增益最大的屬性作為根節點，然後逐級找出資訊增益次小的屬性，作為下一層決策點，逐級按照資訊增益排列的所有屬性，即可做出決策樹。目前用的最多的ID3和其後續升級版。

現在我們來看看如何用R幫我們做決策樹分析，我們藉助鳶尾花資料集來做，同時我們需要匯入rpart包來做決策樹分析：

install.packages("rpart")
library(rpart)
iris.rp=rpart(Species~.,data=iris,method="class")
plot(iris.rp,uniform=T,branch=0,margin=0.01,main="DecisionTree")
text(iris.rp,use.n=T,fancy=T,col="blue")

結果如下圖：

人工神經網路

ANN（Artificial NeuralNetWorks）

通過學習集構造出一個模型（感知器：如下圖），圖中0.3即為該分支的權值，0.4為偏置因子(t), sum求和為本例的啟用函式（也可是其他函式：三角，指數等），人工神經網路也就是通過學習集來修正權值，通過負反饋過程進行，具體演算法如下：

Step1：另D={(xi,yi)|i=1,2…n}作為訓練集；
Step2：隨機生成初始權值向量w；
Step3： for 每一個訓練集
			計算輸出預測yyi
			For 每個權值wj
				更新權值wj(k+1)=wj(k)+a(yi-yyi(k))*xij
			EndFor
	endFor
until滿足終止條件
Ps: a 為學習效率，通常是是一個較小的數字

顯示的問題往往比較複雜，需要構造多層神經網路如下圖：

接下來給小夥伴們分享下R語言如何實現人工神經網路分析，我們需要安裝AMORE包，我們就解決上文提到的3個變數分類y 的案例：

library(AMORE)
x1=c(1,1,1,1,0,0,0,0)
x2=c(0,0,1,1,0,1,1,0)
x3=c(0,1,0,1,1,0,1,0)
y=c(-1,1,1,1,-1,-1,1,-1)
p<-cbind(x1,x2,x3)
target=y
net <- newff(n.neurons=c(3,1,1),learning.rate.global=1e-2,
momentum.global=0.4,error.criterium="LMS",Stao=NA,hidden.layer="tansig",output.layer="purelin",method="ADAPTgdwm")# n.neurons=c(輸入節點個數,……中間節點,輸出節點個數), error.criterium="LMS"判斷收斂的依據，最小平均平方法，hidden.layer="tansig"隱藏層的啟用函式，output.layer="purelin"輸出層的哦啟用函式
result <- train(net,p,target,error.criterium="LMS",report=TRUE,show.step=100,n.shows=5)
z<-sim(result$net,p)

輸出結果見下圖：

其中Z看符號變可區分，對比Z 和Y，發現神經網路得出的結果和目標值100%吻合。

由此，我們可以看出人工神經網路的強大魅力，我們可以不用去弄明白內部具體演算法原理，我們只需要確定輸入輸出和設定相應的節點便可以輕鬆完成分類。對於隱藏層個數設定我們需要做一定的分析，並非隱藏層數越多，模型越精確，原因有兩個：

1、對於問題規模不那麼複雜時，較多的隱藏層會浪費我們過多沒有必要的時間；

2、隱藏層越多確實可以給我們帶來更好的擬合效果，但需要注意的是，對學習集的過度擬合會造成預測時的巨大誤差。

神經網路的黑箱性是把雙刃劍，一方面黑箱給我們帶來很大的方便；但另一方面黑箱的隱藏性讓我們無法把控，得出的模型無法和業務結合做解釋，因此神經網路需要新的思路來重構演算法，Hopfield神經網路的出現就解決了早期神經網路的黑箱性和過度擬合等缺點。

關於Hopfield大家就自己百度試試吧，住大家好運。

R語言與資料分析之三：分類演算法2

決策樹（Decision tree）

人工神經網路

R語言與資料分析之三：分類演算法2

R語言與資料分析之九：時間內序列--HoltWinters指數平滑法

R語言與資料分析之五：主成分分析

R語言與機器學習學習筆記（分類演算法）（1）K-近鄰演算法

R語言與機器學習學習筆記（分類演算法）（3）樸素貝葉斯

R語言與機器學習學習筆記（分類演算法）（2）決策樹演算法

R語言與機器學習學習筆記（分類演算法）（6）logistic迴歸

R語言大資料分析工具的安裝與應用

R語言與資料探勘學習筆記(1)：資料探勘相關包的介紹

玩轉大資料系列之三：資料報表與展示

Openfire分析之三：ConnectionManager 連接管理（1）

R語言——電視劇資料分析

ARChon 分析之三：Native Client

數理統計與資料分析第三版習題第3章第12題

數理統計與資料分析第三版習題第3章第15題

數理統計與資料分析第三版習題第3章第16題

數理統計與資料分析第三版習題第3章第17題

數理統計與資料分析第三版習題第3章第19題

數理統計與資料分析第三版習題第3章第20題

數理統計與資料分析第三版習題第3章第22題

R語言與資料分析之三：分類演算法2

決策樹（Decision tree）

人工神經網路

相關推薦