R教材11.1 分類與決策樹

阿新 • • 發佈：2018-11-26

分類目的：根據一組預測變數來預測相對應的分類結果，實現對新出單元的準確分類
有監督學習：基於已知類的資料樣本，將全部資料分為訓練集和驗證集
用到的包：rpart，rpart.plot，party，randomForest，e1071
隨機抽樣：
1. set.seed(1234)
2. sample(nrow(物件),present*nrow(物件))，結果是抽樣的內建ID
  1. sample(資料物件,抽樣個數)資料物件可以是連續資料或資料分佈
邏輯迴歸glm()，自動將預測變數中的分類變數編碼為數值型，廣義線性模型
1. glm(formula,data,family)，family指連線函式，資料服從的分佈型別，binomial二項分佈（在每次試驗中只有兩種可能的結果，而且兩種結果發生與否互相對立，並且相互獨立，與其它各次試驗結果無關），模型按數值大小分01，模型再將假設結果為正負
2. predict(fit,data,type="response")
  1. response按資料正負轉化為概率0~1
  2. class即輸出變數為分類型別
3. table(class1,class2,dnn=c())，dnn為維度名，class分類型別
4. step(fit)，模型的逐步法，去除多餘的屬性
決策樹：預設二分樹演算法
1. 經典樹：不希望有大量的測試條件的劃分，即CART演算法，二分樹，classify and regression tree分類迴歸樹
  1. 步驟
    1. 選定一個最佳預測變數將樣本單元分為兩類，對子類別繼續分類，遞迴
    2. 直到結束條件成立：節點樣本量過少，繼續分類的不純度提升過少等
    3. 葉節點中的多數類即該葉節點的類
  2. 改進：過擬合現象，採用k折交叉驗證法選擇預測誤差最小的樹，剪枝後即為最優樹
  3. R中的rpart()和prune()：
    1. rpart(formula,data,method,parm)構造決策樹
      1. *na. action 缺失資料的處理辦法：預設辦法是刪除因變數缺失的觀測而保留自變數缺失的觀測
      2. method劃分樹時，根據樹末端的資料型別選擇相應變數分割方法；程式會根據因變數的型別自動選擇方法, 但一般情況下較好還是指明本引數, 以便讓程式清楚做哪一種樹模型
        
        "anova"連續型
        
        "poisson"計數型（泊松過程）
        
        "class"離散型
        
        "exp"生存分析型
      3. parm=list(split="",...)設定先驗概率、損失矩陣、分類純度的度量方法
        
        split可以是gini（基尼係數）或者information（資訊增益）
      4. rpart()返回的cptable值中包括不同大小的樹對應的預測誤差
        
        cp複雜度引數，懲罰過大的樹
        
        nsplit劃分個數，n個分支的樹有n+1個葉節點
        
        rel error訓練集中的樹的誤差（應該是對單個樹，可能是該節點數下的最優樹）
        
        xerror交叉驗證誤差，k折總誤差
        
        xstd交叉驗證誤差的標準差
    2. plotcp(rpart)
      1. size of tree樹大小
      2. y軸交叉驗證誤差
      3. x軸複雜度引數
      4. 最優樹：最小交叉驗證誤差的±1個標準差範圍內的樹，規模最小的樹即最優；影象的虛線即基於一個標準差準則得到的上限
    3. prune(rpart,cp=)決策樹剪枝，將樹的大小控制在理想範圍內，最優樹對應的cp
    4. rpart.plot::prp(fit,type,extra,fallen.leaves)
      1. type分割標籤顯示型別
      2. extra每個節點的樣本佔比和型別佔比
      3. fallen.leaves=T垂直作圖|斜線連線
    5. predict(fit,data,type="class")對應rpart的method
2. 條件推斷樹：類似於決策樹，但變數和分割的選取是基於顯著性檢驗，而不是不純性度量
  1. 演算法：
    1. 對輸出變數和每個預測變數間的關係計算p值（顯著性檢驗）
    2. 選擇p_value最小的變數
    3. 嘗試所有的二元分割，選擇p_value最小的分割
    4. 重複分割直到所有分割都不顯著或達到最小節點為止
  2. 實現
    1. party::ctree(formula,data)
    2. plot(fit)
    3. predict(fit,data,type)type選擇response，演算法將結果變數當做二項分佈
    4. 條件推斷樹的剪枝是不必要的，生成過程中就有對不顯著變數的去除

R教材11.1 分類與決策樹

分類目的：根據一組預測變數來預測相對應的分類結果，實現對新出單元的準確分類有監督學習：基於已知類的資料樣本，將全部資料分為訓練集和驗證集用到的包：rpart，rpart.plot，party，randomForest，e1071 隨機抽樣： set.se

機器學習入門 - 1. 介紹與決策樹(decision tree)

recursion machine learning programmming 機器學習(Machine Learning) 介紹與決策樹(Decision Tree)機器學習入門系列是個人學習過程中的一些記錄與心得。其主要以要點形式呈現，簡潔明了。1.什麽是機器學習？一個比較概括的理解是:

javascript實現樸素貝葉斯分類與決策樹ID3分類

.com 訓練集 this ice map ive sum length roc 今年畢業時的畢設是有關大數據及機器學習的題目。因為那個時間已經步入前端的行業自然選擇使用JavaScript來實現其中具體的算法。雖然JavaScript不是做大數據處理的最佳語言，相比還沒有

R教材11.2 隨機森林與支援向量機

隨機森林是組成式監督學習演算法，同時使用多個預測模型，將模型的結果彙總以提升分類準確率；對樣本單元和屬性進行抽樣，產生大量的決策樹，再對檢驗的樣本單元進行依次分類，從而得到未知樣本單元的類演算法：訓練集中有N個樣本單元，M個變數從訓練集中隨機有放

模式識別：分類迴歸決策樹CART的研究與實現

摘要：本實驗的目的是學習和掌握分類迴歸樹演算法。CART提供一種通用的樹生長框架，它可以例項化為各種各樣不同的判定樹。CART演算法採用一種二分遞迴分割的技術，將當前的樣本集分為兩個子樣本集，使得生成的決策樹的每個非葉子節點都有兩個分支。因此，CART演

11.19分類與監督

1.理解分類與監督學習、聚類與無監督學習。簡述分類與聚類的聯絡與區別。分類指監督學習，就是按照某種標準給物件貼標籤，再根據標籤來區分歸類。聚類是指事先沒有“標籤”而通過某種成團分析找出事物之間存在聚集性原因的過程。指無監督學習，是指根據“物以類聚”的原理，將本身沒有類別的樣本聚整合不同的組，這樣的

機器學習分類器---決策樹

一、決策樹經常使用決策樹來處理分類問題，決策樹也是最經常使用的資料探勘演算法，不需要了解機器學習的知識，就能搞明白決策樹是如何工作的。 kNN演算法可以完成很多分類任務，但它最大的缺點就是無法給出資料的內在含義，決策樹的主要優勢在於資料形式非常容易理解決策樹能夠讀取資

多分類問題決策樹資料分析-大資料ML樣本集案例實戰

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。 1 資料預處理 DF加上表頭

機器學習分類演算法---決策樹

決策樹：樹結構，可以是二叉樹或非二叉樹，資料結構中的概念，只不過加上了判斷條件。資訊熵： 1948年，夏農提出了“資訊熵”的概念。一條資訊的資訊量大小和它的不確定性有直接的關係，即對一件事，你不知道的越多，這件事對於你來說資訊熵越大，因為你需要學的東西更多。 &nb

分類與迴歸樹(CART,Classification And Regression Tree)

分類迴歸樹也屬於一種決策樹。分類迴歸樹是一棵二叉樹，且每個非葉子節點都有兩個孩子。構建決策樹時通常採用自上而下的方法，在每一步選擇一個最好的屬性來分裂。 "最好" 的定義是使得子節點中的訓練集儘

機器學習實戰筆記——微軟小冰的讀心術與決策樹

最近微信朋友圈很多人在轉發的一個遊戲叫做“微軟小冰讀心術”，遊戲的規則很簡單：參與遊戲的一方在腦海裡想好一個人的名字，然後微軟小冰會問你15個問題，問題的答案只能用“是”、“不是”或者“不知道”回答。微軟小冰通過你的回答進行推斷分解，逐步縮小待猜測人名的範圍，決

CART分類與迴歸樹的原理與實現

// cart.cpp : 定義控制檯應用程式的入口點。 // #include "stdafx.h" #include<vector> #include<set> #include<algorithm> #include<iostream> #include

資料探勘十大經典演算法--CART: 分類與迴歸樹

一、決策樹的型別在資料探勘中，決策樹主要有兩種型別: 分類樹的輸出是樣本的類標。迴歸樹的輸出是一個實數 (例如房子的價格，病人呆在醫院的時間等)。術語分類和迴歸樹 (CART) 包含了上述兩種決策樹, 最先由Breiman 等提出.分類樹和迴歸樹有些共同點和不同

分類：決策樹——樹的生長

att false 從數據 name 判斷 width 多個 data 集合分類算法非常適合預測或描述標簽為二元或標稱類型的數據集，對於標簽為序數類型的數據集，分類技術則不太有效，因為分類技術不考慮隱藏在序數中的“序”關系，對於標簽其他形式的聯系如子類與超類

資料探勘十大經典演算法(十) CART: 分類與迴歸樹

在資料探勘中，決策樹主要有兩種型別: 分類樹的輸出是樣本的類標。迴歸樹的輸出是一個實數 (例如房子的價格，病人呆在醫院的時間等)。分類迴歸樹是一棵二叉樹，且每個非葉子節點都有兩個孩子，所以對於第一棵子樹其葉子節點數比非葉子節點數多1。決策樹為什麼(WHY)要

分類演算法-----決策樹

第一篇：從決策樹學習談到貝葉斯分類演算法、EM、HMM （Machine Learning & Data Mining）引言最近在面試中，除了基礎 & 演算法 & 專案之外，經

[機器學習]詳解分類演算法--決策樹演算法

前言演算法的有趣之處在於解決問題,否則僅僅立足於理論,便毫無樂趣可言; 不過演算法的另一特點就是容易嚇唬人,又是公式又是圖示啥的,如果一個人數學理論知識過硬,靜下心來看,都是可以容易理解的,紙老虎一個,不過這裡的演算法主要指的應用型演算法

四分類：基本概念，決策樹與模型評估1

4.1預備知識元組（x，y）：x指屬性集合，y指分類屬性目標函式又稱為分類模型：描述性建模；預測性建模 4.2 解決分類問題的一般方法分類技術是一種根據輸入資料集建立分類模型的系統方法。學習演算法確定分類模型；泛化能力模型訓練集；檢驗集分類模型效能評估： 1.正確

R語言與機器學習學習筆記（分類演算法）（2）決策樹演算法

演算法二：決策樹演算法決策樹定義決策樹模型是基於特徵對例項進行分類的樹形結構。由結點和有向邊組成。結點包括內部結點和葉節點，內部結點為特徵或屬性，葉子節點表示一個類。【優點】模型具有可讀性，分類速度快。以鳶尾花為例，觀察上圖，我們判決鳶尾花的思考過程可以這麼來描述：花瓣的長度

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

R教材11.1 分類與決策樹

相關推薦