樹迴歸：CART演算法構建迴歸樹和模型樹（程式碼筆記）

阿新 • • 發佈：2019-01-02

分類迴歸樹（Classification And Regression Trees，CART）是一種構造樹的監督學習方法。

和ID3決策樹作比較：

1. ID3每次直接用最佳特徵分割資料，即如果當前特徵有4個可能值，那麼資料將被分成4份，處理的是標稱型資料，不能直接處理連續型資料。CART則利用二元切分來處理連續型變數，每次會找一個最佳特徵的閾值，把資料集分成兩部分，也就是左子樹和右子樹。

2. CART使用方差計算來代替夏農熵。但目的都是找最佳切分特徵。

import numpy as np
'''
CART使用二元切分來處理連續型變數。
迴歸樹和分類樹類似，只是葉節點的資料型別是連續型不是離散型
(其實也不是真正的“連續”,切分時仍取決於屬性值,只不過數值都是浮點數)
以下是兩種CART：迴歸樹，模型樹
'''
def loadData(filename):
    dataM = []
    fr = open(filename)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float, curLine)  # 每行存成一組浮點數
        dataM.append(fltLine)
    return dataM

# ----------------- 迴歸樹（regression tree）每個葉節點包含單個值 -------------------
def regLeaf(data): # 資料不需要再切分時用來生成葉節點(常量)
    return np.mean(data[:,-1])

def regErr(data):  # 誤差用均方差計算
    return np.var(data[:,-1]) * np.shape(data)[0]

# 找最佳的切分的位置(特徵)和閾值
def chooseBestSplit(data, leafType=regLeaf, errType=regErr, ops=(1,4)):
    tolS = ops[0]  # 允許的誤差減少量的最低值
    tolN = ops[1]  # 允許切分的最少樣本數
    if len(set(data[:,-1].T.tolist()[0])) == 1:  # 標籤值只有一個值(都是一類)
        return None, leafType(data)
    m, n = np.shape(data)
    S = errType(data)  # 目標變數的總方差
    bestS = inf
    bestIdx = 0
    bestVal = 0
    for featIdx in range(n-1):
        for splitVal in set(data[:, featIdx]):
            mat0, mat1 = binSplitData(data, featIdx, splitVal)
            if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN):
                continue    # 劃分條件
            newS = errType(mat0) + errType(mat1)
            if newS < bestS:
                bestIdx = featIdx
                bestVal = splitVal
                bestS = newS
    if (S-newS) < tolS:                        
        return None, leafType(data)  # 如果誤差變化量很小就退出
    mat0, mat1 = binSplitData(data, bestIdx, bestVal)
    if (np.shape(mat0)[0] < tolN) or (np.shape(mat1)[0] < tolN):
        return None, leafType(data)  # 如果切分的資料集很小也退出
    return bestIdx, bestVal

# 資料集的切分函式
def binSplitData(data, feature, value):
    mat0 = data[np.nonzero(data[:, feature] > value)[0], :]  # 左子樹
    mat1 = data[np.nonzero(data[:, feature] <= value)[0], :] # 右子樹
    return mat0, mat1

def createTree(data, leafType=regLeaf, errType=regErr, ops=(1,4)):
    feat, val = chooseBestSplit(data, leafType, errType, ops)
    if feat == None:  # feat為None是chooseBestSplit()決定的不再切分資料
        return val    # val是leafType()生成的葉節點 (這裡是常值, 變數均值)
    retTree = {}
    retTree['spInd'] = feat
    retTree['spVal'] = val
    lfData, rtData = binSplitData(data, feat, val)
    retTree['left'] = createTree(lfData, leafType, errType, ops)
    retTree['right']= createTree(rtData, leafType, errType, ops)
    return retTree

# ------------------ 模型樹（model tree）每個葉節點包含一個線性方程 -------------------
def linearNode(data):
    m, n = np.shape(data)
    x = np.mat(np.ones((m,n)))
    y = np.mat(np.ones((m,1)))
    x[:, 1:n] = data[:, 0:n-1]
    y = data[:, -1]
    xTx = x.T * x
    if linalg.det(xTx) == 0.0:
        raise(NameError('This matrix is singular, cannot do inverse'))
    w = xTx.I * (x.T * y)
    return w, x, y

def modelLeaf(data):  # 資料不需要再切分時用來生成葉節點(線性函式) 
    w, x, y = linearNode(data)
    return w

def modelErr(data):   # 誤差用平方差計算
    w, x, y = linearNode(data)
    yHat = x * w
    return np.sum(np.power(y-yHat, 2))

def createTree(data, leafType=modelLeaf, errType=modelErr, ops=(1,4)):
    feat, val = chooseBestSplit(data, leafType, errType, ops)
    if feat == None:  # feat為None是chooseBestSplit()決定的不再切分資料
        return val    # val是leafType()生成的葉節點 (這裡是直線, 迴歸係數 )
    retTree = {}
    retTree['spInd'] = feat
    retTree['spVal'] = val
    lfData, rtData = binSplitData(data, feat, val)
    retTree['left'] = createTree(lfData, leafType, errType, ops)
    retTree['right']= createTree(rtData, leafType, errType, ops)
    return retTree

# ----------------------------- 迴歸樹和模型樹做預測 ----------------------------------
def regTreeEval(treeNode, xdata):   # 葉節點為常量值
    return float(treeNode)

def modelTreeEval(treeNode, xdata): # 葉節點為迴歸係數
    n = np.shape(xdata)[1]
    x = np.mat(np.ones((1, n+1)))
    x[:, 1:n+1] = xdata
    return float(x*treeNode)

def isTree(obj):
    return (type(obj).__name__ == 'dict')

# modelEval指定樹的型別，區分兩種葉節點
def treePredict(tree, xTest, modelEval=regTreeEval): 
    if not isTree(tree):
        return modelEval(tree, xTest)
    if xTest[tree['spInd']] > tree['spVal']:  # 劃分特徵的值大於閾值,分到左子樹
        if isTree(tree['left']):                       # 左子樹還有分支
            return treePredict(tree['left'], xTest, modelEval)
        else:                                          # 左子樹已經是葉節點
            return modelEval(tree['left'], xTest)
    else:                                     # 劃分特徵的值小於閾值,分到右子樹
        if isTree(tree['right']):
            return treePredict(tree['right'], xTest, modelEval)
        else:
            return modelEval(tree['right'], xTest)

樹迴歸：CART演算法構建迴歸樹和模型樹（程式碼筆記）

分類迴歸樹（Classification And Regression Trees，CART）是一種構造樹的監督學習方法。和ID3決策樹作比較： 1. ID3每次直接用最佳特徵分割資料，即如果當前特徵有4個可能值，那麼資料將被分成4份，處理的是標稱型資料，不能直接處理連續

演算法4-7：KMP演算法中的模式串移動陣列（c語言）

題目描述字串的子串定位稱為模式匹配，模式匹配可以有多種方法。簡單的演算法可以使用兩重巢狀迴圈，時間複雜度為母串與子串長度的乘積。而KMP演算法相對來說在時間複雜度上要好得多，為母串與子串長度的和。但其算符比較難以理解。在KMP演算法中，使用到了一個next陣列。這個陣列就是在比較

響應式Web設計：HTML5和CSS3實戰（讀書筆記）

視口：瀏覽器視窗內的內容區域，不包含工具欄，標籤欄。網頁實際顯示. 螢幕尺寸：裝置物理顯示區域各種寬度和高度 a、可視區的真實寬度和高度 document.documentElement.clientWid

排序演算法之氣泡排序和快速排序（Java版）

轉自：http://www.cnblogs.com/0201zcr/p/4763806.html 作者：Whywin 1、氣泡排序演算法如下（排序後，由小到大排列）： /** * 氣泡排序 * 比較相鄰的元素。如果第一個比第二個大，就交換他們兩個。

PCA演算法的數學原理和C++語言（Eigen庫）實現

PCA演算法的數學原理最近在學習影象處理相關方面的知識，在影象壓縮時用到主成分分析演算法（Principal Component Analysis PCA）。數學理論主要參考了這篇部落格點選開啟連結，博主寫的非常好，通俗易懂。這裡總結了一下PCA演算法的實現步驟如下：設有m條

經典演算法詳解--CART分類決策樹、迴歸樹和模型樹

Classification And Regression Tree(CART)是一種很重要的機器學習演算法，既可以用於建立分類樹（Classification Tree），也可以用於建立迴歸樹（Regression Tree），本文介紹了CART用於離散標籤分

機器學習筆記（三）：線性迴歸大解剖（程式碼部分）

這裡，讓我手把手教你如何用邏輯迴歸分析資料根據學生分數預測是否錄取： #必備3個庫 import numpy as np import pandas as pd import matplotlib.pyplot as plt 讓我們讀入資料： import

【101】java多叉樹廣度優先搜尋演算法，搜尋檔案和資料夾

我用了多叉樹廣度優先搜尋，遍歷了檔案的樹形結構，然後用回撥方法判斷檔案或資料夾是否符合搜尋條件。把結果返回到一個集合中。演示的例子分成三個檔案：FileFilter、SearchFileUtils和Main。下面逐個給出程式碼。 FileFilter：

紅黑樹的構建以及插入和刪除操作（C語言完整）

參照演算法導論虛擬碼。註釋沒有很詳細，建議先看演算法導論或者其他博主的分析搞清楚insert和delete操作的方法。 #include<stdio.h> #include<stdlib.h> typedef int type; typ

用樹狀數組寫的最長上升子序列（友好城市），nlogn。

log stream blog sum spa 最長上升子序列 () += def #include<iostream> #include<algorithm> #define maxn 100000 #define lb(x) x&-x

Java數據結構和算法（十二）——2-3-4樹

oid 樹的高度 n+1 tno != val post 節點數據 isp 　　通過前面的介紹，我們知道在二叉樹中，每個節點只有一個數據項，最多有兩個子節點。如果允許每個節點可以有更多的數據項和更多的子節點，就是多叉樹。本篇博客我們將介紹的——2-3

演算法導論第六章：堆排序筆記（堆、維護堆的性質、建堆、堆排序演算法、優先順序佇列、堆排序的程式碼實現）

堆排序(heapsort) 像合併排序而不像插入順序，堆排序的執行時間為O(nlgn) 。像插入排序而不像合併排序，它是一種原地( in place) 排序演算法：在任何時候，陣列中只有常數個元素儲存在輸入陣列以外。堆：（二叉）堆資料結構是一種陣列物件，它可以被視為一棵完全二叉樹。樹

第六章樹和二叉樹作業1—二叉樹--計算機17級 6-3 先序輸出葉結點（15 分）

6-3 先序輸出葉結點（15 分）本題要求按照先序遍歷的順序輸出給定二叉樹的葉結點。函式介面定義： void PreorderPrintLeaves( BinTree BT ); 其中BinTree結構定義如下： typedef struct TN

php四種基礎演算法：冒泡，選擇，插入和快速排序法程式碼練習

function maopao($arr,$len) { for($i=1;$i<$len;$i++) { for($j=0;$j<$len-$i;$j++) { if($arr[$j]>$arr[$j+1])

你也可以手繪二維碼（二）糾錯碼字演算法：數論基礎及伽羅瓦域GF（2^8）

摘要：本文講解二維碼糾錯碼字生成使用到的數學數論基礎知識，伽羅瓦域（Galois Field）GF（2^8），這是手繪二維碼填格子理論基礎，不想深究可以直接跳過。同時數論基礎也是Hash演算法，RSA演算法等密碼學的入門基礎。二維碼生成演算法最為核心的就是編碼規則和糾錯碼字的生成。本篇專門講解糾錯涉及到的伽

6-1 二叉樹求深度和葉子數（20 分）

編寫函式計算二叉樹的深度以及葉子節點數。二叉樹採用二叉連結串列儲存結構函式介面定義： int GetDepthOfBiTree ( BiTree T); int LeafCount(BiTree T); 　　其中 T是使用者傳入的引數，表示二叉樹根節點的地址。函式須返回二叉樹

排序演算法1：最快最簡單的排序——桶排序（C++版本）

下面我要開始摘抄總結了。。。。文字來源於部落格2。。。 1.什麼是桶排序桶排序，也叫做箱排序，是一種排序演算法，也是排序演算法中最快、最簡單的排序演算法。其中的思想是我們首先要知道所有待排序的範圍，然後需要有在這個範圍的同樣數量的桶，接

c語言實現二叉樹的遍歷和建立程式（附帶註釋）

/******************************************************************/ //樹的遞迴思想，把每個節點當作是一棵樹，以後序遍歷為例 //步驟1：訪問左子樹.2訪問右子樹3.列印當前節點的值 //在節點遍歷時如果

主席樹入門詳解一（學習筆記）（例題POJ-2104 求區間第k小）

學習主席樹，在網上搜了很多教程（都好簡短啊，直接就是幾行字就上程式碼，看不懂啊有木有~~），最後才很艱難的學會了最基礎的部分。下面就是我在學習的過程中的產生的疑惑和解決的辦法。學習主席樹需要的前置技能：線段樹。參考資料 1. B站上的視訊講解（話說B站真的啥都有啊）

樹（學習筆記）

定義： 1、有且只有一個稱為根的節點 2、有若干個互不相交的子樹，這些子樹本身也是一棵樹*************************************許多名稱定義參照中國血緣關係理解*******************************

樹迴歸：CART演算法構建迴歸樹和模型樹（程式碼筆記）

相關推薦