機器學習之--決策樹遞歸算法實現

阿新 • • 發佈：2019-03-30

決策 def 產生直接 asi split classlist 好的 EDA

import numpy as np
import math

#產生數據的函數
def createdatabase():
    dataSet = [[1,1,‘yes‘],[1,1,‘yes‘],[1,0,‘no‘],[0,1,‘no‘],[0,1,‘no‘]]
    labels = [[‘no surfacing‘],[‘flippers‘]]
    return dataSet,labels
dataSet,labels = createdatabase()
print(‘dataSet:‘,dataSet)
print()

#求數據的香農熵                    熵越大 混合的數據越多 

def XN(dataSet):
    mydict = {}
    Sum = 0
    datasize = len(dataSet)
    for i in dataSet:
        mydict[i[-1]] = mydict.get(i[-1],0) + 1
    for key in mydict:
        P = mydict[key] / datasize
        Sum -= P * math.log(P,2)
    # print(‘dict:‘,mydict)
    # print(‘XN:‘,Sum)
    return 
 Sum
# XN(dataSet)

def D_split(dataSet,axis,value):                #按某一列的某個值分數據    以dataset[axis]的value值分類  返回的數組比原數據少一列(少的axis這列)
    # print("data:{},axis:{},value:{}".format(dataSet,axis,value))
    result = []
    for i in dataSet:
        # print(i[axis],i[axis] == value,type(i[axis]))
        if 
 i[axis] == value:
            # print(‘測試每行‘, i[axis])
            data1 = i[:axis]
            data2 = i[axis + 1:]
            data1.extend(data2)
            result.append(data1)
    return result
# partdata = D_split(dataSet,0,1)
#                                           partdata [[1, ‘yes‘], [1, ‘yes‘], [0, ‘yo‘]]

def chooseaxis(dataSet):                    #選擇最佳axis       返回最佳特征值的序號
    datasize = len(dataSet)                 #數據行數(長度)
    baseXN = XN(dataSet)                    #原始數據的熵值
    bestaxis = 0  # 最好的axis選擇默認為0
    for axis in range(len(dataSet[0]) - 1):                 #axis 為列號
        value_list = [row[axis] for row in dataSet]             #把該列的所有value組成一個列表
        value_list = set(value_list)                             #去重
        newXN = 0                                                #設置新熵值
        for value in value_list:
            partdata = D_split(dataSet,axis,value)
            P = len(partdata) / datasize                         #求該value的概率
            newXN += P * XN(partdata)
        # print(‘partdata:{},P:{},axis為:{},newXH:{}‘.format(partdata,P,axis,newXN))            # axis為:0,newXH:0.5509775004326937
                                                                    # axis為:1,newXH:0.8
        if newXN < baseXN:
            baseXN = newXN
            bestaxis = axis
    print(‘bestaxis:{},XN:{}‘.format(bestaxis,baseXN))           # bestaxis:0,XN:0.5509775004326937
    return bestaxis

def major(classlist):                           #少數服從多數函數   返回較多的類型
    classcount = {}
    for i in classlist:
        classcount[i] = classcount.get(i,0) + 1
    classcount = sorted(classcount,key=classcount.get)
    return classcount[-1]

classlist = [i[2] for i in dataSet]
print(‘classlist:‘,classlist)
# mydict = major(classlist)

def createtree(dataSet,labels):                       #構造樹
    classlist = [i[-1] for i in dataSet]
    if len(dataSet) == classlist.count(classlist[0]):
        return classlist[0]
    if len(dataSet[0]) == 1:
        return major(classlist)
    axis = chooseaxis(dataSet)
    label_choose = labels[axis]
    # print(‘label_choose‘,label_choose)
    del labels[axis]
    mytree = {label_choose[0]:{}}                                         #定義需要返回的樹 以當前分類特征為key
    for value in [row[axis] for row in dataSet]:
        newlables = labels[:]                                               #如果直接傳lables，列表元素傳值是傳的引用，會影響，所以這裏用切片切個一樣的副本，不能單純的‘=‘，不然還是引用
        mytree[label_choose[0]][value] = createtree(D_split(dataSet,axis,value),newlables)
    print("mytree:\n",mytree)
    return mytree
createtree(dataSet,labels)
# 結果如下：
# {‘no surfacing‘: {1: {‘flippers‘: {1: ‘yes‘, 0: ‘no‘}}, 0: ‘no‘}}

機器學習之--決策樹遞歸算法實現

決策 def 產生直接 asi split classlist 好的 EDA import numpy as np import math #產生數據的函數 def createdatabase(): dataSet = [[1,1,‘yes‘],

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

[三]機器學習之決策樹與隨機森林

3.1 目標任務 1.學習決策樹和隨機森林的原理、特性 2.學習編寫構造決策樹的python程式碼 3.學習使用sklearn訓練決策樹和隨機森林，並使用工具進行決策樹視覺化 3.2 實驗資料資料集：鳶尾花資料集，詳情見[機器學習之迴歸]的Logistic迴歸實驗 3.3

機器學習之決策樹

決策樹簡介決策樹是一種基本的分類方法，當然也可以用於迴歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中，表示基於特徵對例項進行分類的過程，它可以認為是if-then規則的集合。在決策樹的結構中，每一個例項都被一條路徑或者一條規則所覆蓋。

機器學習之決策樹----python實現

# -*- coding: utf-8 -*- import numpy as np import scipy as sp import matplotlib.pyplot as plt from sklearn import tree from sklearn.metric

機器學習之決策樹機器學習之K-近鄰演算法

　　都說萬事開頭難，可一旦開頭，就是全新的狀態，就有可能收穫自己未曾預料到的成果。從2018.12.28開始，決定跟隨《機器學習實戰》的腳步開始其征程，記錄是為了更好的監督、理解和推進，學習過程中用到的資料集和程式碼都將上傳到github 　　機器學習系列部落格：（1）機器學習之K-近鄰演算法

系統學習機器學習之決策樹

決策樹是一種實現分治策略的層次資料結構，它是一種有效的非引數學習方法，可以用於分類和迴歸。本節我們來簡單介紹決策樹的相關知識。什麼是決策樹單變數樹單變數分類樹剪枝由決策樹提取規則一、什麼是決策樹決策樹（decision tree）是一種用於監督學習的層次模型，通過這種

機器學習之決策樹演算法詳解

1-1 基本流程決策樹是一個有監督分類與迴歸演算法。決策樹的生成只考慮區域性最優，相對的，決策樹剪枝則考慮全域性最優。一、概念：決策樹：是一種樹形結構，其中每個內部節點表示一個屬性上的判斷，每個分支代表一個判斷結果的輸出，最後每個葉節點代表一

機器學習之決策樹 Decision Tree（三）scikit-learn演算法庫

1、scikit-learn決策樹演算法類庫介紹 scikit-learn決策樹演算法類庫內部實現是使用了調優過的CART樹演算法，既可以做分類，又可以做迴歸。分類決策樹的類對應的是DecisionTreeClassifier，而回歸決策樹的類對應的是D

機器學習之決策樹(ID3)

決策樹我們直觀的通關這個樹狀圖去了解一下決策樹的概念,下面這個例子是姑娘相親見不見的問題通過上面的圖我們可以看到首先這個姑娘是看相親物件的年齡問題,當年齡大於30歲就不見,小於三十歲就見以此類推形成這個深度為5的樹接下來讓我們一起復習一下我們以前學過的資料結構關於樹的基礎知識: 結點

機器學習之決策樹（Decision Tree）文字演算法的精確率

目錄背景效果圖整體流程這裡用詞向量，而不是TF-IDF預處理後的向量原始碼背景最近的專案中，用到了很多機器學習的演算法，每個機器學習的演算法在不同的樣本下的精準率是不同的。為了驗證每個演算法在每種不同樣本數

機器學習之決策樹（一）

1、演算法介紹決策樹是一種基本的分類和迴歸方法，決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。決策樹學習通常包括三個步驟：特徵選擇、決策樹的生成和決策樹的修剪。決策樹的本質是從訓練資料集中歸納出一組分類規則。本文主要是對決策樹的ID3演算法的介紹，後文會介紹C4.5和CART演算

筆記：機器學習之決策樹

目錄決策樹概述特徵選擇生成決策樹剪枝特徵選擇生成決策樹剪枝決策樹概述決策樹（decision tree）是功能強大的且非常好用的的分類和預測方法，它是一種有監督的學習演算法。以樹狀圖為基礎，故稱為決策樹。這裡以分類為主題。對於離

機器學習之決策樹——學習總結

決策樹學習總結機器學習的應用越來越廣泛，特別是在資料分析領域。本文是我學習決策樹演算法的一些總結。機器學習簡介機器學習 (Machine Learning) 是近 20 多年興起的一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演

機器學習之決策樹演算法（一）

0 引言決策樹是一種基本的分類和迴歸方法。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。可以認為是if-then規則的集合，也可以認定是定義在特徵空間與類空間上的條件概率分佈。其主要特點是模型具有可讀性，分類速度快。學習時，利用訓

機器學習之決策樹（Decision Tree）及其Python程式碼實現

　　決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物

機器學習之決策樹演算法（1）

上一集中，我們講解了K近鄰演算法，那是一個十分入門的演算法，並沒有顯式的訓練方法。這次，我們要做一個真正的機器學習演算法，決策樹演算法。當然，它也是一個多元分類器。相比較K近鄰演算法對於數值型的資料處理較為舒服，因為畢竟是算距離，所以你就算是跑到天涯海角，也能算出來。但是決

Python機器學習之決策樹案例

# -*- coding: utf-8 -*- __author__ = 'gerry' # 先匯入所有的class import xgboost from numpy import * from s

機器學習之決策樹例項篇

1. python 2. Python機器學習的庫：scikit-learn 2.1：特性：簡單高效的資料探勘和機器學習分析對所有使用者開放，根據不同需求高度可重用性基

機器學習之--決策樹遞歸算法實現

相關推薦