SparkMLlib回歸算法之決策樹

阿新 • • 發佈：2017-05-24

ria 之間 feature 輸入修改決策樹算法技術 color 實例

SparkMLlib回歸算法之決策樹

（一），決策樹概念

1，決策樹算法（ID3，C4.5 ，CART）之間的比較：

　　1，ID3算法在選擇根節點和各內部節點中的分支屬性時，采用信息增益作為評價標準。信息增益的缺點是傾向於選擇取值較多的屬性，在有些情況下這類屬性可能不會提供太多有價值的信息。

　　2　ID3算法只能對描述屬性為離散型屬性的數據集構造決策樹，其余兩種算法對離散和連續都可以處理

2，C4.5算法實例介紹（參考網址：http://m.blog.csdn.net/article/details?id=44726921）

　　技術分享

c4.5後剪枝策略：以悲觀剪枝為主參考網址：http://www.cnblogs.com/zhangchaoyang/articles/2842490.html

（二） SparkMLlib決策樹回歸的應用

1，數據集來源及描述：參考http://www.cnblogs.com/ksWorld/p/6891664.html

2，代碼實現：

　　2.1 構建輸入數據格式：

val file_bike = "hour_nohead.csv"
    val file_tree=sc.textFile(file_bike).map(_.split(",")).map{
      x =>
        val feature=x.slice(2,x.length-3).map(_.toDouble)
        val label=x(x.length-1).toDouble
        LabeledPoint(label,Vectors.dense(feature))
    }
    println(file_tree.first())
   val categoricalFeaturesInfo  
= Map[Int,Int]()
    val model_DT=DecisionTree.trainRegressor(file_tree,categoricalFeaturesInfo,"variance",5,32)

　　2.2 模型評判標準（mse,mae,rmsle）

val predict_vs_train = file_tree.map {
        point => (model_DT.predict(point.features),point.label)
       /* point => (math.exp(model_DT.predict(point.features)), math.exp(point.label)) 
*/
      }
      predict_vs_train.take(5).foreach(println(_))
      /*MSE是均方誤差*/
      val mse = predict_vs_train.map(x => math.pow(x._1 - x._2, 2)).mean()
      /* 平均絕對誤差（MAE）*/
      val mae = predict_vs_train.map(x => math.abs(x._1 - x._2)).mean()
      /*均方根對數誤差（RMSLE）*/
      val rmsle = math.sqrt(predict_vs_train.map(x => math.pow(math.log(x._1 + 1) - math.log(x._2 + 1), 2)).mean())
      println(s"mse is $mse and mae is $mae and rmsle is $rmsle")
/*
mse is 11611.485999495755 and mae is 71.15018786490428 and rmsle is 0.6251152586960916
*/

（三）改進模型性能和參數調優

1，改變目標量（對目標值求根號），修改下面語句

LabeledPoint(math.log(label),Vectors.dense(feature))
和
 val predict_vs_train = file_tree.map {
        /*point => (model_DT.predict(point.features),point.label)*/
        point => (math.exp(model_DT.predict(point.features)), math.exp(point.label))
      }
/*結果
mse is 14781.575988339053 and mae is 76.41310991122032 and rmsle is 0.6405996100717035
*/

決策樹在變換後的性能有所下降

2,模型參數調優

　　1,構建訓練集和測試集

 val file_tree=sc.textFile(file_bike).map(_.split(",")).map{
      x =>
        val feature=x.slice(2,x.length-3).map(_.toDouble)
        val label=x(x.length-1).toDouble
      LabeledPoint(label,Vectors.dense(feature))
        /*LabeledPoint(math.log(label),Vectors.dense(feature))*/
    }
    val tree_orgin=file_tree.randomSplit(Array(0.8,0.2),11L)
    val tree_train=tree_orgin(0)
    val tree_test=tree_orgin(1)

　　2，調節樹的深度參數

val categoricalFeaturesInfo = Map[Int,Int]()
    val model_DT=DecisionTree.trainRegressor(file_tree,categoricalFeaturesInfo,"variance",5,32)
    /*調節樹深度次數*/
    val Deep_Results = Seq(1, 2, 3, 4, 5, 10, 20).map { param =>
      val model = DecisionTree.trainRegressor(tree_train, categoricalFeaturesInfo,"variance",param,32)
      val scoreAndLabels = tree_test.map { point =>
        (model.predict(point.features), point.label)
      }
      val rmsle = math.sqrt(scoreAndLabels.map(x => math.pow(math.log(x._1) - math.log(x._2), 2)).mean)
      (s"$param lambda", rmsle)
    }
/*深度的結果輸出*/
    Deep_Results.foreach { case (param, rmsl) => println(f"$param, rmsle = ${rmsl}")}
/*
1 lambda, rmsle = 1.0763369409492645
2 lambda, rmsle = 0.9735820606349874
3 lambda, rmsle = 0.8786984993014815
4 lambda, rmsle = 0.8052113493915528
5 lambda, rmsle = 0.7014036913077335
10 lambda, rmsle = 0.44747906135994925
20 lambda, rmsle = 0.4769214752638845
*/

　　深度較大的決策樹出現過擬合，從結果來看這個數據集最優的樹深度大概在10左右

　　3，調節劃分數

/*調節劃分數*/
    val ClassNum_Results = Seq(2, 4, 8, 16, 32, 64, 100).map { param =>
      val model = DecisionTree.trainRegressor(tree_train, categoricalFeaturesInfo,"variance",10,param)
      val scoreAndLabels = tree_test.map { point =>
        (model.predict(point.features), point.label)
      }
      val rmsle = math.sqrt(scoreAndLabels.map(x => math.pow(math.log(x._1) - math.log(x._2), 2)).mean)
      (s"$param lambda", rmsle)
    }
    /*劃分數的結果輸出*/
    ClassNum_Results.foreach { case (param, rmsl) => println(f"$param, rmsle = ${rmsl}")}
/*
2 lambda, rmsle = 1.2995002615220668
4 lambda, rmsle = 0.7682777577495858
8 lambda, rmsle = 0.6615110909041817
16 lambda, rmsle = 0.4981237727958235
32 lambda, rmsle = 0.44747906135994925
64 lambda, rmsle = 0.4487531073836407
100 lambda, rmsle = 0.4487531073836407
*/

　　更多的劃分數會使模型變復雜，並且有助於提升特征維度較大的模型性能。劃分數到一定程度之後，對性能的提升幫助不大。實際上，由於過擬合的原因會導致測試集的性能變差。可見分類數應在32左右。。

SparkMLlib回歸算法之決策樹

ria 之間 feature 輸入修改決策樹算法技術 color 實例 SparkMLlib回歸算法之決策樹（一），決策樹概念 1，決策樹算法（ID3，C4.5 ，CART）之間的比較：　　1，ID3算法在選擇根節點和各內部節點中的分支屬性時，采用信息增益作為評價

SparkMLlib分類算法之決策樹學習

2.3 數據預處理 true ray score 嚴重 acc 標準化 lambda SparkMLlib分類算法之決策樹學習（一）決策樹的基本概念　　　　決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大於等於

分析決策樹算法和邏輯回歸算法的不同之處

人工智能機器學習首先我們導入一組airplan.xlsx數據。數據表中的age表示年齡、FLIGHT_COUNT表示飛行次數、BASE_POINTS_SUM表示飛行裏程、runoff_flag表示流失與否，定義1為正樣本，代表已流失。現在讓我們來看一下最後的效果：可以看到決策樹算法和邏輯回歸算法

SparkMLlib學習分類算法之邏輯回歸算法

spl sca class put net lac gradient map ica SparkMLlib學習分類算法之邏輯回歸算法（一），邏輯回歸算法的概念（參考網址：http://blog.csdn.net/sinat_33761963/article/details

21-城裏人套路深之用python實現邏輯回歸算法

rom 成功基礎知識壓力 dvp ilb nbsp html 感覺如果和一個人交流時，他的思想像彈幕一樣飄散在空中，將是怎樣的一種景象？我想大概會毫不猶豫的點關閉的。生活為啥不能簡單明了？因為太直白了令人乏味。保留一些不確定性反而撲朔迷離，引人入勝。我們學習了線性回歸

機器學習之Logistic 回歸算法

簡單生成選擇效率 split max 坐標 opened 似然函數 1 Logistic 回歸算法的原理 1.1 需要的數學基礎我在看機器學習實戰時對其中的代碼非常費解，說好的利用偏導數求最值怎麽代碼中沒有體現啊，就一個簡單的式子：θ= θ - α Σ [( hθ(

分類算法：決策樹（C4.5）(轉)

clas 依賴 1.5 -s clip win pan 定義衡量 C4.5是機器學習算法中的另一個分類決策樹算法，它是基於ID3算法進行改進後的一種重要算法，相比於ID3算法，改進有如下幾個要點： 1）用信息增益率來選擇屬性。ID3選擇屬性用的是子樹的信息增益，這裏可

回歸算法

擬合得出針對模型誤差也不會 tar 銷量最好 1.什麽是回歸？ 2.回歸的類型有哪些？ 3.線性回歸的分析 4.總結 1.什麽是回歸？回歸分析是在一系列的已知或能通過獲取的自變量與因變量之間的相關關系的基礎上，建立變量之間的回歸方程，把回歸方程作為算法模

【吳恩達機器學習】學習筆記——2.1單變量線性回歸算法

工作方式樣本 body 聚類屬性 bsp 定義算法信息 1 回顧1.1 監督學習定義：給定正確答案的機器學習算法分類：（1）回歸算法：預測連續值的輸出，如房價的預測（2）分類算法：離散值的輸出，如判斷患病是否為某種癌癥1.2 非監督學習定義：不給定數據的信息的情況下

線性回歸算法

log 得到算法 body 需要 blog bsp image ima 這裏有兩組數據：X1、X2。需要得到的結論是Y 擬合上面的平面：誤差分析：附：高斯分布（正態分布）化簡：最後化簡的結果就是我們希望得到的：評估：線性回歸算

各種回歸算法

局部加權線性回歸 ati 最小 tin 參與權重 reference 算法 gpo 線性回歸線性回歸(linear regression)是最簡單的模型，通過學習一個線性模型來預測輸出值。多元線性回歸可表示為$$f(x_i)=w^Tx_i+b$$根據最小二乘法，尋找

遞歸算法之漢諾塔

遞歸算法 println top 出口 rom 一個解決問題 ati 表示遞歸定義：遞歸算法是把問題轉化為規模縮小了的同類問題的子問題。然後遞歸調用函數（或過程）來表示問題的解。一個過程(或函數)直接或間接調用自己本身,這種過程(或函數)叫遞歸過程(或函數). 遞

TensorFlow(三) 用TensorFlow實現L2正則損失函數線性回歸算法

glob ini upper ace arr 算法 var 增加初始化 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt from sklearn import dat

機器學習算法-logistic回歸算法

部分 spa 輸入 src ria 原理數據量分類問題避免 Logistic回歸算法調試一、算法原理 Logistic回歸算法是一種優化算法，主要用用於只有兩種標簽的分類問題。其原理為對一些數據點用一條直線去擬合，對數據集進行劃分。從廣義上來講這也是一種多元線

(7) 邏輯回歸算法

邏輯 info inf .com ont 分享圖片 com -s 分類算法邏輯回歸算法原理推導邏輯回歸，雖然叫回歸，但還是一個分類算法邏輯回歸求解 (7) 邏輯回歸算法

[ML學習筆記] 回歸算法

mage part sigma sum class 建立方法 inline display [ML學習筆記] 回歸算法回歸分析：在一系列已知自變量與因變量之間相關關系的基礎上，建立變量之間的回歸方程，把回歸方程作為算法模型，實現對新自變量得出因變量的關系。回歸與分類的

IBM SPSS Modeler算法系列-----決策樹CHAID演算法

在之前的微信文章中，有一篇名為《SPSS Modeler決策樹演算法比較》的文章，粗略介紹了SPSS Modeler中各種決策樹演算法（包括C5.0、CHAID、QUEST、C&R和決策列表）的區別，這可以幫助大家在選用演算法的時候有一些參考。談到演算法，大家都覺

Spark MLlib中分類和回歸算法

決策樹隨機函數 fit ges sgd 集中 eba 字段類型 Spark MLlib中分類和回歸算法： -分類算法： pyspark.mllib.classification -樸素貝葉斯 Na

IBM SPSS Modeler算法系列-----決策樹C5.0演算法

在之前的文章《IBM SPSS Modeler算法系列-----決策樹CHAID演算法》,我們介紹是CHAID演算法，今天我們介紹另外一種用得非常廣泛的決策樹演算法C5.0，該演算法是專屬於RuleQ

使用tensorflow實現最簡單的線性回歸算法

== ria oca 定義 rcp 顯示使用 graph unicode 1 #線性回歸：用線性模型y=Wx+b擬合sin 2 import numpy as np 3 import matplotlib.pypl

SparkMLlib回歸算法之決策樹

相關推薦