Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

阿新 • • 發佈：2019-01-22

Spark中的CrossValidation

Spark中採用是k折交叉驗證（k-fold cross validation）。舉個例子，例如10折交叉驗證(10-fold cross validation)，將資料集分成10份，輪流將其中9份做訓練1份做驗證，10次的結果的均值作為對演算法精度的估計。
10折交叉檢驗最常見，是因為通過利用大量資料集、使用不同學習技術進行的大量試驗，表明10折是獲得最好誤差估計的恰當選擇，而且也有一些理論根據可以證明這一點。但這並非最終結論，爭議仍然存在。而且似乎5折或者20折與10折所得出的結果也相差無幾。
交叉檢驗常用於分析模型的泛化能力，提高模型的穩定。相對於手工探索式的引數除錯，交叉驗證更具備統計學上的意義。

在Spark中，Cross Validation和ParamMap（“引數組合”的Map）結合使用。具體做法是，針對某有特定的Param組合，CrossValidator計算K （K 折交叉驗證）個評估分數的平均值。然後和其它“引數組合”CrossValidator計算結果比較，完成所有的比較後，將最優的“引數組合”挑選出來，這“最優的一組引數”將用在整個訓練資料集上重新訓練(re-fit)，得到最終的Model。
也就是說，通過交叉驗證，找到了最佳的”引數組合“，利用這組引數，在整個訓練集上可以訓練（fit）出一個泛化能力強，誤差相對最小的的最佳模型。
很顯然，交叉驗證計算代價很高，假設有三個引數：引數alpha有3中選擇，引數beta有4種選擇，引數gamma有4中選擇，進行10折計算，那麼將進行（3×4×4）×10=480次模型訓練。

Spark documnets 原文：
（1）CrossValidator begins by splitting the dataset into a set of folds which are used as separate training and test datasets. E.g., with k=3folds, CrossValidator will generate 3 (training, test) dataset pairs, each of which uses 2/3 of the data for training and 1/3 for testing. To evaluate a particular ParamMap, CrossValidator computes the average evaluation metric for the 3 Models produced by fitting the Estimator on the 3 different (training, test) dataset pairs.
（2）After identifying the best ParamMap, CrossValidator finally re-fits the Estimator using the best ParamMap and the entire dataset.
（3）Using CrossValidator to select from a grid of parameters.Note that cross-validation over a grid of parameters is expensive. E.g., in the example below, the parameter grid has 3 values for hashingTF.numFeatures and 2 values for lr.regParam, and CrossValidator uses 2 folds. This multiplies out to (3×2)×2=12different models being trained. In realistic settings, it can be common to try many more parameters and use more folds (k=3 and k=10 are common). In other words, using CrossValidator can be very expensive. However, it is also a well-established method for choosing parameters which is more statistically sound than heuristic hand-tuning.

計算流程

//Spark Version 2.0
package my.spark.ml.practice;

import java.io.IOException;

import org.apache.log4j.Level;
import org.apache.log4j.Logger;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.PipelineStage;
import org.apache.spark.ml.evaluation.RegressionEvaluator;
import org.apache.spark.ml.param.ParamMap;
import org.apache.spark.ml.recommendation.ALS;
import org.apache.spark.ml.tuning.CrossValidator;
import org.apache.spark.ml.tuning.CrossValidatorModel;
import org.apache.spark.ml.tuning.ParamGridBuilder;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

/**ALS演算法協同過濾推薦演算法
 * 使用Spark 2.0 基於Pipeline,ParamMap,CrossValidation
 * 對超引數進行調優，並進行模型選擇
 * @Peng Jiayong
 */

public class MyCrossValidation {
  public static void main(String[] args) throws IOException{
      SparkSession spark=SparkSession
              .builder()
              .appName("myCrossValidation")
              .master("local[4]")
              .getOrCreate();
    //遮蔽日誌
      Logger.getLogger("org.apache.spark").setLevel(Level.WARN);
      Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF); 
    //載入資料
      JavaRDD<Rating> ratingsRDD = spark
              .read().textFile("/home/hadoop/spark/spark-2.0.0-bin-hadoop2.6" +
                    "/data/mllib/als/sample_movielens_ratings.txt").javaRDD()
              .map(new Function<String, Rating>() {
                  public Rating call(String str) {
                      return Rating.parseRating(str);
                  }
              });
      //將整個資料集劃分為訓練集和測試集
      //注意training集將用於Cross Validation,而test集將用於最終模型的評估
      //在traning集中，在Croos Validation時將進一步劃分為K份，每次留一份作為
      //Validation，注意區分：ratings.randomSplit（）分出的Test集和K 折留
      //下驗證的那一份完全不是一個概念，也起著完全不同的作用，一定不要相混淆
      Dataset<Row> ratings = spark.createDataFrame(ratingsRDD, Rating.class);
      Dataset<Row>[] splits = ratings.randomSplit(new double[]{0.8, 0.2});
      Dataset<Row> training = splits[0];
      Dataset<Row> test = splits[1];

      // Build the recommendation model using ALS on the training data
      ALS als=new ALS()
              .setMaxIter(8)
              .setRank(20).setRegParam(0.8)
              .setUserCol("userId")
              .setItemCol("movieId")
              .setRatingCol("rating")
              .setPredictionCol("predict_rating");
      /*
       * (1)秩Rank：模型中隱含因子的個數：低階近似矩陣中隱含特在個數，因子一般多一點比較好，
       * 但是會增大記憶體的開銷。因此常在訓練效果和系統開銷之間進行權衡，通常取值在10-200之間。
       * (2)最大迭代次數：執行時的迭代次數，ALS可以做到每次迭代都可以降低評級矩陣的重建誤差，
       * 一般少數次迭代便能收斂到一個比較合理的好模型。
       * 大部分情況下沒有必要進行太對多次迭代（10次左右一般就挺好了）
       * (3)正則化引數regParam：和其他機器學習演算法一樣，控制模型的過擬合情況。
       * 該值與資料大小，特徵，係數程度有關。此引數正是交叉驗證需要驗證的引數之一。
       */
      // Configure an ML pipeline, which consists of one stage
      //一般會包含多個stages
      Pipeline pipeline=new Pipeline().
              setStages(new PipelineStage[] {als});
      // We use a ParamGridBuilder to construct a grid of parameters to search over.
      ParamMap[] paramGrid=new ParamGridBuilder()
      .addGrid(als.rank(),new int[]{5,10,20})
      .addGrid(als.regParam(),new double[]{0.05,0.10,0.15,0.20,0.40,0.80})
      .build();

      // CrossValidator 需要一個Estimator,一組Estimator ParamMaps, 和一個Evaluator.
      // （1）Pipeline作為Estimator;
      // （2）定義一個RegressionEvaluator作為Evaluator，並將評估標準設定為“rmse”均方根誤差
      // （3）設定ParamMap
      // （4）設定numFolds    

      CrossValidator cv=new CrossValidator()
      .setEstimator(pipeline)
      .setEvaluator(new RegressionEvaluator()
              .setLabelCol("rating")
              .setPredictionCol("predict_rating")
              .setMetricName("rmse"))
      .setEstimatorParamMaps(paramGrid)
      .setNumFolds(5);

      // 執行交叉檢驗，自動選擇最佳的引數組合
      CrossValidatorModel cvModel=cv.fit(training);
      //儲存模型
      cvModel.save("/home/hadoop/spark/cvModel_als.modle");

      //System.out.println("numFolds: "+cvModel.getNumFolds());
      //Test資料集上結果評估  
      Dataset<Row> predictions=cvModel.transform(test);
      RegressionEvaluator evaluator = new RegressionEvaluator()
      .setMetricName("rmse")//RMS Error
      .setLabelCol("rating")
      .setPredictionCol("predict_rating");
      Double rmse = evaluator.evaluate(predictions);
      System.out.println("RMSE @ test dataset " + rmse);
      //Output: RMSE @ test dataset 0.943644792277118
  }   
}
備註：程式執行需要定義Rating Class
在下面連結裡可以找到：
http://spark.apache.org/docs/latest/ml-collaborative-filtering.html

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark中的CrossValidation Spark中採用是k折交叉驗證（k-fold cross validation）。舉個例子，例如10折交叉驗證(10-fold cross validation)，將資料集分成10份，輪流將其中9份

Spark2.0機器學習系列之7： MLPC（多層神經網絡）

element nbsp hid 隨機梯度下降 support file dict 分類器希望 Spark2.0 MLPC（多層神經網絡分類器）算法概述 MultilayerPerceptronClassifier（MLPC）這是一個基於前饋神經網絡的分類器，它是一種在

Spark2.0機器學習系列之11：聚類(冪迭代聚類， power iteration clustering， PIC)

在Spark2.0版本中（不是基於RDD API的MLlib），共有四種聚類方法：（1）K-means （2）Latent Dirichlet allocation (LDA)

Spark2.0機器學習系列之10：聚類(高斯混合模型 GMM）

在Spark2.0版本中（不是基於RDD API的MLlib），共有四種聚類方法：（1）K-means （2）Latent Dirichlet allocation (LDA) （3）Bisecting k-m

Spark2.0機器學習系列之3：決策樹及Spark 2.0-MLlib、Scikit程式碼分析

概述分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹可以看為一個if-then規則集合，具有“互斥完備”性質。決策樹基本上都是採用的是貪心（即非回溯）的演算法，自頂向下遞迴分治構造。生成決策樹一般包含三個步驟：特徵選擇決策樹生成剪枝

Spark2.0機器學習系列之2：Logistic迴歸及Binary分類（二分問題）結果評估

引數設定 α：梯度上升演算法迭代時候權重更新公式中包含 α ： # 梯度上升演算法-計算迴歸係數 # 每個迴歸係數初始化為1 # 重複R次： # 計算整個資料集的梯度 # 使用α*梯度更新迴歸係數的向量 # 返回迴歸係數

Spark機器學習系列之13：支援向量機SVM

C−SVM基本公式推導過程下面摘抄一小部分內容（不考慮推導細節的話，基本上能理解C-SVM方法推導的整個流程）. 我們用一個超平面劃分圖中對圖中的兩類資料進行分類，超平面寫成f(x)=wTx+b=0,線上性可分的情況下，我們能找到一

機器學習系列演算法1：KNN

思路：空間上距離相近的點具有相似的特徵屬性。執行流程：　　•1. 從訓練集合中獲取K個離待預測樣本距離最近的樣本資料;　　•2. 根據獲取得到的K個樣本資料來預測當前待預測樣本的目標屬性值三要素：K值選擇/距離度量（歐式距離）/決策選擇（平均值/

Spark機器學習之模型選擇和超引數調整

模型選擇（超引數調諧）ML中的一個重要任務是模型選擇，或使用資料找到給定任務的最佳模型或引數。這也叫調音。可以針對個體估算器（如Logistic迴歸）或包括多個演算法，特徵化和其他步驟的整個管道完成調整。使用者可以一次調整整個流水線，而不是單獨調整管道中的每個元素。

機器學習入門之四：機器學習的方法-神經網絡（轉載）

轉載 bsp 圖像 src nbsp 加速數值 str 我們　　轉自飛鳥各投林　　神經網絡　　　　神經網絡(也稱之為人工神經網絡，ANN)算法是80年代機器學習界非常流行的算法，不過在90年代中途衰落。現在，攜著“深度學習”之勢，神

機器學習系列之偏差、方差與交叉驗證

一、偏差與方差在機器學習中，我們用訓練資料集去訓練（學習）一個model（模型），通常的做法是定義一個Loss function（誤差函式），通過將這個Loss（或者叫error）的最小化過程，來提高模型的效能（performance）。然而我們學習一個模型的目的是為了解決實際的問題（或者說是

機器學習系列之特徵工程

資料的特徵選擇資料特徵主要分為兩部分，一部分是業務已經整理好的各種特徵資料；另一部分是根據業務特徵去構造的資料特徵。特徵選擇的方法一、已有特徵 1.過濾法選擇特徵：方差越小，不同樣本的特徵值越相似，此特徵作用越小；各個特徵與輸出值間的相關係數，選擇相關係數較大的部分

機器學習系列之交叉驗證、網格搜尋

第一部分：交叉驗證機器學習建立和驗證模型，常用的方法之一就是交叉驗證。在機器學習過程中，往往資料集是有限的，而且可能具有一定的侷限性。如何最大化的利用資料集去訓練、驗證、測試模型，常用的方法就是交叉驗證。交叉驗證，就是重複的使用資料，對樣本資料進行劃分為多組不同的訓練集和測試集（訓練集訓練模型

機器學習系列之GBDT

GBDT既可以用於迴歸，也可以用於分類。兩者本質是一樣的，分析流程也大致相同，區別在於loss function不同。首先，介紹一下提升方法，boosting就是把一系列的弱學習器反覆學習，然後組合成強學習器。對於提升方法，主要需要回答兩個問題：第一個是每一輪學習過程中如何改變訓練資料的權值或

Python 機器學習系列之線性迴歸篇深度詳細

前兩篇部落格主要是講解基礎的線性迴歸，以下轉載自：http://www.jianshu.com/p/738f6092ef53，對迴歸進行深度分析，並加入了多項式的內容。前言本次推文介紹用線性模型處理迴歸問題。從簡單問題開始，先處理一個響應變數和一個解釋變數的一元問題。然後，介

Java從0開始學習系列之路(6)

前言--- 明天週末了，打算用來整理一下資料庫，Cisco命令和Linux，這篇部落格寫完之後就打算滾回宿舍休息了，路上順便買下水果，補充補充維C。前言補充---- 突然被管教學樓的老師給清出教室了，由於教室明後天要當某證書的考場，這種做事被打擾的感覺實在是難受。不過

機器學習系列之coursera week 10 Large Scale Machine Learning

目錄 1. Gradient Descent with Large Datasets 1.1 Learning with large datasets Learn with large datasets: m = 100,000,000

三叔學FPGA系列之1：Cyclone V中的時鐘資源

之前的專案中更多的是有師兄提供經驗和幫助，追求的是快速上手，所以不管對於硬體電路設計，還是verilog電路程式設計，甚至是FPGA內部的資源，都沒來得及系統地學習，最近在做演算法到電路的實現，正好系統學習，將感悟記於此，如有錯誤，歡迎指出、討論。一、關於時鐘引腳 FPGA晶片一般有好幾組時鐘

《機器學習系列教程》：第二章機器學習基礎

第二章機器學習基礎機器學習and 資料分析 2.2 監督學習、非監督學習、半監督學習、弱監督學習？根據資料型別的不同，對一個問題的建模有不同的方式。依據不同的學習方式和輸入資料，機器學習主要分為以下四種學習方式。監督學習：監督學習是使用已知

[050]Python 機器學習系列之線性迴歸篇深度詳細

本次推文介紹用線性模型處理迴歸問題。從簡單問題開始，先處理一個響應變數和一個解釋變數的一元問題。然後，介紹多元線性迴歸問題（multiple linear regression），線性約束由多個解釋變數構成。緊接著，介紹多項式迴歸分析（polynomial regression 問題），一種具有非線性

Spark2.0機器學習系列之1：基於Pipeline、交叉驗證、ParamMap的模型選擇和超引數調優

Spark中的CrossValidation

計算流程

相關推薦