Spark構建分類模型

阿新 • • 發佈：2018-12-30

出自：《spark機器學習》

以邏輯迴歸模型舉例介紹完整的分類模型構建過程。

資料集下載：http://www.kaggle.com/c/stumbleupon

該資料集是關於網頁中推薦的頁面是短暫存在還是可以長時間流行的一個分類問題，目標值-1表示長久，0表示短暫。

首先將資料第一行刪除，通過管道儲存到以train_noheader.tsv命名的檔案中

sed 1d train.tsv > train_noheader.tsv

啟動spark-shell

spark-shell  --driver-memory 4g

讀入訓練資料到RDD，並檢查

val rawData = sc.textFile("train_noheader.tsv")
val records = rawData.map(line => line.split("\t"))
records.first

資料處理　

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
val data = records.map { r =>
	val trimmed = r.map(_.replaceAll("\"", ""))\\去掉多餘的“符號
	val label = trimmed(r.size - 1).toInt\\標籤轉化為整數
	val features = trimmed.slice(4, r.size - 1).map(d => if (d == "?") 0.0 else d.toDouble)\\用0代替表示缺失資料的?。
	LabeledPoint(label, Vectors.dense(features))\\儲存標籤和特徵向量到Vectors中
}

對資料快取和統計樣本數

data.cache
val numData = data.count

訓練邏輯迴歸分類模型

import org.apache.spark.mllib.classification.LogisticRegressionWithSGD
val lrModel = LogisticRegressionWithSGD.train(data, numIterations)

使用分類模型

val dataPoint = data.first
val prediction = lrModel.predict(dataPoint.features)
// prediction: Double = 1.0\\預測為長久
val trueLabel = dataPoint.label
// trueLabel: Double = 0.0\\實際為短暫

評估模型效能

預測的正確率(訓練樣本被正確分類的數目處於總樣本數）

val lrTotalCorrect = data.map { point =>
  if (lrModel.predict(point.features) == point.label) 1 else 0
}.sum
// lrTotalCorrect: Double = 3806.0

val lrAccuracy = lrTotalCorrect / numData
// lrAccuracy: Double = 0.5146720757268425//51.5%的正確率，結果不太好，跟隨機預測差不多

模型評價指標:準確率-召回率(PR)曲線和ROC曲線的面積

import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics//計算指標
val metrics = Seq(lrModel, svmModel).map { model => 
	val scoreAndLabels = data.map { point =>
  		(model.predict(point.features), point.label)
	}
	val metrics = new BinaryClassificationMetrics(scoreAndLabels)
	(model.getClass.getSimpleName, metrics.areaUnderPR, metrics.areaUnderROC)
}//分別計算邏輯迴歸和支援向量機模型的指標

　邏輯迴歸模型，PR：75%，ROC：50%，效果不好

改進模型與引數調優

統計資料

import org.apache.spark.mllib.linalg.distributed.RowMatrix
val vectors = data.map(lp => lp.features)
val matrix = new RowMatrix(vectors)
val matrixSummary = matrix.computeColumnSummaryStatistics()//計算特徵矩陣每列的統計資料

println(matrixSummary.mean)

println(matrixSummary.min)

println(matrixSummary.max)

println(matrixSummary.variance)

println(matrixSummary.numNonzeros)

特徵標準化

import org.apache.spark.mllib.feature.StandardScaler
val scaler = new StandardScaler(withMean = true, withStd = true).fit(vectors)//withMean和withStd設為True
val scaledData = data.map(lp => LabeledPoint(lp.label, scaler.transform(lp.features)))//標準化後的資料

println(scaleData.first.features)

重新訓練模型

val lrModelScaled = LogisticRegressionWithSGD.train(scaledData, numIterations)
val lrTotalCorrectScaled = scaledData.map { point =>
  if (lrModelScaled.predict(point.features) == point.label) 1 else 0
}.sum
val lrAccuracyScaled = lrTotalCorrectScaled / numData
// lrAccuracyScaled: Double = 0.6204192021636241
val lrPredictionsVsTrue = scaledData.map { point => 
	(lrModelScaled.predict(point.features), point.label) 
}
val lrMetricsScaled = new BinaryClassificationMetrics(lrPredictionsVsTrue)
val lrPr = lrMetricsScaled.areaUnderPR
val lrRoc = lrMetricsScaled.areaUnderROC
println(f"${lrModelScaled.getClass.getSimpleName}\nAccuracy: ${lrAccuracyScaled * 100}%2.4f%%\nArea under PR: ${lrPr * 100.0}%2.4f%%\nArea under ROC: ${lrRoc * 100.0}%2.4f%%") 
/*
LogisticRegressionModel
Accuracy: 62.0419%
Area under PR: 72.7254%
Area under ROC: 61.9663%
*//簡單的對特徵標準化，提高了準確率

考慮其他特徵，未使用category 和boilerplate 列的內容

新增category，對每個類別做一個索引，可以用1-of-k編碼。

val categories = records.map(r => r(3)).distinct.collect.zipWithIndex.toMap
// categories: scala.collection.immutable.Map[String,Int] = Map("weather" -> 0, "sports" -> 6, 
//	"unknown" -> 4, "computer_internet" -> 12, "?" -> 11, "culture_politics" -> 3, "religion" -> 8,
// "recreation" -> 2, "arts_entertainment" -> 9, "health" -> 5, "law_crime" -> 10, "gaming" -> 13, 
// "business" -> 1, "science_technology" -> 7)
val numCategories = categories.size
// numCategories: Int = 14
val dataCategories = records.map { r =>
	val trimmed = r.map(_.replaceAll("\"", ""))
	val label = trimmed(r.size - 1).toInt
	val categoryIdx = categories(r(3))
	val categoryFeatures = Array.ofDim[Double](numCategories)
	categoryFeatures(categoryIdx) = 1.0
	val otherFeatures = trimmed.slice(4, r.size - 1).map(d => if (d == "?") 0.0 else d.toDouble)
	val features = categoryFeatures ++ otherFeatures
	LabeledPoint(label, Vectors.dense(features))
}
println(dataCategories.first)

// LabeledPoint(0.0, [0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.789131,2.055555556,
//	0.676470588,0.205882353,0.047058824,0.023529412,0.443783175,0.0,0.0,0.09077381,0.0,0.245831182,
// 0.003883495,1.0,1.0,24.0,0.0,5424.0,170.0,8.0,0.152941176,0.079129575])

標準化

val scalerCats = new StandardScaler(withMean = true, withStd = true).fit(dataCategories.map(lp => lp.features))
val scaledDataCats = dataCategories.map(lp => LabeledPoint(lp.label, scalerCats.transform(lp.features)))

println(scaledDataCats.first.features)
/*
[-0.023261105535492967,2.720728254208072,-0.4464200056407091,-0.2205258360869135,-0.028492999745483565,
-0.2709979963915644,-0.23272692307249684,-0.20165301179556835,-0.09914890962355712,-0.381812077600508,
-0.06487656833429316,-0.6807513271391559,-0.2041811690290381,-0.10189368073492189,1.1376439023494747,
-0.08193556218743517,1.0251347662842047,-0.0558631837375738,-0.4688883677664047,-0.35430044806743044
,-0.3175351615705111,0.3384496941616097,0.0,0.8288021759842215,-0.14726792180045598,0.22963544844991393,
-0.14162589530918376,0.7902364255801262,0.7171932152231301,-0.29799680188379124,-0.20346153667348232,
-0.03296720969318916,-0.0487811294839849,0.9400696843533806,-0.10869789547344721,-0.2788172632659348]
*/

再次訓練模型

val lrModelScaledCats = LogisticRegressionWithSGD.train(scaledDataCats, numIterations)
val lrTotalCorrectScaledCats = scaledDataCats.map { point =>
  if (lrModelScaledCats.predict(point.features) == point.label) 1 else 0
}.sum
val lrAccuracyScaledCats = lrTotalCorrectScaledCats / numData
val lrPredictionsVsTrueCats = scaledDataCats.map { point => 
	(lrModelScaledCats.predict(point.features), point.label) 
}
val lrMetricsScaledCats = new BinaryClassificationMetrics(lrPredictionsVsTrueCats)
val lrPrCats = lrMetricsScaledCats.areaUnderPR
val lrRocCats = lrMetricsScaledCats.areaUnderROC
println(f"${lrModelScaledCats.getClass.getSimpleName}\nAccuracy: ${lrAccuracyScaledCats * 100}%2.4f%%\nArea under PR: ${lrPrCats * 100.0}%2.4f%%\nArea under ROC: ${lrRocCats * 100.0}%2.4f%%") 
/*
LogisticRegressionModel
Accuracy: 66.5720%
Area under PR: 75.7964%
Area under ROC: 66.5483%
*///準確率有所提升

模型引數調優

import org.apache.spark.rdd.RDD
import org.apache.spark.mllib.optimization.Updater
import org.apache.spark.mllib.optimization.SimpleUpdater
import org.apache.spark.mllib.optimization.L1Updater
import org.apache.spark.mllib.optimization.SquaredL2Updater
import org.apache.spark.mllib.classification.ClassificationModel

// 輔助函式，根據給定資料輸入模型
def trainWithParams(input: RDD[LabeledPoint], regParam: Double, numIterations: Int, updater: Updater, stepSize: Double) = {
	val lr = new LogisticRegressionWithSGD
	lr.optimizer.setNumIterations(numIterations).setUpdater(updater).setRegParam(regParam).setStepSize(stepSize)
	lr.run(input)
}
// 輔助函式，根據輸入資料和分類模型，計算AUC
def createMetrics(label: String, data: RDD[LabeledPoint], model: ClassificationModel) = {
	val scoreAndLabels = data.map { point =>
  		(model.predict(point.features), point.label)
	}
	val metrics = new BinaryClassificationMetrics(scoreAndLabels)
	(label, metrics.areaUnderROC)
}

快取資料

scaledDataCats.cache

設定不同迭代次數

val iterResults = Seq(1, 5, 10, 50).map { param =>
	val model = trainWithParams(scaledDataCats, 0.0, param, new SimpleUpdater, 1.0)
	createMetrics(s"$param iterations", scaledDataCats, model)
}
iterResults.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.2f%%") }
/*
1 iterations, AUC = 64.97%
5 iterations, AUC = 66.62%
10 iterations, AUC = 66.55%
50 iterations, AUC = 66.81%//達到某個次數，結果影響變小
*/

設定不同步長

val stepResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0).map { param =>
	val model = trainWithParams(scaledDataCats, 0.0, numIterations, new SimpleUpdater, param)
	createMetrics(s"$param step size", scaledDataCats, model)
}
stepResults.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.2f%%") }
/*
0.001 step size, AUC = 64.95%
0.01 step size, AUC = 65.00%
0.1 step size, AUC = 65.52%
1.0 step size, AUC = 66.55%
10.0 step size, AUC = 61.92%//步長過大反而更不準確
*/

正則化，不同的正則引數

val regResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0).map { param =>
	val model = trainWithParams(scaledDataCats, param, numIterations, new SquaredL2Updater, 1.0)
	createMetrics(s"$param L2 regularization parameter", scaledDataCats, model)
}
regResults.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.2f%%") }
/*
0.001 L2 regularization parameter, AUC = 66.55%
0.01 L2 regularization parameter, AUC = 66.55%
0.1 L2 regularization parameter, AUC = 66.63%
1.0 L2 regularization parameter, AUC = 66.04%
10.0 L2 regularization parameter, AUC = 35.33%//採用L2正則化
*/

交叉驗證

val trainTestSplit = scaledDataCats.randomSplit(Array(0.6, 0.4), 123)//六四分
val train = trainTestSplit(0)
val test = trainTestSplit(1)

調整正則化引數

val regResultsTest = Seq(0.0, 0.001, 0.0025, 0.005, 0.01).map { param =>
	val model = trainWithParams(train, param, numIterations, new SquaredL2Updater, 1.0)
	createMetrics(s"$param L2 regularization parameter", test, model)
}
regResultsTest.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.6f%%") }
/*
0.0 L2 regularization parameter, AUC = 66.480874%
0.001 L2 regularization parameter, AUC = 66.480874%
0.0025 L2 regularization parameter, AUC = 66.515027%
0.005 L2 regularization parameter, AUC = 66.515027%
0.01 L2 regularization parameter, AUC = 66.549180%
*/

再計算測試集

val regResultsTrain = Seq(0.0, 0.001, 0.0025, 0.005, 0.01).map { param =>
	val model = trainWithParams(train, param, numIterations, new SquaredL2Updater, 1.0)
	createMetrics(s"$param L2 regularization parameter", train, model)
}
regResultsTrain.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.6f%%") }
/*
0.0 L2 regularization parameter, AUC = 66.260311%
0.001 L2 regularization parameter, AUC = 66.260311%
0.0025 L2 regularization parameter, AUC = 66.260311%
0.005 L2 regularization parameter, AUC = 66.238294%
0.01 L2 regularization parameter, AUC = 66.238294%
*/

正則化引數較小，效果較好，但容易過擬合。

交叉驗證中，一般選擇測試集中表現最好的引數。然後進行新資料集的預測。

Spark構建分類模型

出自：《spark機器學習》以邏輯迴歸模型舉例介紹完整的分類模型構建過程。資料集下載：http://www.kaggle.com/c/stumbleupon 該資料集是關於網頁中推薦的頁面是短暫存在還是可以長時間流行的一個分類問題，目標值-1表示長久，0表示短暫。首先將資料第一行刪除，通過管道

spark機器學習筆記：（四）用Spark Python構建分類模型（上）

因此,當 wTx的估計值大於等於閾值0時,SVM對資料點標記為1,否則標記為0(其中閾值是SVM可以自適應的模型引數)。 SVM的損失函式被稱為合頁損失,定義為:

Building Classification Models with TensorFlow 用TensorFlow構建分類模型 Pluralsight課程中文字幕

Building Classification Models with TensorFlow 中文字幕用TensorFlow構建分類模型中文字幕Building Classification Models with TensorFlow TensorFlow是實現強大分類模型（

spark構建迴歸模型

Spark機器學習第六章實現載入資料集 path = "hdfs:///user/yy/Bike-Sharing-Dataset/hour_noheader.csv" raw_data = sc.textFile(path) num_data =

Keras 最新《面向小數據集構建圖像分類模型》

網絡 ict regular n) val sent rom link prepare 本文地址：http://blog.keras.io/building-powerful-image-classification-models-using-very-little-dat

sklearn 學習實踐之——基於自帶資料集（波士頓房價、鳶尾花、糖尿病等）構建分類、迴歸模型

只要是接觸機器學習的，很少有沒聽過sklearn的，這個真的可以稱得上是機器學習快速進行的神器了，在研究生的時候搭建常用的機器學習模型用的就是sklearn，今天應部門的一些需求，簡單的總結了一點使用方法，後面還會繼續更新，今天僅使用sklearn自帶的資料

構建短文字分類模型需要注意的幾點

一、深度學習模型　　1.CNN 　　2.LSTM 　　3.Attention 二、與傳統機器學習模型的比較　　1.SVM 　　2.LR 　　3.GBDT 　　4.XGBoost 　　5.RandomForest 　　6.LightGBM 三、文字特徵選擇　　1.一般短文字的長度在

構建７種分類模型，評分並畫出ROC曲線

構建７種分類模型，評分並畫出ROC曲線匯入的包 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import Logi

利用Tensorflow構建CNN影象多分類模型及影象引數、資料維度變化情況例項分析

本文以CIFAR-10為資料集，基於Tensorflow介紹了CNN(卷積神經網路)影象分類模型的構建過程，著重分析了在建模過程中卷積層、池化層、扁平化層、全連線層、輸出層的運算機理，以及經過運算後圖像尺寸、資料維度等引數的變化情況。 CIFAR-10資料

weka實際操作--構建分類、迴歸模型（比較詳細）

轉載已授權，原始連結：http://blog.csdn.net/qq_38663729/article/details/77253165 weka提供了幾種處理資料的方式，其中分類和迴歸是平時用到最多的，也是非常容易理解的，分類就是在已有的資料基礎上學習出一個分類函式

Spark之訓練分類模型練習（1）

（）本博文為 spark機器學習第5章學習筆記。所用資料下載地址為：實驗資料集train.tsv 各列的資料意義為： “url” “urlid” “boilerplate” “alchemy_category” “alchemy_

Spark之訓練分類模型練習（2）

上接博文。 1 改進模型及引數調優 1.1 數值特徵標準化使用RowMatrix類計算列的統計量。每一行為某一樣本的特徵向量 import org.apache.spark.mllib.linalg.distributed.RowMatrix

spark機器學習筆記：（六）用Spark Python構建迴歸模型

博主簡介：風雪夜歸子（英文名：Allen），機器學習演算法攻城獅，喜愛鑽研Meachine Learning的黑科技，對Deep Learning和Artificial Intelligence充滿興趣，經常關注Kaggle資料探勘競賽平臺，對資料、Machi

《Spark機器學習》筆記——Spark分類模型（線性迴歸、樸素貝葉斯、決策樹、支援向量機）

一、分類模型的種類 1.1、線性模型 1.1.1、邏輯迴歸 1.2.3、線性支援向量機 1.2、樸素貝葉斯模型 1.3、決策樹模型二、從資料中抽取合適的特徵 MLlib中的分類模型通過LabeledPoint(label: Double, features

CNN文字分類模型構建（torch版）

引數宣告 V：詞向量個數 D：詞向量維度 C：分類個數 Co：卷積核個數 Ks：卷積核不同大小的列表，程式碼中為[3,4,5] 函式定義定義計算CNN第i層神經元個數和第i+1層神經元個數的函式：def calculate_fan_in_and_fan_out（tensor）

貝葉斯模型構建分類器的設計與實現

作者：白寧超 2015年9月29日11:10:02 摘要：當前資料探勘技術使用最為廣泛的莫過於文字挖掘領域，包括領域本體構建、短文字實體抽取以及程式碼的語義級構件方法研究。常用的資料探勘功能包括分類、聚類、預測和關聯四大模型。本文針對四大模型之一的分類進行討論。分類演算法包括迴歸、決策樹、支援

基於Spark和Tensorflow構建DCN模型進行CTR預測

scalar spa tro default beta unit oar 保留介紹實驗介紹數據采用Criteo Display Ads。這個數據一共11G，有13個integer features，26個categorical features。 Spark 由於數

我的Keras使用總結（2）——構建影象分類模型（針對小資料集）

　　Keras基本的使用都已經清楚了，那麼這篇主要學習如何使用Keras進行訓練模型，訓練訓練，主要就是“練”，所以多做幾個案例就知道怎麼做了。　　在本文中，我們將提供一些面向小資料集（幾百張到幾千張圖片）構造高效，實用的影象分類器的方法。 1，熱身練習——CIFAR10 小圖片分類示例（Sequentia

【Spark深入學習 -10】基於spark構建企業級流處理系統

變現大內存空間換時間 detail python 訪問量新版本 kafak 計算框架 ----本節內容------- 1.流式處理系統背景 1.1 技術背景 1.2 Spark技術很火 2.流式處理技術介紹 2.1流式處理技術概念 2.

Spark 編程模型(中)

tool irf split exe too rdd count pil 取數先在IDEA新建一個maven項目我這裏用的是jdk1.8,選擇相應的骨架這裏選擇本地在window下安裝的maven 新的項目創建成功我的開始pom.xml

Spark構建分類模型

相關推薦