Spark-MLlib的快速使用之六（迴歸分析之邏輯迴歸）

阿新 • • 發佈：2018-11-19

（1）演算法描述

邏輯迴歸（Logistic Regression）是用於處理因變數為分類變數的迴歸問題，常見的是二分類或二項分佈問題，也可以處理多分類問題，它實際上是屬於一種分類方法

（2）測試資料

1 1:-0.222222 2:0.5 3:-0.762712 4:-0.833333

1 1:-0.555556 2:0.25 3:-0.864407 4:-0.916667

1 1:-0.722222 2:-0.166667 3:-0.864407 4:-0.833333

1 1:-0.722222 2:0.166667 3:-0.694915 4:-0.916667

0 1:0.166667 2:-0.416667 3:0.457627 4:0.5

1 1:-0.833333 3:-0.864407 4:-0.916667

2 1:-1.32455e-07 2:-0.166667 3:0.220339 4:0.0833333

2 1:-1.32455e-07 2:-0.333333 3:0.0169491 4:-4.03573e-08

1 1:-0.5 2:0.75 3:-0.830508 4:-1

0 1:0.611111 3:0.694915 4:0.416667

0 1:0.222222 2:-0.166667 3:0.423729 4:0.583333

1 1:-0.722222 2:-0.166667 3:-0.864407 4:-1

1 1:-0.5 2:0.166667 3:-0.864407 4:-0.916667

2 1:-0.222222 2:-0.333333 3:0.0508474 4:-4.03573e-08

2 1:-0.0555556 2:-0.833333 3:0.0169491 4:-0.25

2 1:-0.166667 2:-0.416667 3:-0.0169491 4:-0.0833333

（3）測試程式碼

public class JavaMulticlassClassificationMetricsExample {

public static void main(String[] args) {

SparkConf conf = new SparkConf().setAppName("Multi class Classification Metrics Example");

SparkContext sc = new SparkContext(conf);

// $example on$

String path = "sample_multiclass_classification_data.txt";

JavaRDD<LabeledPoint> data = MLUtils.loadLibSVMFile(sc, path).toJavaRDD();

// Split initial RDD into two... [60% training data, 40% testing data].

JavaRDD<LabeledPoint>[] splits = data.randomSplit(new double[]{0.6, 0.4}, 11L);

JavaRDD<LabeledPoint> training = splits[0].cache();

JavaRDD<LabeledPoint> test = splits[1];

// Run training algorithm to build the model.

final LogisticRegressionModel model = new LogisticRegressionWithLBFGS()

.setNumClasses(3)

.run(training.rdd());

// Compute raw scores on the test set.

JavaRDD<Tuple2<Object, Object>> predictionAndLabels = test.map(

new Function<LabeledPoint, Tuple2<Object, Object>>() {

public Tuple2<Object, Object> call(LabeledPoint p) {

Double prediction = model.predict(p.features());

return new Tuple2<Object, Object>(prediction, p.label());

}

);

System.out.println("--------------------->"+predictionAndLabels.take(10));

// Get evaluation metrics.

MulticlassMetrics metrics = new MulticlassMetrics(predictionAndLabels.rdd());

// Confusion matrix

Matrix confusion = metrics.confusionMatrix();

System.out.println("Confusion matrix: \n" + confusion);

// Overall statistics

System.out.println("Precision = " + metrics.precision());

System.out.println("Recall = " + metrics.recall());

System.out.println("F1 Score = " + metrics.fMeasure());

// Stats by labels

for (int i = 0; i < metrics.labels().length; i++) {

System.out.format("Class %f precision = %f\n", metrics.labels()[i],metrics.precision

(metrics.labels()[i]));

System.out.format("Class %f recall = %f\n", metrics.labels()[i], metrics.recall(metrics

.labels()[i]));

System.out.format("Class %f F1 score = %f\n", metrics.labels()[i], metrics.fMeasure

(metrics.labels()[i]));

}

//Weighted stats

System.out.format("Weighted precision = %f\n", metrics.weightedPrecision());

System.out.format("Weighted recall = %f\n", metrics.weightedRecall());

System.out.format("Weighted F1 score = %f\n", metrics.weightedFMeasure());

System.out.format("Weighted false positive rate = %f\n", metrics.weightedFalsePositiveRate());

// Save and load model

model.save(sc, "target/tmp/LogisticRegressionModel");

LogisticRegressionModel sameModel = LogisticRegressionModel.load(sc,

"target/tmp/LogisticRegressionModel");

// $example off$

}

（4）測試結果

>[(1.0,1.0), (1.0,1.0), (0.0,0.0), (0.0,0.0), (1.0,1.0), (1.0,1.0), (2.0,2.0), (1.0,1.0), (2.0,2.0), (0.0,0.0)]

Material Design學習之 CheckBox（詳細分析，富有表現力）

老規矩，兩部分，第一部分理論知識，第二部分程式碼選擇控制器選擇控制器允許使用者選擇選項。有三種類型：複選框、單選框以及開/關切換。選擇控制器使用主題同樣的顏色。（待會的程式碼主要講的是單選按鈕）複選框單選按鈕切換

《Spring技術內幕：深入解析Spring架構與設計原理》筆記之六（Spring事務處理的實現）

1.Spring與事務處理有了Spring事務管理的支援，只需要通過一些簡單的配置，應用就能完成複雜的事務處理工作，從而為使用者使用事務處理提供很大的方便。2.Spring事務處理的設計概覽Spring事務處理模組中的類層次結構在Spring事務處理中，可以通過設計一個Tra

Spark-MLlib的快速使用之六（迴歸分析之邏輯迴歸）

（1）演算法描述邏輯迴歸（Logistic Regression）是用於處理因變數為分類變數的迴歸問題，常見的是二分類或二項分佈問題，也可以處理多分類問題，它實際上是屬於一種分類方法（2）測試資料 1 1:-0.222222 2:0.5 3:-0.762712 4:-0.833333

Spark-MLlib的快速使用之五（梯度提升樹GBT 迴歸）

（1）描述　梯度提升樹（GBT）是決策樹的集合。 GBT迭代地訓練決策樹以便使損失函式最小化。 spark.ml實現支援GBT用於二進位制分類和迴歸，可以使用連續和分類特徵。（2）測試資料 1 153:5 154:63 155:197 181:20 182:254 183:230 1

Spark-MLlib的快速使用之四（梯度提升樹GBT 分類）

Spark-MLlib的快速使用之二（樸素貝葉斯分類）

（1）演算法描述演算法介紹：樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。樸素貝葉斯的思想基礎是這樣的：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，在沒有其它可用資訊下，我們會選擇條件概率最大的類別作為此待分類項應屬的類別。（2）測試資料 1

Spark-MLlib的快速使用之三（樸素貝葉斯分類）

（1）描述資訊隨機森林演算法是機器學習、計算機視覺等領域內應用極為廣泛的一個演算法，它不僅可以用來做分類，也可用來做迴歸即預測，隨機森林機由多個決策樹構成，相比於單個決策樹演算法，它分類、預測效果更好，不容易出現過度擬合的情況。隨機森林演算法基於決策樹，在正式講解隨機

sklearn的快速使用之六（決策樹分類）

print(__doc__) import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClas

設計模式實例(Lua)筆記之六（Adapter模式）

系統資源管理公司個人 title 人的實例 sel 我們 1.描寫敘述 “我”在 2004 年的時候帶了一個項目,做一個人力資源管理,該項目是我們總公司發起的項目,公司一共同擁有 700 多號人,包含子公司,這個項目還是比較簡單的,分為三大模塊:人員信息管理

編譯原理（五）語法分析之自底向上分析之算符優先分析法

logs cnblogs div mar 分析法 clas pos block mark 語法分析之自頂向下分析說明：以老師PPT為標準，借鑒部分教材內容，AlvinZH學習筆記。先看看PPT吧！引用說明 - 邵老師課堂PDF - 《編譯原理級編譯程序構造》編譯

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之六（第3章之 VI/VB算法）

dac term http 51cto -s mage 18C watermark BE ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

一位雲架構師用服務打動客戶的故事之六（阿裏雲上的MSP最佳實踐項目分享）

強調出差管理者溝通中間件實踐項目緩解 httpd 上進最近找了一個典型的雲服務客戶的案例對內進行分享，今天把核心內容脫敏後分享出來。希望能給目前在路上（做雲服務MSP）的同行，有一些借鑒意義或者幫助。該用戶據全年跟進情況，目前該客戶距正式啟用我們公司雲服務

使用 Spark MLlib 做 K-means 聚類分析

引言提起機器學習 (Machine Learning)，相信很多計算機從業者都會對這個技術方向感到興奮。然而學習並使用機器學習演算法來處理資料卻是一項複雜的工作，需要充足的知識儲備，如概率論，數理統計，數值逼近，最優化理論等。機器學習旨在使計算機具有人類一樣的學習能力和模仿能力，這也是實現人工

PHPStorm使用之六（常用快捷鍵）

PHPStorm常用快捷鍵常用快捷鍵使用說明 Shift + Shift 全域性搜尋class function ctrl + shift + N

PS圖層混合演算法之六（差值，溶解，排除）

差值模式：檢視每個通道中的顏色資訊，比較底色和繪圖色，用較亮的畫素點的畫素值減去較暗的畫素點的畫素值。與白色混合將使底色反相；與黑色混合則不產生變化。排除模式可生成和差值模式相似的效果，但比差

輕鬆精通資料庫管理之道——運維巡檢之六（作業執行情況）

前言　　做好日常巡檢是資料庫管理和維護的重要步驟，而且需要對每次巡檢日期、結果進行登記，同時可能需要出一份巡檢報告。　　本系列旨在解決一些常見的困擾：不知道巡檢哪些東西不知道怎麼樣便捷體檢機器太多體檢麻煩生成報告困難，無法直觀呈現結果 SQL Server很多

Linux裝置模型分析之bus（基於3.10.1核心）

作者：劉昊昱核心版本：3.10.1 一、bus定義 Linux裝置驅動模型中的bus，即可以是物理匯流排（如PCI、I2C匯流排）的抽象，也可以是出於裝置驅動模型架構需要而定義的虛擬的“platform”匯流排。一個符合Linux裝置驅動模型的device或devi

VS2013/MFC程式設計入門之六（對話方塊：為對話方塊新增控制元件）

建立對話方塊資源需要建立對話方塊模板、修改對話方塊屬性、為對話方塊新增各種控制元件等步驟，前面一講中已經講了建立對話方塊模板和修改對話方塊屬性，本節繼續講如何為對話方塊新增控制元件。上一講中建立了一個名為“Addition”的工程，目的是生成一個實現加法

Linux裝置驅動程式架構分析之platform（基於3.10.1核心）

作者：劉昊昱核心版本：3.10.1 一、platform bus的註冊 platform bus註冊是通過platform_bus_init函式完成的，該函式定義在drivers/base/platform.c檔案中，其內容如下： 904int __init pl

物聯網之LoRa開發與應用六（LoRa自組網路設計）

深入瞭解LoRaWAN 內容概要： 1、LoRaWAN概述 2、LoRaWAN終端（重點掌握） 3、LoRaWAN伺服器 LoRaWAN是什麼： LoRaWAN採用星型無線拓撲：End Nodes（節點）、Gateway（閘道器）、Network Server

Spark-MLlib的快速使用之六（迴歸分析之邏輯迴歸）

相關推薦