SparkML實戰之二：Kmeans

阿新 • • 發佈：2019-02-08

package class8

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors

/**
 * Created by root on 16-1-12.
 */
object Kmeans {
  def main(args: Array[String]) {
    // 遮蔽不必要的日誌顯示在終端上
    Logger.getLogger 
("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    //設定執行環境
    val conf = new SparkConf().setAppName("Kmeans").setMaster("local[4]")
    //在叢集上執行需要設定set.Master("spark://moon:7077")並且要打包
    //sc.addJar("/path/to/jarfile")
    val sc = new SparkContext(conf)
    //裝載資料集
//    0.0 
 0.0 0.0
//    2 0.1 0.1 0.1
//    3 0.2 0.2 0.2
//    4 9.0 9.0 9.0
//    5 9.1 9.1 9.1
//    6 9.2 9.2 9.2

    val data = sc.textFile("/usr/local/spark/spark-data/data/class8/kmeans_data.txt",1)
    val parsedData = data.map(s=>Vectors.dense(s.split(' ').map(_.toDouble)))
    //將資料集聚類，2個類，20次迭代，進行模型訓練形成資料模型
    val numClusters =2 

    val numIterations = 20
    val model = KMeans.train(parsedData, numClusters, numIterations)
    //列印資料模型的中心點
    println("Cluster centers:")
    for(c <-model.clusterCenters){
      println(" "+c.toString)
    }

    //使用誤差平方之和來評估資料模型,--------------------------------------模型在訓練集上計算損失
    val cost=model.computeCost(parsedData)
    println("Within Set Sum of Squared Errors ="+cost)
    //使用模型測試單點資料-----------------------------------------------模型對測試樣本分類
    println("Vectors 0.2 0.2 0.2 is belongs to clusters:" +
      model.predict(Vectors.dense("0.2 0.2 0.2".split(' ').map(_.toDouble))))  //1
    println("Vectors 0.25 0.25 0.25 is belongs to clusters:" +
      model.predict(Vectors.dense("0.25 0.25 0.25".split(' ').map(_.toDouble))))
    println("Vectors 8 8 8 is belongs to clusters:" + model.predict(Vectors.dense("8 8 8".split(' ').map(_.toDouble))))
   //交叉評估，之返回結果   testdata就是parseddata
    val testdata = data.map(s=>Vectors.dense(s.split(' ').map(_.toDouble)))
    val result1 = model.predict(testdata)
   //result1.saveAsTextFile("/usr/local/spark/spark-data/data/class8/result_kmeans1")

    result1.foreach(println)
    //交叉評估2，返回資料集和結果
//    val resutl2 = data.map{
//      line =>
//        val linevectore = Vectors.dense(line.split(' ').map(_.toDouble))
//        val prediction =model.predict(linevectore)
//        line+" "+prediction
//    }.saveAsTextFile("/usr/local/spark/spark-data/data/class8/result_kmeans2")
    sc.stop()
  }

}

SparkML實戰之二：Kmeans

package class8 import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.m

spring4.1.8擴充套件實戰之二：Aware介面揭祕

接下來通過分析spring原始碼，我們來看看典型的Aware子類有哪些，使用場景是什麼？在spring容器初始化過程中，會執行AbstractApplicationContext類的prepareBeanFactory方法，這裡面會建立一個bean後置處理器

Flink的sink實戰之二：kafka

### 歡迎訪問我的GitHub [https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) 內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等； ###

Flink處理函式實戰之二：ProcessFunction類

MyBatis初級實戰之二：增刪改查

### 歡迎訪問我的GitHub [https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) 內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；本文是《

dubbo實戰之二：與SpringBoot整合

Oracle數據庫12cR2（項目實戰之二）：Linux系統安裝Oracle12.2

oracle12cr2 oracle視頻教程 oracle12cr2安裝 linux上安裝12c linux上安裝12cr2 oracle數據庫12cR2（項目實戰之二）：linux系統安裝Oracle12.2一、課程主題：風哥Oracle數據庫教程12cR2（項目實戰之二）：在linux

自定義spring boot starter三部曲之二：實戰開發

本文是《自定義spring boot starter三部曲》的第二篇，上一篇中我們通過學習spring cloud的starter，對spring boot的starter有了初步瞭解，也設計好了實戰內容，今天就來一起實現；三部曲文章連結《自定義spring boot

Android列表用法之二：實戰ListView高階用法

在我們的專案中，並不是所有列表都是簡單的使用。類似於新聞列表、QQ聊天列表等，具有圖文並排的列表，每個item都有它不同的佈局型別，都有其不同的實現方式。這類複雜的列表表現形式，在各類知名應用當中，不可或缺的存在著。今天我們就來看看，使用ListView能不能實現此類複雜佈局。今天的例

elasticsearch實戰三部曲之二：文件操作

本文是《elasticsearch實戰三部曲》系列的第二篇，上一篇文章我們動手熟悉了索引相關的基本操作，現在一起來熟悉文件相關的操作；系列文章連結《elasticsearch實戰三部曲之一：索引操作》；《elasticsearch實戰三部曲之二：文件操作》；

設計模式實戰應用之二：觀察者模式

觀察者模式的定義觀察者模式是應用最普遍的設計模式之一。著名的 MVC 模式就是觀察者模式的應用之一；高效能網路應用框架 MINA 中的事件處理器也是觀察者模式的應用之一，一旦有 I/O 事件，所有註冊的 IoHandler 物件會被通知到，我們

Kubernetes持久卷實戰兩部曲之二：細說開發

在上一章《Kubernetes持久卷實戰兩部曲之一：極速體驗》我們體驗了K8S環境下基於NFS的持久卷讀寫，今天我們一起來了解整個體驗環境背後的細節；全文概要要完成上一章的體驗，需要做以下事情： 1. 建立PV； 2. 建立PVC； 3. 開發we

Docker下RabbitMQ延時佇列實戰兩部曲之二：細說開發

本章是《Docker下RabbitMQ延時佇列實戰兩部曲》的終篇，上一章《Docker下RabbitMQ延時佇列實戰兩部曲之一：極速體驗》我們快速體驗了延時佇列的生產和消費，今天來實戰整個開發過程； SpringBoot框架下進行RabbitMQ開發，相關

實戰maven私有倉庫三部曲之二：上傳到私有倉庫

在上一章《實戰maven私有倉庫三部曲之一：搭建和使用》我們搭建了maven私有倉庫，並體驗了私有倉庫快取jar包的能力，避免了局域網內開發人員去遠端中央倉庫下載的痛苦等待，本章我們再來體驗私有倉庫的另一個功能：儲存二方庫；使用場景 mvndemos

Docker下實戰zabbix三部曲之二：監控其他機器

在上一章《Docker下實戰zabbix三部曲之一：極速體驗》中，我們快速安裝了zabbix server，並登入管理頁面查看了zabbix server所在機器的監控資訊，但是在實際場景中，應該是對應用伺服器做監控，所以今天我們來實戰將應用伺服器的監控加入到zabbix server中。全系列文章連結：

docker-compose下的java應用啟動順序兩部曲之二：實戰

上篇回顧本文是《docker-compose下的java應用啟動順序兩部曲》的終篇，在上一篇《docker-compose下的java應用啟動順序兩部曲之一：問題分析》中，我們以SpringCloud環境下的註冊中心和業務服務為例，展示了docker-compose.yml中depends_on引數的不足

CoProcessFunction實戰三部曲之二：狀態處理

4.AngularJS四大特征之二：雙向數據綁定

sco font int out grep 模型多行文本 pan oot AngularJS四大特征之二：雙向數據綁定 (1)方向一：把Model數據綁定到View上——此後不論何時只要Model發生了改變，則View中的呈現會立即隨之改變！實現方法： {{ }}、

linux學習之二：日常的基礎命令收集

幫助文檔 gedit 查看日期取整 style 位置某月 linux 1、 ls 2、pwd　　顯示當前目錄所在位置 3、date　　日期時間 4、cal　　日歷　　默認顯示當前該月　　cal 2012 ：查看2012年的日歷　　cal 月年：查看某年某月

【只怕沒有幾個人能說清楚】系列之二：Unity中的特殊文件夾

物體 avi ebp time 編輯模式 tro hive 預覽打包參考：http://www.manew.com/thread-99292-1-1.html 1. 隱藏文件夾以.開頭的文件夾會被忽略。在這種文件夾中的資源不會被導入，腳本不會被編譯。也不會出現

SparkML實戰之二：Kmeans

相關推薦