1. 程式人生 > >spark之MLlib機器學習-Kmeans

spark之MLlib機器學習-Kmeans

1、構建SBT專案環境
mkdir -p ~/kmeans/src/main/scala
2、編寫kmeans.sbt

name := "Kmeans Project"
version := "1.0"
scalaVersion := "2.11.8"
libraryDependencies ++=Seq( "org.apache.spark" %% "spark-core" % "2.0.0",
                            "org.apache.spark" %% "spark-mllib" % "2.0.0")

當時,忘記新增mllib庫,出現報錯:“error object mllib is not a member of package org.apache.spark

3、編寫scala原始碼 kmeans_test.scala

import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._



object kmeans_test{
  def main(args: Array[String]) {
  val conf = new SparkConf().setAppName
("Kmeans Test") val sc = new SparkContext(conf) val data=sc.textFile("file:///usr/spark2.0/data/mllib/kmeans_data.txt") val parsedData=data.map(s=>Vectors.dense(s.split(" ").map(_.toDouble))).cache() val numClusters=2 val numIterations=20 val clusters=KMeans.train(parsedData,numClusters,numIterations) val WSSSE=clusters.computeCost
(parsedData) println("Within Set Sum of Squared Errors="+WSSSE) sc.stop() } }

4、將scala原始碼拷貝至~/kmeans/src/main/scala/目錄下
6、最終工程目錄如下:

find .
.
/kmeans.sbt
/src
/src/main
/src/main/scala
/src/main/scala/kmean_test.scala

5、進入kmeans目錄,執行編譯操作

  cd ~/kmeans
  sbt complile

4、編譯完成後執行打包

sbt package

5、打包完成後使用spark-submit工具提交任務

spark-submit --class kmeans_test target/scala-2.11/kmeans-project_2.11-1.0.jar

6、結果輸出如下:
這裡寫圖片描述

相關推薦

sparkMLlib機器學習-Kmeans

1、構建SBT專案環境 mkdir -p ~/kmeans/src/main/scala 2、編寫kmeans.sbt name := "Kmeans Project" version := "1.0" scalaVersion := "2.11

spark mllib機器學習三 FPGrowth

資料格式: 蘋果 梨 香蕉 梨 牛奶 土豆 蘋果 香蕉 狗 狗 土豆 土豆 牛奶 鹽 鹽 梨 狗 蘋果 梨 狗 package com.agm.guanlian import org.apache.spark.mllib.fpm.FPGrowth import org.a

spark MLlib 構建機器學習系統

構建 spark 機器學習系統 spark 機器學習系統架構 spark 和 hadoop 叢集的安裝 請參照下面的連結 spark-shell 1.x Spark-Shell 自動建立一個 SparkContext 物

Spark MLlib 機器學習演算法與原始碼解析(網路課程—第一期)

《Spark MLlib 機器學習演算法與原始碼解析》spark是一個開源叢集運算框架,最初是由加州大學柏克利分校AMPLab所開發。Spark使用了記憶體內運算技術,在記憶體上的運算速度比Hadoop

Spark MLlib機器學習實踐》內容簡介、目錄

 Spark作為新興的、應用範圍最為廣泛的大資料處理開源框架引起了廣泛的關注,它吸引了大量程式設計和開發人員進行相關內容的學習與開發,其中 MLlib是 Spark框架使用的核心。本書是一本細緻介紹 Spark MLlib程式設計的圖書,入門簡單,示例豐富。 本書

Spark Sreaming與MLlib機器學習

spark-2.0.2.3-bin-2.4.0.10/bin/spark-submit --master yarn-cluster --driver-memory 4g --num-executors 4 --executor-memory 4g --conf spark.yarn.maxAppAt

Spark MLlib 機器學習(分散式機器學習愛好者,《Spark MLlib 機器學習》 電子工業出版社 於2016-03出版,歡迎大家關注!)

深度學習及在Spark中的應用 Spark MLlib Deep Learning工具箱,是根據現有深度學習教程《UFLDL教程》中的演算法,在SparkMLlib中的實現;包括NN、DBN、CNN、SAE等。

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

src 常用 趨勢 試圖 重復執行 很大的 一個點 3.4 選擇 【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基於Anand Rajaraman和Jeffrey David

菜鳥路——機器學習HierarchicalClustering層次分析及個人理解

features clu 機器 層次 節點類 均值 成了 range n) 這個算法。我個人感覺有點雞肋。最終的表達也不是特別清楚。 原理很簡單,從所有的樣本中選取Euclidean distance最近的兩個樣本,歸為一類,取其平均值組成一個新樣本,總樣本數少1;不斷的重

SparkMLlib

location led star lod 末尾 npe 最優 fig ble 目錄 Part VI. Advanced Analytics and Machine Learning Advanced Analytics and Machine Learning Over

機器學習路--機器學習演算法一覽,應用建議與解決思路

作者:寒小陽 時間:2016年1月。 出處:http://www.lai18.com/content/2440126.html 宣告:版權所有,轉載請聯絡作者並註明出處 1.引言提起筆來寫這篇部落格,突然有點愧疚和尷尬。愧疚的是,工作雜事多,加之懶癌嚴重,導致這個系列一直沒有更新,向關注該系列的同學們

AI工程師成長路--機器學習模型評估與選擇

開篇簡介:本文是博主結合前輩經驗和自身的認識寫的博文,有不少博主自身理解還不太透徹,因為考慮到文章的完整性,有些部分需要引用的前輩的一些方法,望諒解。由於文章專業化內容過多,會影響閱讀體驗,在這裡建議大家難以理解的部分先不要去深究,等待需要用到的時候再去深入研究一下。本博

python實現CSV特徵檔案轉化為libsvm特徵檔案輸入spark中進行機器學習

    今天早早地下班,閒來無事就繼續鼓搗spark了,spark計算能力很強之外還有一個很強大的功能就是機器學習,藉助於spark平臺的高效能以及高計算能力,機器學習演算法也被廣泛地開發出來,今天在實際使用spark中提供的機器學習演算法的時候遇到一個問題就是:    

FPGA機器學習stanford機器學習第一堂

        主講:吳恩達。如果你學機器學習,對這個人牛,神的程度,不瞭解。你就可以洗洗睡了。必定全球人工智慧最權威專家中有他一個。          他說,機器學習是最重要的IT技能。這個是在矽谷那種地方。在中國,目前最火爆的是,網頁和安卓。不過大資料,網際網路,智慧機

FPGA機器學習stanford機器學習第十六堂

              Reinforcement Learning                強化學習。這裡舉例子是自主飛行的飛機。控制飛機,如果自主寫程式的話,會很難,所以需要它自學習。              最好用的地方,就是下棋。不過,怎麼半監督學習演算

FPGA機器學習stanford機器學習第四堂

                這個是第一篇講義的20頁。                                                                                                            

FPGA機器學習stanford機器學習第二十堂

  線性二次相關問題。選擇動作。 POMDP引數又多了2個。   o是觀察分佈。 隨機策略??? 狀態和行為的對映,π(s,a) 制定一個可能的行為分佈。 π,策略。   a1,a2是兩個行為,加速度。 1,兩個的內積。s是位置,theta引數。 2,目標,最大化預期回報

FPGA機器學習stanford機器學習第十八堂

               MDP的幾個參量。 這個就比較熟悉了。獎勵最大化函式。 獎勵函式改變,並不會有太多影響。 s狀態,a行為。獎勵機制。 1是當前回報,2未來總回報。 左邊的圈是加1,後邊的圈加10,下面是機器人 的行為,為什麼沒有向10方向,是因為沒有足夠的

Spark 2.0 機器學習 ML 庫:特徵提取、轉化、選取(Scala 版)

一、前言 二、程式碼 1.TF-IDF(詞頻-逆向文件頻率) TF(詞頻Term Frequency):HashingTF不CountVectorizer用於生成詞頻TF向量。 HashingTF是一個特徵詞集的轉換器(Tr

FPGA機器學習stanford機器學習第三堂2

             我已經寫過一遍了,為了我的分享事業,我在寫一次吧。            上一次我寫到了,這裡加號後面的那個就是錯誤率。為什麼會引入這個,上一篇,我有寫清楚。          這裡,我們假定它符合高斯分佈。為什麼是高斯分佈,上一篇也寫了。 這裡引