1. 程式人生 > >Win10系統下spark的環境搭建

Win10系統下spark的環境搭建

環境準備

·jdk配置;
·scala安裝與配置;
·spark安裝與配置;
·hadoop安裝與配置;

版本說明

·jdk:1.8
·scala:2.11.8
·spark:2.4.0
·hadoop:2.8.3

jdk配置

  1. 首先,進入我的電腦-〉系統屬性-〉高階系統設定->環境變數
    配置JAVA_Home
    在這裡插入圖片描述
    配置Path
    Path路徑
  2. 驗證配置
    在這裡插入圖片描述

scala安裝與配置

  1. scala下載
    官方地址:https://www.scala-lang.org/download/2.11.8.html
    在這裡插入圖片描述
  2. 配置使用者變數下的Path
    變數值一欄輸入:E:\scala 也就是scala的安裝目錄
    注意:安裝路徑不能有空格和中文,否則報錯,出現報錯需要解除安裝重灌
    在這裡插入圖片描述
  3. 配置系統變數下的Path變數
    在"變數值"一欄的最前面新增如下的路徑: %SCALA_HOME%\bin;%SCALA_HOME%\jre\bin;
    注意:後面的分號 ; 不要漏掉。
    在這裡插入圖片描述
  4. 設定系統變數下的Classpath 變數:
    · “變數名”:ClassPath
    · “變數值”:
    · .;%SCALA_HOME%\bin;%SCALA_HOME%\lib\dt.jar;%SCALA_HOME%\lib\tools.jar.;
    在這裡插入圖片描述
  5. 驗證配置
    在這裡插入圖片描述

spark安裝與配置

  1. spark下載:http://spark.apache.org/downloads.html
    在這裡插入圖片描述
    選擇3,進入下載頁面 ,選擇預設下載
    在這裡插入圖片描述
  2. 下載完畢後解壓到D:
    在這裡插入圖片描述
  3. 配置Path
    在這裡插入圖片描述
    如上,可以看到對應的spark、scala、java版本,同時存在異常資訊,異常資訊是由於hadoop導致的,下面來配置hadoop即可解決該異常。

Hadoop安裝與配置

  1. Hadoop官網下載:http://hadoop.apache.org/releases.html
    在這裡插入圖片描述
  2. 解壓Hadoop
    在這裡插入圖片描述
  3. 配置Path
    在這裡插入圖片描述
  4. 驗證配置
    在這裡插入圖片描述

基於spark用線性迴歸進行資料預測

分類和聚類演算法很多,但是對資料進行精準預測的演算法不是很多,這裡參照了別人的線性迴歸的例子,使用spark ml進行線性迴歸。
資料格式

標籤,特徵值1 特徵值2 特徵值3...
 1. 1,1.9
 2. 2,3.1
 3. 3,4
 4. 3.5,4.45
 5. 4,5.02
 6. 9,9.97
 7. -2,-0.98

實現程式碼如下

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint

val data_path = "files/C:/Users/84913/Desktop/sfy/linear_regression_data1.txt"
val data = sc.textFile(data_path)
val training = data.map { line =>
  val arr = line.split(',')
  LabeledPoint(arr(0).toDouble, Vectors.dense(arr(1).split(' ').map(_.toDouble)))
}.cache()
training.foreach(println)

結果

(1.0,[1.9])
(2.0,[3.1])
(3.0,[4.0])
(3.5,[4.45])
(4.0,[5.02])
(9.0,[9.97])
(-2.0,[-0.98])