1. 程式人生 > >Linux中安裝配置spark叢集

Linux中安裝配置spark叢集

一. Spark簡介

  Spark是一個通用的平行計算框架,由UCBerkeley的AMP實驗室開發。Spark基於map reduce 演算法模式實現的分散式計算,擁有Hadoop MapReduce所具有的優點;但不同於Hadoop MapReduce的是Job中間輸出和結果可以儲存在記憶體中,從而不再需要讀寫HDFS,節省了磁碟IO耗時,效能比Hadoop更快。 所以,相對來說Hadoop更適合做批處理,而Spark更適合做需要反覆迭代的機器學習。下面是我在ubuntu14.04中配置Spark的整個流程以及遇到的問題的,一方面當做自己的備忘錄,另一方面也希望能夠給像我一樣初次配置的新手提供一些幫助~╮(╯▽╰)╭

二. 安裝配置

2.1 準備工作

注意:確保你之前已經安裝配置好了hadoop叢集(YARN方式),可以參考我的另一篇博文:Linux中安裝配置hadoop叢集 

我所使用的環境:

ubuntu 14.04 LTS 計算機兩臺,一個當作Master,一個作slave。

Scala版本:scala-2.10.6

Hadoop版本:hadoop-2.7.1

Spark版本:spark-1.6.1 (記得下載預編譯版本的)

我的安裝目錄:

Scala:/home/hadoop/spark/scala-2.10.6

Spark:/home/hadoop/spark/spark-1.6.1

Java:/home/javafile/jdk1.7.0_79

2.2 具體安裝步驟

1. 安裝scala

首先,去scala官網下載scala-2.10.6.tgz,解壓到:/home/hadoop/spark目錄下;
1 2 tar zxvf scala-2.10.6.tgz

然後,修改:/etc/profile

2. 安裝Spark

同樣,還是先去Spark官網下載:spark-1.6.1-bin-hadoop2.6.tgz,解壓到:/home/hadoop/spark下;

1 cd /home/hadoop/spark
2 tar zxvf spark-1.6.1-bin-hadoop2.6.tgz

然後,修改:/etc/profile

3. 配置Spark

01. 修改配置檔案spark-env.sh

1 cd /home/hadoop/spark/spark-1.6.1/conf
2 cp spark-env.sh.template  spark-env.sh

修改spark-env.sh如下:

02. 修改配置檔案slaves

在slaves中新增你的slave主機名:我只有一個slave,所以只添加了一個。

03. 配置slave

至此,master節點上的Spark已配置完畢。把master上Spark相關配置copy到slave中。(注意,三臺機器spark所在目錄必須一致,因為master會登陸到worker上執行命令,master認為worker的spark路徑與自己一樣

三. 啟動Spark

3.1 啟動

啟動命令非常簡單:

1 cd /home/hadoop/spark/spark-1.6.1
2 sbin/start-all.sh

3.2 驗證Spark是否啟動成功

使用 jps 命令,檢視master和slave上的程序:

master:

slave:

進入Spark的Web管理頁面: http://master:8080 (將master替換成你的master主機名即可)

四. 總結

至此,Spark叢集的安裝配置就完成了,有什麼不對的地方還請大家指正,一起交流討論~

參考:

相關推薦

Linux安裝配置spark叢集

一. Spark簡介   Spark是一個通用的平行計算框架,由UCBerkeley的AMP實驗室開發。Spark基於map reduce 演算法模式實現的分散式計算,擁有Hadoop MapReduce所具有的優點;但不同於Hadoop MapReduce的是Job中間輸出和結果可以儲存在記憶體中,從而不

Linux安裝配置hadoop叢集

一. 簡介   參考了網上許多教程,最終把hadoop在ubuntu14.04中安裝配置成功。下面就把詳細的安裝步驟敘述一下。我所使用的環境:兩臺ubuntu 14.04 64位的桌上型電腦,hadoop選擇2.7.1版本。(前邊主要介紹單機版的配置,叢集版是在單機版的基礎上,主要是配置檔案有所不同,後邊會

redis在linux安裝配置

環境:ubuntu 16.04.05 + redis-3.2.9 基本安裝 1.下載redis-3.3.9包,解壓 2.進入redis-3.2.9目錄內,執行terminal,執行sudo make,編譯後執行sudo make install 3.安裝完成後,在terminal

linux安裝配置JDK

linux配置JDK步驟如下: 1、在/usr目錄下建立java 目錄     cd /usr     mkdir java      2、上傳jdk壓縮包至/usr/java目錄    解壓 ta

Linux安裝配置FTP伺服器方法

配置檔案: 使用者登入控制:   anonymous_enable=YES,允許匿名使用者登入。   no_anon_password=YES,匿名使用者登入時不需要輸入密碼。   local_enable=YES,允許本地使用者登入。   deny_email_enable=YES,可以建立

Linux安裝配置Redis圖文教程

首先到官網下載安裝包:gz格式 官網連結:Redis官網下載地址 放在Linux系統中的任意資料夾 用root身份開啟終端,進入安裝的目錄。並且要編譯並安裝! #cd redis-2

Linux安裝配置jdk1.7

1.檢查系統原版並解除安裝檢查系統原版本:java -version檢視jdk資訊:rpm -qa | grep java解除安裝openjdk使用如下命令依次解除安裝rpm -e --nodeps java包名最後使用命令rpm -qa | grep java檢視,如果沒有

linux安裝配置jdk1.8

1.下載jdk-8u11-linux-x64.rpm 2.長傳到linux中,在相應目錄下執行chmod 777 jdk-8u11-linux-x64.rpm 3.執行rpm -ivh jdk-

linux安裝配置 jdk

jdk1 png images 下載 配置環境變量 ftp 當前 bsp 官網 01.去官網下載指定的jdk 02.使用xftp把下載好的文件 傳遞到 linux指定文件夾中03.進入指定的文件夾輸入tar -zxvf 文件名稱04.發現文件 05.進入文件c

Linux安裝配置 http ,修改本機http伺服器主頁,自定義顯示內容。

HTTP(Hyper Text Transfer Protocol) 超文字傳輸協議,位於osi模型中的應用層。               安裝:可以使用yum等多種方式安裝,最方便的自然是yum安裝(Redhat需

Linux安裝軟體安裝包步驟及java環境並配置

下載jdk官網 http://www.oracle.com/technetwork/java/javase/downloads/jdk10-downloads-4416644.html CenterOS軟體安裝: 支援三種方式 ① rpm包 通過rpm檢視已經安裝的軟體包 rp

Linux安裝ActiveMQ 配置開機自啟動教程

一、安裝ActiveMQ 1.解壓activemq壓縮包,重新命名資料夾     # cd /usr/local     # tar -zxvf apache-activemq-5.11.1-bin.tar.gz     # mv apache-activemq-5.11

linux安裝jdk,配置環境變數

1、將下載好的安裝包解壓到/usr/local下面 [[email protected] ~]# tar -xvf jdk-8u191-linux-x64.tar.gz -C /usr/local 2、進入/usr/local目錄下面檢視,確認解壓成

Linux(六)Linux系統安裝配置JDK

1.首先將JDK安裝檔案拷貝到Linux系統中    這裡我是在虛擬機器中操作,我通過共享資料夾進行檔案傳輸,如果是遠端Linux系統可以使用xftp(在我前面部落格講過如何使用)進行檔案傳輸。    從共享資料夾中拷貝到/usr/local/目錄下    2.對壓縮包進行解

Linux安裝JDK並配置環境變數——rpm安裝

一.下載jdk的rpm包 二.安裝: 1.檢查是否已經安裝jdk : rpm -qa | grep jdk 2.rpm -ivh 包名   (-i是安裝的意思,  -vh是顯示安裝過程的意思) 三

LinuxJDK配置及tomcat安裝

一、預備知識:壓縮與解壓 tar命令:(打包、解包、壓縮、解壓) 1.把資料夾打包: tar -cvf mydir.tar mydir --把mydir打包成mydir.tar 2.把檔案打包: tar -cvf myfile.tar a.txt b.txt c.tx

python安裝配置pyspark庫教程需要配合spark+hadoop使用

單獨安裝pyspark庫在單機上是沒法執行的,需要有相應的分散式軟體,這裡可以是spark+hadoop,配置安裝教程連結:spark2.3在window10當中來搭建python3的使用環境pyspark配置pyspark庫之前在安裝spark的時候,提到過pyspark庫

Linux系統安裝配置Nginx

準備工具: 安裝包:nginx-1.12.0.tar.gz 下載地址: http://nginx.org/en/download.html 伺服器環境:1.CentOS6.464 位 2. 安裝 c++編譯環境( 如果沒有c++編譯環境,請輸入這串指令:yum inst

linux伺服器(centos7)Apache+Tomcat 安裝配置以及叢集實現(上)

解壓apr-1.5.2命令 [[email protected] ~]# tar zxvf apr-1.5.2.tar.gz 切換解壓目錄 [[email protected] ~]# cd apr-1.5.2 指令碼編譯配置指定安裝目錄 [[email protected] a

Linux - vim安裝 配置與使用

格式 only ctx net height border term mona 方便 一 Vim 簡單介紹 曾經一直用vi,近期開始使用 vim,以下將兩者做一下比較。 vi和vim都是多模式編輯器,不同的是vim 是vi的升級版本號,它不僅兼容vi的全部指令,並且