Ubuntu Spark 環境搭建（轉）

阿新 • • 發佈：2017-10-01

vim 能夠 span 有用 var sca 把他要點查看

在安裝Spark之前，我們需要在自己的系統當中先安裝上jdk和scala
可以去相應的官網上下載：
JDK：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
scala：http://www.scala-lang.org/download/
下載完成後可以得到這樣兩個壓縮包
技術分享

安裝JDK

首先我們先來安裝jdk,

sudo mkdir /usr/lib/jdk

用這條語句來創建jdk的安裝目錄，這裏我們計劃裝到/usr/lib/jdk目錄下，
然後切換到jdk壓縮包所在的目錄，比如這裏我們把包放在了~/Desktop目錄下

cd ~/Desktop

執行解壓縮命令，把壓縮包解壓縮到/usr/lib/jdk目錄下

sudo tar -zxvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jdk

註意這裏需要root權限。不然沒有辦法往/usr/lib/jdk目錄中寫數據
然後我們需要配置PATH路徑，讓jdk命令在任何路徑下都能夠直接執行

sudo vim /etc/profile

打開配置文件，有些教程會讓你編輯自己目錄下的~/.bashrc文件，.bashrc文件的改動只會對當前用戶產生作用，而/etc/profile的改動在重啟之後會對所有用戶都起作用
在配置文件的最後加上

export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_91   
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH

JAVA_HOME的路徑根據自己解壓縮的目錄來配置。
然後推出vim，如果你不會用vim，可以在所有命令中出現vim的地方用gedit來代替，下面也是一樣。

source /etc/profile

當前終端重新載入/etc/profile配置文件，然後執行一下

java

如果出現一大串東西，那麽恭喜你你的jdk安裝成功了，否則很有可能你的環境配置出了問題，請仔細檢查。

安裝scala

接著我們需要安裝scala具體的安裝過程和jdk很像，
首先也是創建安裝目錄

sudo mkdir /usr/lib/scala

然後是將壓縮包解壓縮

sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala

最後打開/etc/profile,在最後添加配置

export SCALA_HOME=/usr/lib/scala/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH

退出後，進行source /etc/profile
然後執行scala，出現如下界面說明安裝成功
技術分享
可以在這裏輸入
：quit
退出scala

安裝spark

安裝完了上面這些之後我們需要安裝今天的主角Spark了，首先去官網下載我們需要的包
http://spark.apache.org/downloads.html
這個是它的下載地址，需要註意的是，我們在Choose a package type:這裏選擇的是Pre-Build for Hadoop2.6
技術分享
然後點擊下面的Download Spark鏈接開始下載。
完成後會出現這個文件
同樣我們需要給spark一個安裝目錄

sudo mkdir /usr/lib/spark

解壓縮文件

sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/lib/spark

在/etc/profile中配置

export SPARK_HOME=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH

source /etc/profile
之後，執行
pyspark

技術分享

出現這個就說明安裝已經完成，你可以在這裏輸入相應的python代碼來執行操作。

python中使用pyspark

當然了,我們在之後的開發過程中，不可能說只在這麽一個解釋器中開發，所以接下來我們要做的是讓python能夠加載spark的庫。

所以我們需要把pyspark添加到python的尋找目錄當中，同樣我們需要編輯/etc/profile文件，在最後添上

export PYTHONPATH=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python:/usr/bin/python

這樣就把spark目錄下的python庫添加到了python的找尋目錄中

但是由於python需要去調用java的庫所以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python路徑下我們需要添加一個py4j的文件夾，這個文件可以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/lib目錄下找到，在這個目錄下有一個py4j-0.9-src.zip的壓縮包，把他解壓縮放到
/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/目錄下就可以了
技術分享

當然這個操作需要在root權限下進行

這個時候在任意目錄下輸入python
技術分享
然後在這裏輸入

import pyspark

查看是否可以正確導入pyspark，如果沒有出現任何提示，就說明pyspark能夠正常導入。

這樣就可以在任何地方編寫.py文件，需要用到pyspark的地方用import導入即可。

pycharm導入pyspark

當然有些用戶喜歡用pycharm來編寫python，所以對於pycharm使用pyspark也做一下說明

首先我們需要點擊右上角的下拉框，選擇 Edit Configurations…
技術分享

然後在彈出的對話框中，點擊Enviroment variables：右側的編輯按鈕
技術分享

點擊加號添加兩條新的數據，
PYTHONPATH和
SPARK_HOME
數據內容和/etc/profile中對應的內容相同
技術分享
然後用下述代碼測試

import pyspark

conf = pyspark.SparkConf().setAppName("sparkDemo").setMaster("local")
sc = pyspark.SparkContext(conf=conf)

出現技術分享
說明pycharm也能夠正常載入pyspark了。

轉自：http://blog.csdn.net/u010171031/article/details/51849562

Ubuntu Spark 環境搭建（轉）

vim 能夠 span 有用 var sca 把他要點查看在安裝Spark之前，我們需要在自己的系統當中先安裝上jdk和scala 可以去相應的官網上下載： JDK：http://www.oracle.com/technetwork/java/javase/downl

Ubuntu Spark 環境搭建（轉）

安裝JDK

安裝scala

安裝spark

python中使用pyspark

pycharm導入pyspark

Ubuntu Spark 環境搭建（轉）

Spark學習筆記--Spark在Windows下的環境搭建（轉）

Spark環境搭建（四）-----------數據倉庫Hive環境搭建

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（三）安裝spark2.2.1

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（九）安裝kafka_2.11-1.1.0

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（十三）定義一個avro schema使用comsumer發送avro字符流，producer接受avro字符流並解析

Spark環境搭建（多種模式）

Spark專案之環境搭建（單機）一 hadoop 2.8.5安裝

Spark專案之環境搭建（單機）三 scala-2.12.7+ spark-2.3.2-bin-hadoop2.7安裝

Spark專案之環境搭建（單機）五配置eclipse的scala環境，並建立spark專案

Spark專案之環境搭建（單機）四 sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 安裝

Spark專案之環境搭建（單機）二 hive-2.3.3安裝

Spark Scala IntelliJ IDEA開發環境搭建（入門）

Hadoop+spark+jupyter環境搭建（三）：Pyspark+jupyter部署在Linux

學習Spark——環境搭建（Mac版）

hadoop spark 大資料叢集環境搭建（一）

ZK+Kafka+Spark Streaming叢集環境搭建（九）安裝kafka_2.11-1.1.0

windows系統下Python環境的搭建-（轉）

Ubuntu 14.04 Eclipse JNI環境搭建（一）之生成JNI標頭檔案

Ubuntu Spark 環境搭建（轉）

安裝JDK

安裝scala

安裝spark

python中使用pyspark

pycharm導入pyspark

相關推薦