1. 程式人生 > >Ubuntu Spark 環境搭建(轉)

Ubuntu Spark 環境搭建(轉)

vim 能夠 span 有用 var sca 把他 要點 查看

在安裝Spark之前,我們需要在自己的系統當中先安裝上jdk和scala
可以去相應的官網上下載:
JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
scala:http://www.scala-lang.org/download/
下載完成後可以得到這樣兩個壓縮包
技術分享

安裝JDK

首先我們先來安裝jdk,

sudo mkdir /usr/lib/jdk
  • 1

用這條語句來創建jdk的安裝目錄,這裏我們計劃裝到/usr/lib/jdk目錄下,
然後切換到jdk壓縮包所在的目錄,比如這裏我們把包放在了~/Desktop目錄下

cd ~/Desktop
  • 1

執行解壓縮命令,把壓縮包解壓縮到/usr/lib/jdk目錄下

sudo tar -zxvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jdk
  • 1

註意這裏需要root權限。不然沒有辦法往/usr/lib/jdk目錄中寫數據
然後我們需要配置PATH路徑,讓jdk命令在任何路徑下都能夠直接執行

sudo vim /etc/profile
  • 1

打開配置文件,有些教程會讓你編輯自己目錄下的~/.bashrc文件,.bashrc文件的改動只會對當前用戶產生作用,而/etc/profile的改動在重啟之後會對所有用戶都起作用
在配置文件的最後加上

export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_91   
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH
  • 1
  • 2
  • 3
  • 4

JAVA_HOME的路徑根據自己解壓縮的目錄來配置。
然後推出vim,如果你不會用vim,可以在所有命令中出現vim的地方用gedit來代替,下面也是一樣。

source /etc/profile
  • 1

當前終端重新載入/etc/profile配置文件,然後執行一下

java
  • 1

如果出現一大串東西,那麽恭喜你你的jdk安裝成功了,否則很有可能你的環境配置出了問題,請仔細檢查。

安裝scala

接著我們需要安裝scala具體的安裝過程和jdk很像,
首先也是創建安裝目錄

sudo mkdir /usr/lib/scala
  • 1

然後是將壓縮包解壓縮

sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala
  • 1

最後打開/etc/profile,在最後添加配置

export SCALA_HOME=/usr/lib/scala/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH
  • 1
  • 2

退出後,進行source /etc/profile
然後執行scala,出現如下界面說明安裝成功
技術分享
可以在這裏輸入
:quit
退出scala

安裝spark

安裝完了上面這些之後我們需要安裝今天的主角Spark了,首先去官網下載我們需要的包
http://spark.apache.org/downloads.html
這個是它的下載地址,需要註意的是,我們在Choose a package type:這裏選擇的是Pre-Build for Hadoop2.6
技術分享
然後點擊下面的Download Spark鏈接開始下載。
完成後技術分享會出現這個文件
同樣我們需要給spark一個安裝目錄

sudo mkdir /usr/lib/spark
  • 1

解壓縮文件

sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/lib/spark
  • 1

在/etc/profile中配置

export SPARK_HOME=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
  • 1
  • 2

source /etc/profile
之後,執行
pyspark

技術分享

出現這個就說明安裝已經完成,你可以在這裏輸入相應的python代碼來執行操作。

python中使用pyspark

當然了,我們在之後的開發過程中,不可能說只在這麽一個解釋器中開發,所以接下來我們要做的是讓python能夠加載spark的庫。

所以我們需要把pyspark添加到python的尋找目錄當中,同樣我們需要編輯/etc/profile文件,在最後添上

export PYTHONPATH=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python:/usr/bin/python
  • 1

這樣就把spark目錄下的python庫添加到了python的找尋目錄中

但是由於python需要去調用java的庫所以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python路徑下我們需要添加一個py4j的文件夾,這個文件可以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/lib目錄下找到,在這個目錄下有一個py4j-0.9-src.zip的壓縮包,把他解壓縮放到
/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/目錄下就可以了
技術分享

當然這個操作需要在root權限下進行

這個時候在任意目錄下輸入python
技術分享
然後在這裏輸入

import pyspark
  • 1

查看是否可以正確導入pyspark,如果沒有出現任何提示,就說明pyspark能夠正常導入。

這樣就可以在任何地方編寫.py文件,需要用到pyspark的地方用import導入即可。

pycharm導入pyspark

當然有些用戶喜歡用pycharm來編寫python,所以對於pycharm使用pyspark也做一下說明

首先我們需要點擊右上角的下拉框,選擇 Edit Configurations…
技術分享

然後在彈出的對話框中,點擊Enviroment variables:右側的編輯按鈕
技術分享

點擊加號添加兩條新的數據,
PYTHONPATH和
SPARK_HOME
數據內容和/etc/profile中對應的內容相同
技術分享
然後用下述代碼測試

import pyspark

conf = pyspark.SparkConf().setAppName("sparkDemo").setMaster("local")
sc = pyspark.SparkContext(conf=conf)
  • 1
  • 2
  • 3
  • 4

出現技術分享
說明pycharm也能夠正常載入pyspark了。

轉自:http://blog.csdn.net/u010171031/article/details/51849562

Ubuntu Spark 環境搭建(轉)