Ubuntu Spark 環境搭建(轉)
在安裝Spark之前,我們需要在自己的系統當中先安裝上jdk和scala
可以去相應的官網上下載:
JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
scala:http://www.scala-lang.org/download/
下載完成後可以得到這樣兩個壓縮包
安裝JDK
首先我們先來安裝jdk,
sudo mkdir /usr/lib/jdk
- 1
用這條語句來創建jdk的安裝目錄,這裏我們計劃裝到/usr/lib/jdk目錄下,
然後切換到jdk壓縮包所在的目錄,比如這裏我們把包放在了~/Desktop目錄下
cd ~/Desktop
- 1
執行解壓縮命令,把壓縮包解壓縮到/usr/lib/jdk目錄下
sudo tar -zxvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jdk
- 1
註意這裏需要root權限。不然沒有辦法往/usr/lib/jdk目錄中寫數據
然後我們需要配置PATH路徑,讓jdk命令在任何路徑下都能夠直接執行
sudo vim /etc/profile
- 1
打開配置文件,有些教程會讓你編輯自己目錄下的~/.bashrc文件,.bashrc文件的改動只會對當前用戶產生作用,而/etc/profile的改動在重啟之後會對所有用戶都起作用
在配置文件的最後加上
export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_91
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
- 1
- 2
- 3
- 4
JAVA_HOME的路徑根據自己解壓縮的目錄來配置。
然後推出vim,如果你不會用vim,可以在所有命令中出現vim的地方用gedit來代替,下面也是一樣。
source /etc/profile
- 1
當前終端重新載入/etc/profile配置文件,然後執行一下
java
- 1
如果出現一大串東西,那麽恭喜你你的jdk安裝成功了,否則很有可能你的環境配置出了問題,請仔細檢查。
安裝scala
接著我們需要安裝scala具體的安裝過程和jdk很像,
首先也是創建安裝目錄
sudo mkdir /usr/lib/scala
- 1
然後是將壓縮包解壓縮
sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala
- 1
最後打開/etc/profile,在最後添加配置
export SCALA_HOME=/usr/lib/scala/scala-2.11.8
export PATH=${SCALA_HOME}/bin:$PATH
- 1
- 2
退出後,進行source /etc/profile
然後執行scala,出現如下界面說明安裝成功
可以在這裏輸入 :quit
退出scala
安裝spark
安裝完了上面這些之後我們需要安裝今天的主角Spark了,首先去官網下載我們需要的包
http://spark.apache.org/downloads.html
這個是它的下載地址,需要註意的是,我們在Choose a package type:這裏選擇的是Pre-Build for Hadoop2.6
然後點擊下面的Download Spark鏈接開始下載。
完成後會出現這個文件
同樣我們需要給spark一個安裝目錄
sudo mkdir /usr/lib/spark
- 1
解壓縮文件
sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/lib/spark
- 1
在/etc/profile中配置
export SPARK_HOME=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
- 1
- 2
source /etc/profile
之後,執行 pyspark
出現這個就說明安裝已經完成,你可以在這裏輸入相應的python代碼來執行操作。
python中使用pyspark
當然了,我們在之後的開發過程中,不可能說只在這麽一個解釋器中開發,所以接下來我們要做的是讓python能夠加載spark的庫。
所以我們需要把pyspark添加到python的尋找目錄當中,同樣我們需要編輯/etc/profile文件,在最後添上
export PYTHONPATH=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python:/usr/bin/python
- 1
這樣就把spark目錄下的python庫添加到了python的找尋目錄中
但是由於python需要去調用java的庫所以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python路徑下我們需要添加一個py4j的文件夾,這個文件可以在/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/lib目錄下找到,在這個目錄下有一個py4j-0.9-src.zip的壓縮包,把他解壓縮放到
/usr/lib/spark/spark-1.6.1-bin-hadoop2.6/python/目錄下就可以了
當然這個操作需要在root權限下進行
這個時候在任意目錄下輸入python
然後在這裏輸入
import pyspark
- 1
查看是否可以正確導入pyspark,如果沒有出現任何提示,就說明pyspark能夠正常導入。
這樣就可以在任何地方編寫.py文件,需要用到pyspark的地方用import導入即可。
pycharm導入pyspark
當然有些用戶喜歡用pycharm來編寫python,所以對於pycharm使用pyspark也做一下說明
首先我們需要點擊右上角的下拉框,選擇 Edit Configurations…
然後在彈出的對話框中,點擊Enviroment variables:右側的編輯按鈕
點擊加號添加兩條新的數據,
PYTHONPATH和
SPARK_HOME
數據內容和/etc/profile中對應的內容相同
然後用下述代碼測試
import pyspark
conf = pyspark.SparkConf().setAppName("sparkDemo").setMaster("local")
sc = pyspark.SparkContext(conf=conf)
- 1
- 2
- 3
- 4
出現
說明pycharm也能夠正常載入pyspark了。
轉自:http://blog.csdn.net/u010171031/article/details/51849562
Ubuntu Spark 環境搭建(轉)