1. 程式人生 > >Spark 2.2.0下載安裝及原始碼編譯

Spark 2.2.0下載安裝及原始碼編譯

1.官網

2.下載地址

3.所需環境

  1. jdk1.8+ 參考地址
  2. maven3.3.9 參考地址,下載maven後進行環境變數的設定,設定maven的記憶體使用,在環境變數中加入如下命令export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"
  3. scala2.11.8 參考地址
  4. git:直接輸入命令:sudo yum install git下載git

4.原始碼編譯

為什麼選擇原始碼編譯呢,如果直接選擇官網下載好的會少一些jar包,重要的時很多元件的版本可能並不是我們想要的
- 官網參考地址

4.1方式一:
mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -DskipTests clean package
命令解釋:
-Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0:指定Hadoop版本和啟用執行緒
-Phive -Phive-thriftserver:JDBC支援的構建

第一次編譯的話可能會報錯,報錯內容如下:

[ERROR] Failed to execute goal on project spark-launcher_2.11
: Could not resolve dependencies for project org.apache.spark:spark-launcher_2.11:jar:2.2.0: Could not find artifact org.apache.hadoop:hadoop-client:jar:2.6.0-cdh5.7.0 in central (https://repo1.maven.org/maven2) -> [Help 1]

這個錯誤很明顯,https://repo1.maven.org/maven2 該連線是預設的中央倉庫地址,使用maven下載jar包但是預設的連線著並沒有找到,所以我們要修改pom.xml的設定,在pom.xml新增如下內容:

<repositories>
<repository>
  <id>cloudera</id>
  <name>cloudera Repository</name>
  <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>
  • 再次輸入編譯命令,即可。
4.2方式二:

建議使用該方式,會把原始碼編譯成tar.gz包

./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Dhadoop.version=2.6.0-cdh5.7.0 \
-Phadoop-2.6 \
-Phive -Phive-thriftserver \
-Pyarn

這裡可能又會遇到一個情況,編譯很慢,所以我們要進行如下修改:

  • make-distribution.sh(修改dev目錄下的make-distribution.sh檔案)
dev/make-distribution.sh
註釋這一段:
#VERSION=$("$MVN" help:evaluate -Dexpression=project.version [email protected] 2>/dev/null | grep -v "INFO" | tail -n 1)
#SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version [email protected] 2>/dev/null\
#    | grep -v "INFO"\
#    | tail -n 1)
#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version [email protected] 2>/dev/null\
#    | grep -v "INFO"\
#    | tail -n 1)
#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive [email protected] 2>/dev/null\
#    | grep -v "INFO"\
#    | fgrep --count "<id>hive</id>";\
#    # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\
#    # because we use "set -o pipefail"
#    echo -n)
加入下面的內容:
VERSION=2.2.0
SCALA_VERSION=2.11
SPARK_HADOOP_VERSION=2.6.0-cdh5.7.0
SPARK_HIVE=1
  • 編譯:
Building with...
+ echo -e '$ /opt/sourcecode/spark-2.2.0/build/mvn' -T 1C clean package -DskipTests --tgz-Dhadoop.version=2.6.0-cdh5.7.0 -Phadoop-2.6 -Phive -Phive-thriftserver '-Pyarn\n'
$ /opt/sourcecode/spark-2.2.0/build/mvn -T 1C clean package -DskipTests --tgz-Dhadoop.version=2.6.0-cdh5.7.0 -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn

+ /opt/sourcecode/spark-2.2.0/build/mvn -T 1C clean package -DskipTests --tgz-Dhadoop.version=2.6.0-cdh5.7.0 -Phadoop-2.6 -Phive -Phive-thriftserver -Pyarn
exec: curl --progress-bar -L https://downloads.typesafe.com/zinc/0.3.11/zinc-0.3.11.tgz
  • spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz的生成
[hadoop@zhangyu spark-2.2.0]$ ll
在該目錄下會生成:
-rw-rw-r--.  1 hadoop hadoop 198982482 Jan 22 18:50 spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz

該目錄的由來:我們可以檢視make-distribution.sh檔案中可以檢視如下的指令碼命令

生成的目標檔案由來:
if [ "$MAKE_TGZ" == "true" ]; then
  TARDIR_NAME=spark-$VERSION-bin-$NAME
  TARDIR="$SPARK_HOME/$TARDIR_NAME"
  rm -rf "$TARDIR"
  cp -r "$DISTDIR" "$TARDIR"
  tar czf "spark-$VERSION-bin-$NAME.tgz" -C "$SPARK_HOME" "$TARDIR_NAME"
  rm -rf "$TARDIR"
fi
  • 解壓
[hadoop@zhangyu software]$ sudo tar -zxvf spark-2.2.0-bin-2.6.0-cdh5.7.0.tgz

5 Spark安裝包目錄結構說明

  1. bin:存放客戶端相關的指令碼
  2. conf:存放配置檔案
  3. data:存放測試資料
  4. examples:Spark自帶的測試用例,裡面有很多好的例子**
  5. jars:存放Spark相關的jar包(最佳實踐)
  6. sbin:存放服務端相關的指令碼,啟動停止叢集。。。
  7. yarn:存放yarn相關的jar包

相關推薦

Spark 2.2.0下載安裝原始碼編譯

1.官網 2.下載地址 3.所需環境 jdk1.8+ 參考地址 maven3.3.9 參考地址,下載maven後進行環境變數的設定,設定maven的記憶體使用,在環境變數中加入如下命令

Git下載安裝原始碼拷貝

Git是一款免費、開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的專案,是一個開源的分散式版本控制系統,用以有效、高速的處理從很小到非常大的專案版本管理。 大概介紹就到這,我所知道

VTK學習筆記1—VTK安裝原始碼編譯(Winxp + VS2010 + CMake2.8.6 + VTK5.8)

為了安裝編譯VTK,在網上找了一些相關資料作為參考,在原始碼編譯過程中也遇到了一些問題,後解決,現在將筆記整理如下: Winxp + VS2010 + CMake2.8.6 + VTK5.8 1、準備:     1)下載安裝Vs2010     2)下載安裝CMake2.8

JDK下載安裝配置最新10.0.2

目錄 二、安裝 三、配置 四、測試 一、下載JDK10.0.2 我的系統是windows10 下載安裝最新版本的JDK,有些說舊版本如何如何,建議還是最新的,相較於舊版本肯定有所提升 我所對應的就是最後一個,首先點選上面的Accept Lic

<小田吃餃子> LINUX:Contos7.0 / 7.2 LAMP+R 下載安裝Php篇

ssl itl 搭建 hle file 使用 mcr not soc 更新時間:2017-09-21 16:03 簡介 LAMP+R指Linux+Apache+Mysql+PHP+Redis是一組常用來搭建動態網站或者服務器的開源軟件,本身都是各自獨立的程序,但是因為常

<小田吃餃子> LINUX:Contos7.0 / 7.2 LAMP+R 下載安裝Redis篇

php+redis pac apache ron 在一起 tor blank amp .cn 更新時間:2017-09-21 15:38 簡介 LAMP+R指Linux+Apache+Mysql+PHP+Redis是一組常用來搭建動態網站或者服務器的開源軟件,本身都是各自獨

centos7.2下caffe的安裝編譯

libtool centos log 安裝 blog c-c++ yum atl sna 1、前期準備 安裝依賴 sudo yum install protobuf-devel leveldb-devel snappy-devel opencv-devel boost-

虛擬機VMware-workstation-15.0.0-10134415下載安裝密鑰

cubemap 采樣 方法 虛擬機vm 右鍵 用戶體驗 內存 虛擬 ade 新增功能 Workstation 15 Pro 中新增了以下支持: 支持新的客戶機操作系統 Windows 10 1803 Ubuntu 18.04 Fedora 28 RH

libusb-win32-bin-1.2.6.0驅動安裝方法

本驅動是Windows系統下(包含主流的Windows XP, Windows7)下的驅動,官方網址為,http://sourceforge.net/apps/trac/libusb-win32/wiki,裡面可以找到libusb-win32的介紹,在該網頁找到download,進入http://s

tengine-2.1.0安裝編譯過程

目錄 1 先上傳壓縮包 2 解壓縮 tar -xf不看過程,tar -zxvf有詳細過程 3 檢視安裝步驟 3.1 cd tengine-2.1.0進入解壓後的資料夾 3.2  ls 發現README.txt檔案 3.3 vi README 4 按照上

PHP入門(2)WampServer的安裝使用

安裝 一直點選next即可。 如何檢驗環境配置成功 (1)開啟WampServer,會有一個cmd視窗一閃而過。 (2)桌面右下角工作列中WampServer圖示變為綠色,若一直為橙色或紅色則表示服務沒有完全開啟。 (3)左鍵單擊右下角工作列中WampServer圖示,單擊Lo

spark-2.2.0-bin-2.6.0-cdh5.12.1.tgz 編譯方法總結!

菜雞一隻,如果有說錯的地方,還請見諒和指出批評!! 事情是這樣的,想在自己本地部署一個hadoop2.6.0-cdh5.12.1,hive1.1.0-cdh5.12.1,spark-2.2.0-bin-2.6.0-cdh5.12.1的環境,前兩個還是很好找到哪裡下載和部署的! c

Hive 2.1.0叢集安裝

Hive 2.1.0叢集安裝 1.配置伺服器 1個主節點:master(192.168.20.191),2個(從)子節點, node1(192.168.20.192), node2(192.168.20.193) 2.將jdbc的jar包放到$HIVE_HOME下 cd

webstorm 2018.2.5的下載安裝

一、 官網下載: https://www.jetbrains.com/webstorm/download/download-thanks.html?platform=windows 二、 安裝流程: create desktop shortcuts: 64-bit lauch

Linux下Elasticsearch-2.4.0安裝與簡單配置(單節點)

下載地址: 傳到伺服器 ftp工具或者 rz指令,解壓檔案: tar -zxvf elasticsearch-2.4.0.tar.gz 建立使用者及授權 sudo useradd elsearch chown -R elsearch:elsearch /us

hadoop2.2支援snappy壓縮安裝配置

由於我們的生產環境沒有root使用者使用許可權,且為了不在所有主機上安裝一些依賴外掛,因此我啟用了使用hadoop native本地庫,即在core-site.xml中配置了: <property>        

Bullet3-2.87在Ubuntu16.04下原始碼編譯安裝

編譯安裝Bullet3-2.87 安裝過程其實很簡單,有多重原始碼安裝方法,這裡提供兩種: 方法1: cd bullet3-2.87 mkdir build && cd build cmake .. make sudo make ins

QT 5.3.2+OpenCV3.0安裝與配置

QT 5.3.2+OpenCV3.0的安裝與配置 (win8 64 bit + OpenCV3.0 + minGW32)  原文連結:http://blog.163.com/nuc_baixu/blog/static/25124607820159149235731/

Ubuntu Server 16.04.2 LTS英文版的安裝搭建最新LAMP環境

自己想搭建個Owncloud的私有云,本人純小白,專業用語不一定標準,但整體流程都是實際操作下來,有不足往指正。 參考: Ubuntu 16.04 Server Edition 英文版安裝教程 Ubuntu16.04下搭建最新LAMP環境 系統選用的是[

A10 負載均衡模擬器下載安裝license免費激活詳細介紹

負載均衡 f5 a10 模擬器下載 A10 Networks官網免費提供Vthunder模擬器下載,並免費提供30天、5Mbps吞吐全功能模塊的License;獲取方法如下:1、首先,登錄A10 Networks官網,提交Vthunder模擬下載申請,申請地址:https://glm.a10n