使用docker安裝Hadoop和Spark

阿新 • • 發佈：2018-12-19

使用docker配置安裝hadoop和spark

分別安裝hadoop和spark映象

安裝hadoop映象

選擇的docker映象地址，這個映象提供的hadoop版本比較新，且安裝的是jdk8，可以支援安裝最新版本的spark。

docker pull uhopper/hadoop:2.8.1

安裝spark映象

如果對spark版本要求不是很高，可以直接拉取別人的映象，若要求新版本，則需要對dockerfile進行配置。

環境準備

下載sequenceiq/spark映象構建原始碼

git clone https://github.com/sequenceiq/docker-spark

將下載的檔案需要放到docker-spark目錄下
檢視本地image，確保已經安裝了hadoop
進入docker-spark目錄，確認所有用於映象構建的檔案已經準備好

修改配置檔案

修改Dockerfile為以下內容

FROM sequenceiq/hadoop-docker:2.7.0
MAINTAINER scottdyt

#support for Hadoop 2.7.0
#RUN curl -s http://d3kbcqa49mib13.cloudfront.net/spark-1.6.1-bin-hadoop2.6.tgz | tar -xz -C /usr/local/
ADD spark-2.3.2-bin-hadoop2.7.tgz /usr/local/
RUN cd /usr/local && ln -s spark-2.3.2-bin-hadoop2.7 spark
ENV SPARK_HOME /usr/local/spark
RUN mkdir $SPARK_HOME/yarn-remote-client
ADD yarn-remote-client $SPARK_HOME/yarn-remote-client

RUN $BOOTSTRAP && $HADOOP_PREFIX/bin/hadoop dfsadmin -safemode leave && $HADOOP_PREFIX/bin/hdfs dfs -put $SPARK_HOME-2.3.2-bin-hadoop2.7/jars /spark && $HADOOP_PREFIX/bin/hdfs dfs -put $SPARK_HOME-2.3.2-bin-hadoop2.7/examples/jars /spark 


ENV YARN_CONF_DIR $HADOOP_PREFIX/etc/hadoop
ENV PATH $PATH:$SPARK_HOME/bin:$HADOOP_PREFIX/bin
# update boot script
COPY bootstrap.sh /etc/bootstrap.sh
RUN chown root.root /etc/bootstrap.sh
RUN chmod 700 /etc/bootstrap.sh

#install R 
RUN rpm -ivh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
RUN yum -y install R

ENTRYPOINT ["/etc/bootstrap.sh"]

修改bootstrap.sh為以下內容

#!/bin/bash

: ${HADOOP_PREFIX:=/usr/local/hadoop}

$HADOOP_PREFIX/etc/hadoop/hadoop-env.sh

rm /tmp/*.pid

# installing libraries if any - (resource urls added comma separated to the ACP system variable)
cd $HADOOP_PREFIX/share/hadoop/common ; for cp in ${ACP//,/ }; do  echo == $cp; curl -LO $cp 
 ; done; cd -

# altering the core-site configuration
sed s/HOSTNAME/$HOSTNAME/ /usr/local/hadoop/etc/hadoop/core-site.xml.template > /usr/local/hadoop/etc/hadoop/core-site.xml

# setting spark defaults
echo spark.yarn.jar hdfs:///spark/* > $SPARK_HOME/conf/spark-defaults.conf
cp $SPARK_HOME/conf/metrics.properties.template $SPARK_HOME/conf/metrics.properties

service sshd start
$HADOOP_PREFIX/sbin/start-dfs.sh
$HADOOP_PREFIX/sbin/start-yarn.sh



CMD=${1:-"exit 0"}
if [[ "$CMD" == "-d" ]];
then
	service sshd stop
	/usr/sbin/sshd -D -d
else
	/bin/bash -c "$*"
fi

構建映象

docker build --rm -t scottdyt/spark:2.3.2 .

Screen Shot 2018-10-30 at 10.58.21 AM

檢視映象

Screen Shot 2018-10-30 at 12.06.19 PM

啟動一個spark2.3.1容器

docker run -it -p 8088:8088 -p 8042:8042 -p 4040:4040 -h sandbox scottdyt/spark:2.3.2 bash

啟動成功：

Screen Shot 2018-10-30 at 12.10.59 PM

安裝spark-hadoop映象

如果想偷懶一點，直接安裝裝好spark和hadoop的映象，映象地址在這裡。

或者直接在終端輸入：

docker pull uhopper/hadoop-spark:2.1.2_2.8.1

安裝完成：

參考

使用docker安裝Hadoop和Spark

使用docker配置安裝hadoop和spark 分別安裝hadoop和spark映象安裝hadoop映象選擇的docker映象地址，這個映象提供的hadoop版本比較新，且安裝的是jdk8，可以

Docker下安裝Hadoop和Spark叢集

Docker下Spark分散式叢集搭建本教程使用docker模擬3臺主機搭建分散式Spark叢集，屬於偽分散式： 1、Docker安裝 2、下載已經配置好的Spark叢集映象檔案 3、新建3個容器，分別命名為cloud8，cloud9，cloud10 4

安裝hadoop和配置hadoop，啟動namenode和設置免密登錄的詳細解析！

啟動namenode和hadoop的配置首先安裝hadoop要安裝好java的開發環境，配置好jdk其實創建一個hadoop的用戶cd到這個用戶的目錄下創建一個apps的目錄。以後所有的東西都解壓進入apps解壓後的目錄中的文件如下這裏lib是本地的庫！bin是自己的操作命令，sbin是啟動命令！etc是配置

Docker安裝Hadoop

info commit html 後臺活動 exe 兩個包括 root 一、概述形成了安裝有vim、jdk、ssh的centos鏡像，現在我們在這個的基礎上繼續搭建haoop。在正式開始前，了解一些docker容器的操作命令 docker ps：查看活動的容

青銅到王者，掌握這七種Hadoop和Spark項目提升一個大段位

docker容器 break pytho baseline 例子目的創建包括 LV 如果您的Hadoop項目將有新的突破，那麽它必定與下邊介紹的七種常見項目很相像。有一句古老的格言是這樣說的，如果你向某人提供你的全部支持和金融支持去做一些不同的和創新的事情，他們最終卻

hadoop和spark的區別介紹

比較網站 img alt 分布式叠代恢復 TE 好的學習hadoop已經有很長一段時間了，好像是二三月份的時候朋友給了一個國產Hadoop發行版下載地址，因為還是在學習階段就下載了一個三節點的學習版玩一下。在研究、學習hadoop的朋友可以去找一下看看（發行版大快

【Docker系列】認識ELK,docker安裝ELK和IK分詞器

1.ELK簡介 ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat，它是一個輕量級的日誌收集處理工具(Agent)，Filebeat佔用資源少，適合於在各個伺服器上搜集日誌後傳輸給Logstash，官方也推

兄臺別走，帶您去看Hadoop和Spark的不同！！！

一、Spark它主要包含以下幾個方面： Spark Core – 用於通用分散式資料處理的引擎。它不依賴於任何其他元件，可以執行在任何商用伺服器叢集上。 Spark Sql – 執行在Spark上的SQL查詢語句，支援一系列SQL函式和HiveQL。但是還不是很成熟，所以不要在生產系統中使用

Hadoop和Spark聯絡與區別

轉自：https://blog.csdn.net/vaychen/article/details/83578527 博主講解很形象，建議hadoop,spark學完後在看一遍談到大資料，相信大家對Hadoop和Apache Spark這兩個名字並不陌生。

docker安裝kafka和zookeeper

1下載映象 docker pull wurstmeister/zookeeper docker pull wurstmeister/kafka 2啟動zookeeper容器 docker run -d --name zookeeper -p 2181

Hadoop和Spark之間有什麼區別，現工業界都在使用何種技術?

談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓的宣揚Hadoop將死，Spark將立。談到大資料，相信大家對hadoop和Apache Spark這兩個名字並不陌生。然而，最近業界有一些人正在大張旗鼓

大資料Hadoop和Spark有什麼區別？內附大資料Spark+Hadoop資料

其實這是兩種框架的區別，Hadoop框架比較側重離線大批量計算，而spark框架則側重於記憶體和實時計算。在這些基礎上，衍生出了一些常用的附屬元件，比如Hadoop生態下的HBASE、hive、HDFS等，HDFS可用於資料儲存，MR可用於分散式計算框架。同樣，在spark的基礎上也衍生出了很

ganglia學習1之ganglia叢集版搭建（支援hadoop和spark）

spark原始碼解讀系列環境：spark-1.5.2、hadoop-2.6.0、scala-2.10.4，ganglia-3.6.1 系統：ubuntu 14.04 1.理解 1.1 ganglia的概述 Ganglia是UC B

docker安裝jdk和tomcat

1.容器中安裝jdk 首先查詢可用的jdk版本 yum search java | grep jdk 安裝 yum install java-1.7.0-openjdk 安裝完成之後可以不用配置環境變數，因為安裝完成之後貌似是自動配置好了使用命令測試jdk是否

docker 安裝hadoop

上一篇文章介紹了一些docker的基本命令，這篇文章來安裝一個HADOOP 一、下載hadoop映象 @~/git/github/docker-ambari (master)$ docker pull sequenceiq/hadoop-docker:2.6.0 Pulling repository

Hadoop學習之Centos安裝Hadoop和配置

一、確保Centos配置過JDK二、解壓Hadoop（我是使用的虛擬機器，在官網上下載好了linux版本的之後，通過FTP傳到Home資料夾下的）三、配置Hadoop進入hadoop資料夾中的etc下修改配置檔案1》先修改 hadoop-env.sh 檔案將 export

秒懂Hadoop和Spark聯絡與區別

談到大資料，相信大家對Hadoop和Apache Spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上，並沒有對它們進行深入的思考，下面不妨跟我一塊看下它們究竟有什麼異同。解決問題的層面不一樣首先，Hadoop和Apache Spark兩者都是

Hadoop和Spark區別

1、Hadoop對資料進行儲存分析，spark基於記憶體，只進行分析：spark可以使用Hadoop的HDFS或者其它基於雲的資料平臺，一般使用HDFS，畢竟兩者的結合最好，Hadoop可以使用基於HDFS的hbase，能對資料進行修改刪除，HDFS只能追加和全表刪除 2、spark資料處理快於

centos7 docker 安裝hadoop 2.7.2記錄

docker常用命令：執行映象： <code>docker run -i -t centos /bin/bash</code> 提交映象： <code>docker commit 3a09b2588478 ubuntu:mynew

Hadoop和Spark分別實現二次排序

將下列資料中每個分割槽中的第一列順序排列，第二列倒序排列。 Text 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 2021 5051

使用docker安裝Hadoop和Spark

分別安裝hadoop和spark映象

安裝hadoop映象

安裝spark映象

環境準備

修改配置檔案

構建映象

檢視映象

安裝spark-hadoop映象

參考

相關推薦