Hadoop 分散式配置及Spark on yarn部署

阿新 • • 發佈：2019-01-12

配置Hadoop

Hadoop的叢集部署模式需要修改Hadoop資料夾中/etc/hadoop/中的配置檔案，更多設定項可見官方說明，這裡只設置了常見的設定項：hadoop-env.sh，yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。

在hadoop-env.sh中配置JAVA_HOME

# The java implementation to use.
export JAVA_HOME=/usr/local/jdk1.7

yarn-env.sh中配置JAVA_HOME

# some Java parameters
export JAVA_HOME 
=/usr/local/jdk1.7

core-site.xml為全域性配置檔案，修改core-site.xml

<configuration>
<property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description 
>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>
<property>
    <name>dfs.http.address</name>
    <value>50070</value>
</property>
</configuration>

hdfs-site.xml為HDFS的配置檔案，修改hdfs-site.xml

<configuration>
  <property>
    <name>dfs.namenode.secondary.http-address</name> 
    <value>master:50090</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/home/hadoop/tmp/dfs/name</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/home/hadoop/tmp/dfs/data</value>
  </property>
  <property>
     <name>dfs.permissions</name>
     <value>false</value>
   </property>
</configuration>

mapred-site.xml為MapReduce的配置檔案，修改mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml為YARN資源管理器的配置檔案，修改yarn-site.xml

<configuration>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
</configuration>

slaves檔案配置從節點，配置slaves
```
slave1
slave2
```

將配置好的Hadoop資料夾分發給slaves

scp -r /opt/hadoop-2.6.0 [email protected]:/opt/
scp -r /opt/hadoop-2.6.0 [email protected]:/opt/

驗證Hadoop是否安裝成功

啟動Hadoop，只需要在master進行下列操作即可

cd /opt/hadoop-2.6.0                           #進入Hadoop目錄
sudo bin/hadoop namenode –format              #格式化namenode
sbin/start-dfs.sh                              #啟動HDFS
sbin/start-yarn.sh                             #啟動資源管理器

用jps檢視機器上的程序，是否包含以下的程序：

master上的程序：

11164 SecondaryNameNode
17405 Jps
10535 ResourceManager
10949 NameNode

slave上的程序：

2164 DataNode
6440 Jps
1979 NodeManager

進入Hadoop的Web管理頁面：http://master:50070/

注意：各個節點的時間一定要同步！！！！

六、Spark安裝

下載Spark

進入官方網站下載最新Spark，下載地址,這裡我下載的是spark-1.6.1-bin-hadoop2.6.tgz，能夠在Hadoop2.6及更高版本上執行。
下載後，進行解壓

sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /opt/
sudo mv spark-1.6.1-bin-hadoop2.6/ spark-1.6.1 #重新命名檔案

配置Spark

cd /opt/spark-1.6.1/conf/
cp spark-env.sh.template spark-env.sh
sudo vi spark-env.sh

在Spark-env.sh檔案尾部新增以下配置：

export JAVA_HOME=/usr/local/jdk1.7   #Java環境變數
export SCALA_HOME=/usr/local/scala-2.10.6 #SCALA環境變數
export SPARK_WORKING_MEMORY=1g  #每一個worker節點上可用的最大記憶體
export SPARK_MASTER_IP=master   #驅動器節點IP
export HADOOP_HOME=/opt/hadoop  #Hadoop路徑
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop #Hadoop配置目錄

配置slave主機

$ cp slaves.template slaves
$ sudo vim slaves

新增slave主機

slave1
slave2

將配置好的Spark分發給所有的slave

scp -r /opt/spark-1.6.1 [email protected]:~/opt/

驗證Spark是否安裝成功

使用下面的命令，執行Spark

sbin/start-all.sh

用jps檢視機器上的程序，是否包含以下的程序：
master上的程序：

slave上的程序：

進入Spark的Web管理頁面：http://master:8080

執行簡單示例

當需要執行Spark終端，必須將Spark的bin目錄加入到系統路徑。

export SPARK_HOME=/opt/spark-1.6.1
export PATH=$PATH:${SPARK_HOM}/bin

新增Spark的bin目錄路徑後，執行

spark-shell

檢視是否出現歡迎介面，並可以執行scala指令碼

Hadoop 分散式配置及Spark on yarn部署

配置Hadoop Hadoop的叢集部署模式需要修改Hadoop資料夾中/etc/hadoop/中的配置檔案，更多設定項可見官方說明，這裡只設置了常見的設定項：hadoop-env.sh，yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.

大資料之Spark（八）--- Spark閉包處理，Spark的應用的部署模式，Spark叢集的模式，啟動Spark On Yarn模式，Spark的高可用配置

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,fun

Spark的分散式執行模式 Local，Standalone, Spark on Mesos, Spark on Yarn, Kubernetes

Spark的分散式執行模式 Local，Standalone, Spark on Mesos, Spark on Yarn, Kubernetes Local模式 Standalone模式 Spark on Mesos模式 Spark on Yarn

Spark on Yarn 檢視日誌及狀態的命令

1、檢視某個job的日誌 yarn logs -applicationId application_1515118561637_0439 2、檢視某個job的狀態 yarn application -

Spark on Yarn：任務提交引數配置

當在YARN上執行Spark作業，每個Spark executor作為一個YARN容器執行。Spark可以使得多個Tasks在同一個容器裡面執行。以下引數配置為例子 spark-submit --master yarn-cluster / yarn-client　

首頁 Hadoop Spark Hive Kafka Flume 大資料平臺 Kylin 專題文章 Spark運算元一起學Hive Hive儲存過程 Hive分析函式 Spark On Yarn 資料

關鍵字: orc、index、row group index、bloom filter index之前的文章《更高的壓縮比，更好的效能–使用ORC檔案格式優化Hive》中介紹了Hive的ORC檔案格式，它不但有著很高的壓縮比，節省儲存和計算資源之外，還通過一個內建的輕量級索引

部署zeppelin時遇到的spark on yarn的submit方式問題

部署zeppelin時候遇到的一個跟spark submit application模式相關的問題具體stacktrace 列印如下: org.apache.spark.SparkException: Detected yarn-cluster mod

spark on yarn執行產生缺jar包錯誤及解決辦法

1、本地執行出錯及解決辦法當執行如下命令時： ./bin/spark-submit \ --class org.apache.spark.examples.mllib.JavaALS \ --master local[*] \ /opt/cloudera/p

Spark on YARN模式的安裝（spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz）（master、slave1和slave2）（博主推薦）

說白了　　Spark on YARN模式的安裝，它是非常的簡單，只需要下載編譯好Spark安裝包，在一臺帶有Hadoop YARN客戶端的的機器上執行即可。　　Spark on YARN分為兩種： YARN cluster（YARN standalone，0.9版本以前）和 YA

Spark on Yarn解密及執行流程

一、Hadoop Yarn解析 1，Yarn是Hadoop推出整個分散式（大資料）叢集的資源管理器，負責資源的管理和分配，基於Yarn我們可以在同一個大資料叢集上同時執行多個計算框架，例如Spark、MapReduce、Storm等； 2，Yarn基本工作

Spark On Yarn 詳細配置流程

1、系統與軟體準備系統：centos7軟體： hadoop-2.7.2.tar.gz，請勿選擇src版本，否則需要自行編譯 jdk-7u79-linux-x64.tar.gz scala-2.10.3.tgz spark-1.6.1-bin-hadoop2.6.t

Spark on Yarn遇到的幾個問題及解決思路

1 概述 Spark on Yarn模式，其資源分配是交給Yarn的ResourceManager來進行管理的，但是目前的Spark版本，Application日誌的檢視，只能通過Yarn的yarn logs命令實現。在部署和執行Spark Applica

自己的HADOOP平臺（三）：Mysql+hive遠端模式+Spark on Yarn

Spark和hive配置較為簡單，為了方便Spark對資料的使用與測試，因此在搭建Spark on Yarn模式的同時，也把Mysql + Hive一起搭建完成，並且配置Hive對Spark的支援，讓Spark也能像Hive一樣操作資料。前期準備

Spark on Yarn遇到的幾個問題

添加 shuffle tasks pil 生產當前 lis file 被拒 1 概述 Spark的on Yarn模式。其資源分配是交給Yarn的ResourceManager來進行管理的。可是眼下的Spark版本號，Application日誌的查看，僅僅

從hadoop一路配置到spark

scala fault pub address linux pla 日誌 efi 端口號安裝 jdk-8u131-linux-x64.gz scala-2.11.8.tgz hadoop-2.7.3.tar.gz spark-2.1.1-bin-had

Spark on yarn的兩種模式 yarn-cluster 和 yarn-client

然而技術負責 blog 作業 mage 申請 .com contain 從深層次的含義講，yarn-cluster和yarn-client模式的區別其實就是Application Master進程的區別，yarn-cluster模式下，driver運行在AM(Appli

spark on yarn詳解

.sh 提交 cut com blog sta clu ... client模式 1、參考文檔： spark-1.3.0：http://spark.apache.org/docs/1.3.0/running-on-yarn.html spark-1.6.0：http://s

Spark記錄-Spark on Yarn框架

ive 變量進程 app shuf backend 性能操作 spi 一、客戶端進行操作 1、根據yarnConf來初始化yarnClient，並啟動yarnClient2、創建客戶端Application，並獲取Application的ID，進一步判斷集群中的資源是

基礎概念之 Spark on Yarn

資源兩個 htm 底層兩種 nta 一起 () 所在先拋出問題：Spark on Yarn有cluster和client兩種模式，它們有什麽區別？用Jupyter寫Spark時，只能使用client模式，為什麽？寫一篇文章，搞清楚 Spark on Yarn 的運

Spark-on-YARN

stdout 資源 val running apach add cin 一般來說 mysq 1.官方文檔 http://spark.apache.org/docs/latest/running-on-yarn.html 2.配置安裝 1.安裝hadoop：需要安

Hadoop 分散式配置及Spark on yarn部署

配置Hadoop

驗證Hadoop是否安裝成功

六、Spark安裝

下載Spark

配置Spark

驗證Spark是否安裝成功

使用下面的命令，執行Spark

執行簡單示例

當需要執行Spark終端，必須將Spark的bin目錄加入到系統路徑。

相關推薦