hadoop-2.3.0-cdh5.1.0完全分散式搭建（基於centos）

阿新 • • 發佈：2019-01-29

注：本例使用root使用者搭建

`一、環境`

作業系統：CentOS 6.564位作業系統

注：Hadoop2.0以上採用的是jdk環境是1.7,Linux自帶的jdk解除安裝掉，重新安裝

下載地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html

軟體版本：hadoop-2.3.0-cdh5.1.0.tar.gz, zookeeper-3.4.5-cdh5.1.0.tar.gz

下載地址：http://archive.cloudera.com/cdh5/cdh/5/

c1:192.168.58.11

c2:192.168.58.12

c3:192.168.58.13

二、安裝JDK（略）見上面的參考文章

三、配置環境變數（配置jdk和hadoop的環境變數）

四、系統配置

1關閉防火牆

chkconfig iptables off(永久性關閉)

配置主機名和hosts檔案

2、SSH無密碼驗證配置

因為Hadoop執行過程需要遠端管理Hadoop的守護程序，NameNode節點需要通過SSH（Secure Shell）連結各個DataNode節點，停止或啟動他們的程序，所以SSH必須是沒有密碼的，所以我們要把NameNode節點和DataNode節點配製成無祕密通訊，同理DataNode也需要配置無密碼連結NameNode節點。

在每一臺機器上配置：

vi /etc/ssh/sshd_config開啟

RSAAuthentication yes # 啟用 RSA 認證，PubkeyAuthentication yes # 啟用公鑰私鑰配對認證方式

Master01:執行：ssh-keygen –t rsa –P ''不輸入密碼直接enter

預設存放在／root／.ssh目錄下,

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

[[email protected].ssh]# ls

authorized_keys id_rsa id_rsa.pub known_hosts

遠端copy: scpauthorized_keys c2:~/.ssh/ scpauthorized_keys c3:~/.ssh/

五、配置幾個檔案（各個節點一樣）

5.1. hadoop/`etc/hadoop/hadoop-env.sh 新增：`

# set to the root ofyour Java installation  
  export JAVA_HOME=/usr/java/latest  
   
  # Assuming your installation directory is/usr/local/hadoop  
  export HADOOP_PREFIX=/usr/local/hadoop

5.2. etc/hadoop/core-site.xml

<configuration>  
    <property>  
         <name>fs.defaultFS</name>  
         <value>hdfs://c1:9000</value>  
    </property>
     <property>
     <name>hadoop.tmp.dir</name>
     <value>/usr/local/cdh/hadoop/data/tmp</value>
   </property>  
</configuration>

5.3. etc/hadoop/hdfs-site.xml

<configuration>   
 <property>   
    <!--開啟web hdfs-->   
    <name>dfs.webhdfs.enabled</name>   
    <value>true</value>   
 </property>  
 <property>   
   <name>dfs.replication</name>   
   <value>2</value>   
 </property>  
 <property>   
    <name>dfs.namenode.name.dir</name>   
    <value>/usr/local/cdh/hadoop/data/dfs/name</value>   
    <description> namenode 存放name table(fsimage)本地目錄（需要修改）</description>   
 </property>   
 <property>   
     <name>dfs.namenode.edits.dir</name>   
     <value>${dfs.namenode.name.dir}</value>   
     <description>namenode粗放 transactionfile(edits)本地目錄（需要修改）</description>   
  </property>   
  <property>   
      <name>dfs.datanode.data.dir</name>   
      <value>/usr/local/cdh/hadoop/data/dfs/data</value>   
      <description>datanode存放block本地目錄（需要修改）</description>   
  </property>
  <property>
     <name>dfs.permissions</name>
     <value>false</value>
   </property> 
<property>
     <name>dfs.permissions.enabled</name>
     <value>false</value>
</property>
</configuration>

5.4 etc/hadoop/mapred-site.xml

<configuration>  
    <property>  
        <name>mapreduce.framework.name</name>  
        <value>yarn</value>  
    </property>  
</configuration>

5.5 etc/hadoop/yarn-env.sh

# some Java parameters
export JAVA_HOME=/usr/local/java/jdk1.7.0_67

5.6 etc/hadoop/yarn-site.xml

<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>c1:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>c1:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>c1:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>c1:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>c1:8088</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
   <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property> 
</configuration>

5.7. etc/hadoop/slaves

c2
c3

六：啟動及驗證安裝是否成功

格式化：要先格式化HDFS:

bin/hdfs namenode -format

啟動：

  sbin/start-dfs.sh

  sbin/start-yarn.sh

[[email protected] hadoop]# jps
3250 Jps
2491 ResourceManager
2343 SecondaryNameNode
2170 NameNode

datanode節點：

[[email protected] ~]# jps
4196 Jps
2061 DataNode
2153 NodeManager

1. 開啟瀏覽器
NameNode - http://localhost:50070/
2. 建立資料夾
3.$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>
4. Copy 檔案
$ bin/hdfs dfs -put etc/hadoop input
5. 執行作業
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0-cdh5.1.0.jar grep input output 'dfs[a-z.]+'
6. 檢視輸出
$ bin/hdfs dfs -get output output
$ cat output/*

hadoop-2.3.0-cdh5.1.0完全分散式搭建（基於centos）

注：本例使用root使用者搭建一、環境作業系統：CentOS 6.564位作業系統注：Hadoop2.0以上採用的是jdk環境是1.7,Linux自帶的jdk解除安裝掉，重新安裝

Android6.0動態許可權獲取框架：RxPermission（基於RxJava2）

首先在build.gradle中新增依賴庫 rxjava和retrofit： compile 'io.reactivex.rxjava2:rxjava:2.x.y' compile 'io.reactivex.rxjava2:rxandroid:2.0.

hadoop 偽分散式搭建（包括centos連線xshell）

1.準備Linux環境（配置nat方式連線xshell）在VM的虛擬網路介面卡中配置VM8，如圖： centos裡配置：vim /etc/sysconfig/network-scripts/ifcfg-ens33 DEVICE="eth0" BOOTPROTO="static" ##

Hadoop 2.3.0-cdh5.0.2升級Hadoop 2.5.0-cdh5.3.1

一、準備升級包 for line in `cat /home/hadoop/platform/hadoop.list|awk '{print $1}'`; do echo $line;ssh $line "/bin/mkdir /home/hadoop/platform"

Spark 2.3.2原始碼編譯，支援hadoop-2.6.0-cdh5.15.0

前置準備&軟體安裝 spark2.3.2原始碼官方Apache下載地址： http://spark.apache.org/downloads.html 編譯spark原始碼的官方Apache參考文件 http://spark.apache.org/docs/2.3.2/b

使用Hbase協作器(Coprocessor)同步資料到ElasticSearch（hbase 版本 1.2.0-cdh5.8.0, es 2.4.0 版本）

參考 https://gitee.com/eminem89/Hbase-Observer-ElasticSearch 上面的程式碼，但是由於我的es版本是2.4.0 和作者的版本不對應導致功能無法正常使用，所以特此記錄修改成能參考程式碼如

Mac 安裝Hadoop-2.6.0-cdh5.7.0偽分散式

下載Hadoop-2.6.0-cdh5.7.0 單機下載自己需要的版本，我下載的是hadoop-2.6.0-cdh5.7.0 一. 解壓 tar -zxvf hadoop-2.6.0-cdh5.7.0.

hadoop-2.6.0-cdh5.7.0偽分散式搭建

1，這個我們是直接在linux中下載hadoop-2.6.0-cdh5.7.0，（當然你也可以在本地下載後再上傳，這步就可以忽略）首先確保你的虛擬機器有網路，可以先ping百度測試有網沒，如下程式碼就是有網路的情況。 [[email protected

[Hadoop] CentOS7 安裝flume-ng-1.6.0-cdh5.7.0

1. Flume 安裝部署根據官方文件描述，市面上的Flume主流版本有兩個：0.9.x and 1.x。這兩個版本差異非常非常大，舊版本已經被淘汰了，要用的話就使用新版本。當然本文中既定版本為cd

安裝impala報錯python-setuptools is needed by impala-kudu-shell-2.7.0+cdh5.9.0+0-1.cdh5.9.0.p0.11.el7.x86

安裝impala的rpm -ivh impala-kudu-shell-2.7.0+cdh5.9.0+0-1.cdh5.9.0.p0.11.el7.x86_64.rpm報錯 [[email protected] soft]# rpm -ivh impala-ku

centos下hadoop-2.6.0完全分散式搭建

一、Hadoop執行模式： Hadoop有三種執行模式，分別如下：單機(非分散式)模式偽分散式(用不同程序模仿分散式執行中的各類節點)模式完全分散式模式注：前兩種可以在單機執行，最後一種用於真

hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的叢集搭建（單節點）（Ubuntu系統）

前言關於幾個疑問和幾處心得！ a.用NAT，還是橋接，還是only-host模式？ b.用static的ip，還是dhcp的？答：static c.別認為快照和克隆不重要，小技巧，比別人靈活用，會很節省時間和大大減少錯誤。 d.重用起來指令碼語言的程式設計，如paython

hadoop-2.6.0.tar.gz + spark-1.6.1-bin-hadoop2.6.tgz的叢集搭建（單節點）（CentOS系統）

前言關於幾個疑問和幾處心得！ a.用NAT，還是橋接，還是only-host模式？ b.用static的ip，還是dhcp的？答：static c.別認為快照和克隆不重要，小技巧，比別人靈活用，會很節省時間和大大減少錯誤。 d.重用起來指令碼語言

Spark 2.2原始碼編譯 & 支援hadoop-2.6.0-cdh5.7.0

JDK & Maven & Scala & Git軟體安裝 & 前置準備編譯Spark原始碼的前置要求： Maven 3.3.9 or newer Java 8+ Scala Git(後文會通過分析make-d

Spark-2.1.0-hadooop-2.6.0-cdh5.7.0原始碼編譯

目前 Spark 編譯指令碼已經將Maven 整合進來了，以方便編譯以及部署。這個指令碼將會在它本地 build/ 編譯目錄自動下載和安裝所有編譯過程中所必需的( Maven，Scala 和 Zinc )。可以手動修改dev/make-distribution

Hadoop 2.7.4 + HBase 1.2.6 + ZooKeeper 3.4.10

配置文件 title 2.6 ase keep itl 配置 oop hadoop 1: Hadoop 環境準備 2: hadoop的配置文件設置(非HA) 3: ZooKeeper 安裝與配置Hadoop 2.7.4 + HBase 1.2.6 + ZooKeeper 3

Git系統從0到1的完整學習歷程（第四節(3) Git分支管理）

主要跟著https://gitee.com/progit/index.html來學習的，知識點來自這裡，新增自己的理解和標記。檢視分支 git branch 命令不僅僅能建立和刪除分支，如果不加任何引數，它會給出當前所有分支的清單： $ git branch is

Git系統從0到1的完整學習歷程（第四節(2) Git分支操作）

主要跟著https://gitee.com/progit/index.html來學習的，知識點來自這裡，新增自己的理解和標記。分支的新建與合併現在讓我們來看一個簡單的分支與合併的例子，實際工作中大體也會用到這樣的工作流程：開發某個網站。為實現某個新的需求，建立一個

使用lifecycle時，1.0.0和1.0.3問題解決方法

將appcompat版本號改為27.0.2就行 implementation 'com.android.support:appcompat-v7:26.1.0' 我lifecycle修改後如下

編譯打包spark-1.6.0-cdh5.11.0-src詳細過程及問題記錄

簡介要深入學習spark，閱讀原始碼，修改原始碼，學會自己編譯打包spark是必須邁過的一道坎。折騰了兩天，先後編譯打包了spark-1.6.0-cdh5.11.0-src，spark-1.6.0-cdh5.13.0-src版本，現在記錄過程，及遇到的問題如下。環境

hadoop-2.3.0-cdh5.1.0完全分散式搭建（基於centos）

一、環境

二、安裝JDK（略）見上面的參考文章

三、配置環境變數 （配置jdk和hadoop的環境變數）

四、系統配置

五、配置幾個檔案（各個節點一樣）

5.1. hadoop/etc/hadoop/hadoop-env.sh 新增：

5.2. etc/hadoop/core-site.xml

5.7. etc/hadoop/slaves

六：啟動及驗證安裝是否成功

相關推薦

`一、環境`

三、配置環境變數（配置jdk和hadoop的環境變數）

5.1. hadoop/`etc/hadoop/hadoop-env.sh 新增：`