hadoop集群配置和在windows系統上運用java操作hdfs

阿新 • • 發佈：2018-12-28

sdn 自帶 aux mkdir del 服務 services export rop

安裝
配置
概念
hadoop常用shell命令
使用java操作hadoop

本文介紹hadoop集群配置和在windows系統上運用java操作hdfs

安裝

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.1.1/

sudo apt-get install ssh
sudo apt-get install rsync

mkdir /usr/local/hadoop
tar -zxvf hadoop-3.1.1.tar.gz -C /usr/local/hadoop

sudo vim /etc/profile
export HADOOP_HOME=/usr/local/hadoop/hadoop-3.1.1
export PATH=.:${JAVA_HOME}/bin:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

hadoop version

配置

服務器

主機名配置
    hostname 查看主機名
    sudo vim /etc/hostname 修改主機名

    sudo vim /etc/hosts 添加如下配置
        192.168.76.128  master
        192.168.76.129  worker

    shutdown -r now 重啟電腦 

配置集群ssh免密登陸
    cd .ssh
    rm id_rsa id_rsa.pub
    ssh-keygen -t rsa
    進入master主機 cat id_rsa.pub >> authorized_keys
    進入worker主機 ssh-copy-id -i master
    進入master主機 chmod 600 authorized_keys
    進入master主機 scp /root/.ssh/authorized_keys worker:/root/.ssh/

cd /usr/local/hadoop/hadoop-3.1.1/

hadoop-env.sh

sudo vim etc/hadoop/hadoop-env.sh
添加如下配置
export JAVA_HOME=/usr/src/jdk-11.0.1

core-site.xml

sudo vim etc/hadoop/core-site.xml
<configuration>
    <!-- 配置NameNode -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
    </property>

    <!-- 配置數據目錄，用來存放文件 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoopdata</value> 
    </property>
</configuration>

hdfs-site.xml

sudo vim etc/hadoop/hdfs-site.xml
<configuration>
    <!-- 配置副本數量 -->
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

yarn-site.xml

sudo vim etc/hadoop/yarn-site.xml
添加如下配置
<configuration>

    <!--  配置管理者-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce-shuffle</value>
    </property>
</configuration>

mapred-site.xml

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
sudo vim etc/hadoop/mapred-site.xml
    添加如下配置
    <configuration>
        <!--  配置集群運行方式-->
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
        <property>
            <name>mapred.job.tracker</name>
            <value>master:9001</value>
        </property>
    </configuration>

start-dfs.sh

sudo vim sbin/start-dfs.sh
添加如下配置
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

stop-dfs.sh

sudo vim sbin/stop-dfs.sh
添加如下配置
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh

sudo vim sbin/start-yarn.sh
添加如下配置
YARN_RESOURCEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=yarn
YARN_NODEMANAGER_USER=root

stop-yarn.sh

添加如下配置
YARN_RESOURCEMANAGER_USER=root
HDFS_DATANODE_SECURE_USER=yarn
YARN_NODEMANAGER_USER=root

運行

進入master運行 hdfs namenode -format               # 格式化
進入master運行 hadoop-daemon.sh start namenode     # 開始文件系統
進入worker運行 hadoop-daemon.sh start datanode     # 開始文件系統
jps                                 # 查看啟動的namenode
netstat -ant                        # 查看50070端口是否建立連接

訪問 http://master:50070 即可看到管理界面

概念

hdfs集群 負責文件讀寫，namenode管理，datanode負責存儲

yarn集群 為mapreduce程序分配硬件資源，resourcemanager需要單獨放在另外一臺服務器,nodemanager部署在datanode上

hadoop常用shell命令

hadoop fs -ls /                     查看fdfs根目錄
hadoop fs -put file1.txt /          上傳文件到fdfs根目錄
hadoop fs -cat /file1.txt           查看文件內容
hadoop fs -mkdir -p /tests/test     創建文件夾

運行自帶的mapreduce程序 
cd /usr/local/hadoop/hadoop-2.9.2/share/hadoop/mapreduce
計算指定/tests/test文件夾下面文件的個數，並且將結果放在/test/count下
hadoop jar hadoop-mapreduce-examples-2.9.2.jar wordcount /tests/test /test/count

使用java操作hadoop

依賴

缺一不可
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>3.1.1</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>3.1.1</version>
</dependency>
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-hdfs</artifactId>
    <version>3.1.1</version>
</dependency>

在你當前操作系統中添加host信息

C:\WINDOWS\system32\drivers\etc\hosts 修改此文件
192.168.76.128  master
192.168.76.129  worker

上傳文件

Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://master:9000");
FileSystem fs = FileSystem.get(new URI("hdfs://master:9000"), conf, "root");
fs.copyFromLocalFile(new Path("F:/test.txt"),new Path("/"));

下載文件

下載文件需要當前操作系統也要有hadoop環境，關於windows系統裝hadoop環境的步驟如下
1. http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common 下載一個hadoop版本
2. http://download.csdn.net/detail/wuxun1997/9841472 下載windows需要的工具包
3. 解壓hadoop並且配置HADOOP_HOME環境變量，並且在PATH裏加上%HADOOP_HOME%\bin
4. 將工具包解壓的文件放置在hadoop文件夾的bin目錄中，並且將hadoop.dll放置於c:/windows/System32中即可

Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://master:9000");
FileSystem fs = FileSystem.get(new URI("hdfs://master:9000"), conf, "root");
fs.copyToLocalFile(new Path("/test.txt"), new Path("F:/"));

創建文件夾

Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://master:9000");
FileSystem fs = FileSystem.get(new URI("hdfs://master:9000"), conf, "root");
fs.mkdirs(new Path("/app/test"));

列出根目錄所有的文件

Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://master:9000");
FileSystem fs = FileSystem.get(new URI("hdfs://master:9000"), conf, "root");
RemoteIterator<LocatedFileStatus> iterator = fs.listFiles(new Path("/"), true);
while (iterator.hasNext()){
    LocatedFileStatus next = iterator.next();
    System.out.println(next.getPath());
}

列出根目錄所有的文件和文件夾

Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://master:9000");
FileSystem fs = FileSystem.get(new URI("hdfs://master:9000"), conf, "root");
FileStatus[] fileStatuses = fs.listStatus(new Path("/"));
for (int i = 0; i < fileStatuses.length; i++) {
    FileStatus fileStatus = fileStatuses[i];
    System.out.println(fileStatus.getPath());
}

刪除文件

Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://master:9000");
FileSystem fs = FileSystem.get(new URI("hdfs://master:9000"), conf, "root");
fs.delete(new Path("/test.txt"), true);

hadoop集群配置和在windows系統上運用java操作hdfs

sdn 自帶 aux mkdir del 服務 services export rop 安裝配置概念 hadoop常用shell命令使用java操作hadoop 本文介紹hadoop集群配置和在windows系統上運用java操作hdfs 安裝 http:

曙光集群配置和檢查內容

eboot power tar poweroff gre sta 普通用戶 name 服務狀態第一步：檢查node39 ypserv服務狀態[[email protected]/* */ ~]# /etc/init.d/ypserv statusypserv

Hadoop學習之路（四）Hadoop集群搭建和簡單應用

get allocated reduce plugins caching handle ces -h per 概念了解主從結構：在一個集群中，會有部分節點充當主服務器的角色，其他服務器都是從服務器的角色，當前這種架構模式叫做主從結構。主從結構分類： 1、一主多從

kafka集群配置和java編寫生產者消費者操作例子

tor http dep org create comm getname fig exp kafka 安裝修改配置文件 java操作kafka kafka kafka的操作相對來說簡單很多安裝下載kafka http://kafka.apache.org

在windows系統上部署java開發環境

JAVA部署步驟二：安裝過程中，將開發工具安裝位置，更改為d:\java\jdk。步驟三：新增環境變數：開始——>計算機右鍵——>屬性——>高階系統設定——>環境變數使用者變數 path = ...；d:\java\jdk\bin

python3.4在windows系統上使用xlwings操作Excel出現FullName錯誤解決方案

python語言雖好，也號稱跨平臺，由於python使用時，往往需要很多內褲，東一個西一個，就像犀利哥身上的衣服，打滿了補丁，常常遇到各種莫名其妙的八哥，很是令人頭疼。最近我需要用python操作excel，聽說xlwings可以通過python讓excel插上雙翼，據說比V

在windows系統上使用java程式碼在ffmpeg環境對音訊進行轉換wav,pcm,ogg

1.先裝一個ffmpeg環境，安裝方法請自行百度。2.建一個類FfmpegTestpublic class FfmpegTest { public static void main(String[]

win系統下的eclipse連接和使用linux上的hadoop集群

con rgb ip地址 content col 準備右擊 ack max 準備工作先在win系統的hosts文件中加入下面內容 10.61.6.164master //hadoop集群的master節點

在CentOS上安裝Hadoop集群（一）-- Centos系統配置

修改 AD vi命令分享圖片命令 wall eth0 host log 在CentOS上安裝Hadoop集群（一） 1、 Centos的系統配置 1.1打開終端方式：方式1:在桌面單擊右鍵，>>Open in terminal 方式2:Appl

Hadoop集群選擇合適的硬件配置

hadoop集群選擇合適的硬件配置為Hadoop集群選擇合適的硬件配置隨著Apache Hadoop的起步，雲客戶的增多面臨的首要問題就是如何為他們新的的Hadoop集群選擇合適的硬件。盡管Hadoop被設計為運行在行業標準的硬件上，提出一個理想的集群配置不想提供硬件規格列表那麽簡單。選擇硬件，為給定的負

debian下 Hadoop 1.0.4 集群配置及運行WordCount

速度虛擬裏的否則 ado 修改安裝包 name 節點說明：我用的是壓縮包安裝，不是安裝包官網安裝說明：http://hadoop.apache.org/docs/r1.1.2/cluster_setup.html，繁冗，看的眼花...大部分人應該都不是按照這個來

storm集群部署和配置過程詳解

多少帶來進程創建使用命令介紹 aml 可能 ---恢復內容開始--- 先整體介紹一下搭建storm集群的步驟：設置zookeeper集群安裝依賴到所有nimbus和worker節點下載並解壓storm發布版本到所有nimbus和worker節點配置s

使用HDFS客戶端java api讀取hadoop集群上的信息

tor ioe get tro names uri context add 集群配置本文介紹使用hdfs java api的配置方法。 1、先解決依賴，pom <dependency> <groupId>org.apach

Redis主從復制和集群配置

get 行數據 pattern 額外監控 redis-cli 客戶端輸入a stat redis主從復制概述 1、redis的復制功能是支持多個數據庫之間的數據同步。一類是主數據庫（master）一類是從數據庫（slave），主數據庫可以進行讀寫操作，當發生寫操作的時

zookeeper 集群安裝和配置

zookeeper一、單機模式1、解壓安裝mv zookeeper-3.4.6.tar.gz /wls/ && tar zxvf zookeeper-3.4.6.tar.gz cd /wls/zookeeper-3.4.6/conf && mv zoo_sample.cfg

Linux上安裝Hadoop集群(CentOS7+hadoop-2.8.0)

hup dem current 格式 default dmv framework server1 上進 1下載hadoop 2安裝3個虛擬機並實現ssh免密碼登錄 2.1安裝3個機器 2.2檢查機器名稱

Hadoop學習之路（五）Hadoop集群搭建模式和各模式問題

數據場景模式問題沒有問題：重裝故障 style 分布式集群的通用問題當前的HDFS和YARN都是一主多從的分布式架構，主從節點---管理者和工作者問題：如果主節點或是管理者宕機了。會出現什麽問題？群龍無首，整個集群不可用。所以在一主多從的架構中都會

在Windows系統上配置aria2

本地快捷 seed target windows har o-c ipv6 ase Aria2是一個命令行下運行、多協議、多來源下載工具（HTTP/HTTPS、FTP、BitTorrent、Metalink），並且支持迅雷離線以及百度雲等常用網盤的多線程下載（甚至可

3-3 Hadoop集群完全分布式配置部署

連接 repl lis pts 創建目錄啟動 ant window 主機 Hadoop集群完全分布式配置部署下面的部署步驟，除非說明是在哪個服務器上操作，否則默認為在所有服務器上都要操作。為了方便，使用root用戶。 1.準備工作 1.1 ce

Linux上安裝Hadoop集群(CentOS7+hadoop-2.8.0)--------hadoop環境的搭建

html -a 總結全分布式 .html oop details clas HR Linux上安裝Hadoop集群(CentOS7+hadoop-2.8.0)------https://blog.csdn.net/pucao_cug/article/details/716

hadoop集群配置和在windows系統上運用java操作hdfs

安裝

配置

概念

hadoop常用shell命令

使用java操作hadoop

相關推薦