偽分散式執行MapReduce（叢集配置，log日誌和namenode格式化，叢集操作）

阿新 • • 發佈：2018-11-15

叢集的啟動和配置

#1，進入/opt/module/hadoop-2.7.2/etc/hadoop目錄，配置hadoop-env.sh 
[[email protected] hadoop]$ vim hadoop-env.sh 
*
*
# Set Hadoop-specific environment variables here.

# The only required environment variable is JAVA_HOME.  All others are
# optional.  When running a distributed configuration it is best to
# set JAVA_HOME in this file, so that it is correctly defined on
# remote nodes.

# The java implementation to use.
export JAVA_HOME=/opt/module/jdk1.8.0_144
*
*

#2，配置core-site.xml 
[ 
[email protected] hadoop]$ vim core-site.xml 
<!-- Put site-specific property overrides in this file. -->

<configuration>
<!-- 指定HDFS中NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop104:9000</value>
    </property>

<!-- 指定Hadoop執行時產生檔案的儲存目錄 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.2/data/tmp</value>
    </property>
</configuration>

#3,配置hdfs-site.xml 
[ 
[email protected] hadoop]$ vim hdfs-site.xml 
<!-- Put site-specific property overrides in this file. -->

<configuration>
<!-- 指定HDFS副本的數量 -->
<property>
        <name>dfs.replication</name>
        <value>1</value>
</property>
</configuration>

#4，格式化namenode，（第一次啟動之前格式化，以後就不用了）
[ 
[email protected] hadoop]$ hdfs namenode -format
18/11/14 20:07:27 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = hadoop104/192.168.1.104
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 2.7.2
*
*
18/11/14 20:07:28 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop104/192.168.1.104
************************************************************/


#5，分別啟動namenode 和 datanode，並檢視是否啟動成功
[[email protected] hadoop]$ hadoop-daemon.sh start namenode
starting namenode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-isea-namenode-hadoop104.out
[[email protected] hadoop]$ hadoop-daemon.sh start datanode
starting datanode, logging to /opt/module/hadoop-2.7.2/logs/hadoop-isea-datanode-hadoop104.out
[[email protected] hadoop]$ jps
3427 NameNode
3517 DataNode
3598 Jps

到此，完成叢集的配置和啟動工作

接下來，我們訪問這個網址：

http://hadoop104:50070/dfshealth.html#tab-overview

會出現如下的內容

log日誌和namenode為何不能一直格式化？

#1，log日誌：
[[email protected] logs]$ pwd
/opt/module/hadoop-2.7.2/logs
[[email protected] logs]$ ll
總用量 60
-rw-rw-r--. 1 isea isea 23848 11月 14 20:10 hadoop-isea-datanode-hadoop104.log
-rw-rw-r--. 1 isea isea   715 11月 14 20:10 hadoop-isea-datanode-hadoop104.out
-rw-rw-r--. 1 isea isea 27519 11月 14 20:10 hadoop-isea-namenode-hadoop104.log
-rw-rw-r--. 1 isea isea   715 11月 14 20:10 hadoop-isea-namenode-hadoop104.out
-rw-rw-r--. 1 isea isea     0 11月 14 20:10 SecurityAuth-isea.audit

在啟動namenode 和 datanode的過程中會在hadoop目錄下產生log資料夾，在log資料夾中會產生日誌檔案，
和尾綴為out的檔案 和 一個安全認證的檔案。

#2，為什麼不能一直格式化namenode？
[[email protected] current]$ pwd
/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current
[[email protected] current]$ ll
總用量 8
drwx------. 4 isea isea 4096 11月 14 20:10 BP-847571129-192.168.1.104-1542197248436
-rw-rw-r--. 1 isea isea  229 11月 14 20:10 VERSION
[[email protected] current]$ cat VERSION 
#Wed Nov 14 20:10:52 CST 2018
storageID=DS-305b15b0-96c1-407c-b58e-1beb65922151
clusterID=CID-8eeb5d53-e49f-4de6-9e05-387a7eb1472f
cTime=0
datanodeUuid=ea5794eb-6929-40b7-b8c3-aad970d72c29
storageType=DATA_NODE
layoutVersion=-56
[[email protected] current]$ 

格式化NameNode，會產生新的叢集id,導致NameNode和DataNode的叢集id不一致，叢集找不到已往資料。
所以，格式NameNode時，一定要先刪除data資料和log日誌，然後再格式化NameNode

操作叢集（上傳，下載，執行MapReduce，查詢）

#1，在HDFS檔案系統上建立一個input資料夾，並準備要上傳的資料
[[email protected] hadoop-2.7.2]$ hdfs dfs -mkdir -p /user/isea/input
[[email protected] hadoop-2.7.2]$ vim wcinput/wc.input 

you know that i sea you
sea you
isea you
isea
i sea you

#2，上傳測試資料到HDFS檔案系統，並檢查是否上傳成功
[[email protected] hadoop-2.7.2]$ hdfs dfs -put wcinput/wc.input /user/isea/input/
[[email protected] hadoop-2.7.2]$ hdfs dfs -ls /user/isea/input/
Found 1 items
-rw-r--r--   1 isea supergroup         57 2018-11-14 20:45 /user/isea/input/wc.input

#3， 執行MapReduce程式，並檢查結果
[[email protected] hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/isea/input/ /user/isea/output
[[email protected] hadoop-2.7.2]$ hdfs dfs -cat /user/isea/output/*
i	2
isea	2
know	1
sea	3
that	1
you	5

集訓驗證操作叢集，從叢集中下載檔案，最後刪除HDFS的輸出檔案
[[email protected] hadoop-2.7.2]$ mkdir wcoutput
[[email protected] hadoop-2.7.2]$ hdfs dfs -get /user/isea/output/part-r-00000 ./wcoutput/
[[email protected] hadoop-2.7.2]$ cd wcoutput/
[[email protected] wcoutput]$ ll
總用量 4
-rw-r--r--. 1 isea isea 37 11月 14 21:21 part-r-00000
[[email protected] wcoutput]$ cat part-r-00000 
i	2
isea	2
know	1
sea	3
that	1
you	5
[[email protected] wcoutput]$ hdfs dfs -rm -r /user/isea/output
18/11/14 21:26:27 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.
Deleted /user/isea/output

此外，我們還可以在瀏覽器端驗證結果：

http://hadoop104:50070/explorer.html#/

偽分散式執行MapReduce（叢集配置，log日誌和namenode格式化，叢集操作）

目錄叢集的啟動和配置 log日誌和namenode為何不能一直格式化？操作叢集（上傳，下載，執行MapReduce，查詢）叢集的啟動和配置 #1，進入/opt/module/hadoop-2.7.2/etc/hadoop目錄，配置hadoop-env.s

Hadoop2.2.0偽分散式環境搭建（附：64位下編譯Hadoop-2.2.0過程）

Hadoop2.2.0偽分散式環境搭建：寫在前面：Hadoop2.2.0預設是支援32位的OS，如果想要在64位OS下執行的話，可以通過在64位OS下面編譯Hadoop2.2.0來實現，編譯的操作步驟在最後面呈現。 1：操作：下載軟體；檔案：Hadoop-2.2.0.

偽分散式的搭建（YARN上執行MapReduce 程式）

偽分散式的搭建（YARN上執行MapReduce 程式） 1.啟動叢集 1.1在當前目錄下 1.2確保NameNode和DataNode已經啟動 1.3啟動ResourceManager 1.4啟動NodeManager

偽分散式的搭建（啟動HDFS並執行MapReduce程式）

如果前一章測試成功，那麼恭喜你，你已經可以開始新的篇章了（但是如果測試不成功，請務必搭建測試成功後再看此篇章）偽分散式的搭建（啟動HDFS並執行MapReduce程式） 1、啟動HDFS並執行MapReduce程式 1.1配置偽分散式叢集

偽分散式執行Hadoop例項之yarn執行MapReduce例項

一、配置叢集配置yarn-env.sh檔案配置一下JAVA_HOME 配置yarn-site.xml  <property> <name>yarn.nodemanager.au

偽分散式執行Hadoop例項之HDFS執行MapReduce程式

一、前期準備準備一臺客戶機安裝jdk 配置環境變數安裝Hadoop 配置環境變數二、配置叢集配置hadoop-env.sh檔案 cd /opt/module/hadoop-2.7.2/etc/hadoop vim hadoo

cdh版本的hadoop安裝及配置(偽分散式模式) MapReduce配置 yarn配置

安裝hadoop需要jdk依賴，我這裡是用jdk8jdk版本：jdk1.8.0_151hadoop版本：hadoop-2.5.0-cdh5.3.6hadoop下載地址：連結：https://pan.baidu.com/s/1qZNeVFm 密碼：cilnjdk下載地址：連結：

資料製造之：偽碼身份證號碼（僅作為個人測試通過號碼驗證機制，不得作為它用）

一、瞭解公民第二代身份證組成部分：前 6 位：對應省自治區直轄市城市的程式碼 7--14位：對應出生年月日 15-

CentOS7安裝hadoop2.7.2 實現偽分散式測試成功（親測教程）

CentOS7安裝hadoop2.7.2 實現偽分散式測試成功（親測教程） CentOS7安裝hadoop2.7.2 實現偽分散式測試成功（親測教程）經過幾天的嘗試，終於在CentOS7下安裝hadoop，實現偽分散式，並且測試成功現在簡要的回訴一篇，以方便記憶

eclipse中使用spring boot 入門開發（包含：與jsp頁面和資料庫互動，cmd打包執行war包）

突然想到自己有一段時間沒使用spring boot了，熟悉了一下之後決定記錄一下這次使用的注意點一：使用springBoot搭出來一個架子（從前端到資料庫） 1.eclipse已經整合了maven，所以新建一個maven專案，然後針對專案修改下jdk相關點 2.目錄如

hadoop 偽分散式執行wordcount失敗

在執行wordcount時明顯記憶體和cpu飆升 1核1G的伺服器瞬間淪陷記憶體不夠會導致

設A和B是兩個按元素值遞增有序的單鏈表，寫一算法將A和B歸並為按按元素值遞減有序的單鏈表C，試分析算法的時間復雜度。（利用上篇帶有頭結點的線性鏈表操作）

遞增 else 長度初始化 get b- sizeof int insert #include <stdio.h>#include <malloc.h>typedef int DataType;#include "LinList.h" void

Hadoop完全分散式用MapReduce實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。認為不好理解，先參考一下前面的一篇：https://bl

IO流（File類，IO流的分類，位元組流和字元流，轉換流，緩衝流，物件序列化）

1.File類 File類可以在程式中操作檔案和目錄。File類是通過建立File類物件，在呼叫File類的物件來進行相關操作的。示例： --------------------- 本文來自 dajiahuooo 的CSDN 部落格，全文地址請點選：https://blog.csdn.net/

java面向物件（類與物件，區域性變數成員變數，基本型別和引用型別作為引數傳遞）

一.類和物件的區別類是對某一類事物的抽象描述，而物件用於表示現實中該類事物的個體可以將玩具模型看作是一個類，將一個個玩具看作物件，從玩具模型和玩具之間的關係便可以看出類與物件之間的關係。類用於描述多個物件的共同特徵，它是物件的模板。物件用於描述現實中的個體，它是類的例項二.區域性變數和成員變數

平衡二叉樹（BBT，注意LR和RL與意料的相反）

一：平衡二叉樹的概念平衡二叉樹(Balanced binary tree)又稱為AVL樹，是一種特殊的二叉排序樹，且左右子樹的高度之差的絕對值不超過1. 定義：平衡二叉樹或為空樹,或為如下性質的二叉排序樹: （1）左右子樹深度之差的絕對值不超過1; （2）左右

正則表示式（re模組，匹配單個字元，匹配多個字元，匹配分組，python貪婪和非貪婪，r的作用）

re.match() 能夠匹配出以xxx開頭的字串匹配單個字元示例1： . #coding=utf-8 import re ret = re.match(".","M") print(ret.group()) ret = re.match("t.o","too") print

題目筆記（閉包，深複製和淺複製，原生js實現Promise）

就面試筆試題的一些筆記：閉包（實現add(2)(5) ）深複製和淺複製原生js實現Promise △ –>閉包知識：實現add(2)(5) function add (x) { return functio

【pandas】[2] DataFrame 基礎，建立DataFrame和增刪改查基本操作（1）

作者：lianghc 地址：http://blog.csdn.net/zutsoft DataFrame 是pandas最常用的資料結構，類似於資料庫中的表，不過DataFrame不僅僅限制於2維，可以建立多維資料表。DataFrame既有行索引，也有列

java程式執行順序（main方法靜態非靜態以及衍生出的部分定義）

Java程式執行時，第一件事情就是試圖訪問main方法，因為main相等於程式的入口，如果沒有main方法，程式將無法啟動，main方法更是佔一個獨立的執行緒。下面是一段程式碼幫助我們分析class A { public A() { System

偽分散式執行MapReduce（叢集配置，log日誌和namenode格式化，叢集操作）

叢集的啟動和配置

log日誌和namenode為何不能一直格式化？

操作叢集（上傳，下載，執行MapReduce，查詢）

相關推薦