1. 程式人生 > >ubuntu搭建hadoop 2.7.2 Single Node Cluster及windows eclipse yarn提交Mapreduce筆記

ubuntu搭建hadoop 2.7.2 Single Node Cluster及windows eclipse yarn提交Mapreduce筆記

環境配置

hadoop 版本:2.7.2

ubuntu 版本:lubuntu-16.04.1-desktop-amd64

java 版本:1.8.0_102

windows 版本:Microsoft Windows [版本 10.0.10586]

eclipse 版本:Neon Release (4.6.0)

ubuntu 使用者名稱:zzz

區域網ip地址:192.168.56.101

windows 下采用VirtualBox 5.0.26 搭建虛擬機器

1.無密碼ssh localhost

ssh-keygen -t rsa -P '' 
identification檔案儲存在 /home/zzz/.ssh/id_rsa.
public key 檔案儲存在 /home/zzz/.ssh/id_rsa.pub.
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
dsa 是同md5只能用簽名校驗,rsa能用於解密,上面只能用rsa

2.設定java home變數

在hadoop-env.sh檔案中修改,新增jdk安裝路徑
export JAVA_HOME=/opt/jdk1.8.0_102/

3.修改core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.56.101:9000</value>
    <description>defaultFS設定本機ip地址,不能設為localhost,127.0.0.1或者0.0.0.0</description>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/zzz/hdata/</value>
    <description>存放與hadoop相關資料的資料夾</description>
    </property> 
</configuration>

4.格式化並啟動hdfs

hdfs namenode -format
start-dfs.sh
5.建立主資料夾
hadoop fs -mkdir /user/
hadoop fs -mkdir /user/zzz 

6.複製mapred-site.xml.template為mapred-site.xml,修改內容

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    <description>mapreduce執行方式,選擇local, classic ,yarn其中之一</description>
    </property>
</configuration>

7.修改yarn-site.xml

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>192.168.56.101</value>
    <description>yarn設定本機ip地址,不能設為localhost,127.0.0.1或者0.0.0.0</description>
    </property>
    <property>
        <name>yarn.nodemanager.hostname</name>
        <value>192.168.56.101</value>
    <description>yarn設定本機ip地址,不能設為localhost,127.0.0.1或者0.0.0.0</description>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    <description>nodemanager服務設定</description>
    </property>
</configuration>

8.啟動yarn

start-yarn.sh

9.連線管理hdfs檔案系統

package cn.zzz.test.hadoop;

import static cn.zzz.test.hadoop.Utils.listFile;

import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.List;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;

/**
 * @author zzz
 *
 */
public class TestFs
{
	public static final String IP = "192.168.56.101";
	public static final String USER_NAME = "zzz";
	/**
	 * @param args
	 */
	public static void main(String[] args)
	{
		//連線遠端hdfs並管理檔案
		try (FileSystem fs = FileSystem.get(new URI("hdfs://" + IP + ":9000"), new Configuration(), USER_NAME))
		{ 
			Path home = fs.getHomeDirectory(); 
			Path input=new Path(home,"input");
			Path output=new Path(home,"output");
			if( !fs.exists(input))
			{
				System.out.println("建立~/input資料夾");
				fs.mkdirs(input);
			}
			if( !fs.exists(output))
			{
				System.out.println("建立~/output資料夾");
				fs.mkdirs(output);
			}
			Path file =new Path(input,"test.txt");
			if( !fs.exists(file))
			{
				File _file = new File("src"); 
				if(_file.exists())
				{ 
					//列出本地所有檔案
					List<File> _dirs = listFile(_file);  
					System.out.println("拷貝內容"+_file.getCanonicalPath()+"\t,檔案數量:"+_dirs.size()); 
					if(!_dirs.isEmpty())
					{
						Path[] ps=new Path[_dirs.size()];
						for(int i=0;i<ps.length;i++)
						{
							ps[i]=new Path(_dirs.get(i).getCanonicalPath());
						}
						fs.copyFromLocalFile(false, true, ps, input); 
					} 	
					//遠端寫入檔案
					try(FSDataOutputStream os = fs.create(file, true);)
					{
						os.write("It work!\n成功寫入。".getBytes());
					} 
				}else
				{
					System.out.println("本地資料夾不存在"+_file); 
				} 
			} else
			{
				System.out.println("讀取內容");
				try(BufferedReader br=new BufferedReader(new InputStreamReader( fs.open(file)));)
				{
					br.lines().forEach(System.out::println);
				}
			}
			System.out.println("~/input");
			RemoteIterator<LocatedFileStatus> dirs = fs.listLocatedStatus(input); 
			while (dirs.hasNext())
			{
				LocatedFileStatus dir = dirs.next(); 
				System.out.println((dir.isDirectory()?"DIR":"FILE" )+"  "+ dir.getPath() + "  " +dir.getLen());
			} 
		} catch (IOException | InterruptedException | URISyntaxException e)
		{
			e.printStackTrace();
		}
	}

}

10.Eclipse Ant 自動打包jar

在專案-屬性-構建器-新建ant構建器,在構建檔案選擇檔案,參考內容如下

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<project default="create_run_jar" name="Create Runnable Jar for Project TestHadoop">
    <!--this file was created by Eclipse Runnable JAR Export Wizard-->
    <!--ANT 1.7 is required                                        -->
    <!--define folder properties-->
    <property name="dir.buildfile" value="."/> 
    <property name="dir.jarfile" value="${dir.buildfile}/target"/>
    <target name="create_run_jar">
        <jar destfile="${dir.jarfile}/dist.jar" filesetmanifest="mergewithoutmain">
            <manifest>
                <attribute name="Main-Class" value="cn.zzz.test.hadoop.TestMapReduce"/>
                <attribute name="Class-Path" value="."/>
            </manifest>
            <fileset dir="${dir.buildfile}/bin"/>
        </jar>
    </target>
</project>

11.遠端提交Job

首先確認使用ant構建jar或者eclipse匯出jar

package cn.zzz.test.hadoop;

import static cn.zzz.test.hadoop.Utils.catAll;
import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobContext;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * @author zhhaogen
 *
 */
public class TestMapReduce
{
	public static final String IP = "192.168.56.101";
	public static final String USER_NAME = "zzz";
	public static class MyMap extends Mapper<LongWritable, Text, Text, IntWritable>
	{
		private final static IntWritable one = new IntWritable(1);
		private Text word = new Text();

		public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
		{
			String line = value.toString();
			StringTokenizer tokenizer = new StringTokenizer(line);
			while (tokenizer.hasMoreTokens())
			{
				word.set(tokenizer.nextToken());
				context.write(word, one);
			}

		}
	}

	public static class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable>
	{
		public void reduce(Text key, Iterable<IntWritable> values, Context context)
				throws IOException, InterruptedException
		{
			int sum = 0;
			for (IntWritable val : values)
			{
				sum += val.get();
			}
			context.write(key, new IntWritable(sum));
		}
	}
	/**
	 * @param args
	 * @throws IOException
	 * @throws InterruptedException
	 * @throws ClassNotFoundException
	 */
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException
	{ 
		Configuration conf = new Configuration();
		System.setProperty("HADOOP_USER_NAME", USER_NAME); 
		conf.set("fs.defaultFS", "hdfs://" + IP + ":9000"); 
		conf.set("mapreduce.framework.name", "yarn"); 
		conf.set("yarn.resourcemanager.hostname", IP);  
		conf.set("mapreduce.app-submission.cross-platform", "true"); 
		conf.set(JobContext.JAR,"target\\dist.jar");
		
		Path HomeDirectory = new Path("hdfs://" + IP + ":9000/user/" + USER_NAME);
		Path input = new Path(HomeDirectory, "input");
		Path output = new Path(HomeDirectory, "output/result-" + System.currentTimeMillis());
		System.out.println("輸入路徑:" + input);
		System.out.println("輸出路徑:" + output); 
		Job job = Job.getInstance(conf, "job_test" + new SimpleDateFormat("HHmmss").format(new Date()));

		System.out.println("任務名:" + job.getJobName());  
		//在伺服器上執行時可使用Job#setJarByClass找到jar 路徑,否則需要指定JobContext.JAR引數
		job.setMapperClass(MyMap.class);
		job.setCombinerClass(MyReduce.class);
		job.setReducerClass(MyReduce.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		System.out.println("jar 路徑"+job.getConfiguration().get(JobContext.JAR));
		FileInputFormat.addInputPath(job, input);
		FileOutputFormat.setOutputPath(job, output); 
		boolean ret=false; 
		  ret = job.waitForCompletion(true);
		  //實際jar會上傳到伺服器tmp目錄
		System.out.println("Job 完成狀態:" + ret + "," + job.getStatus().getState()+",job.jar位置:"+job.getJar());
		if (ret)
		{
			//輸出結果
			System.out.println(catAll(output));
		} else
		{
			System.exit(0);
		}
	}
}

12.其他

配置log4j列印除錯資訊,在src建立檔案log4j.properties,內容

log4j.rootLogger=INFO,console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{2}: %m%n


相關推薦

ubuntu搭建hadoop 2.7.2 Single Node Clusterwindows eclipse yarn提交Mapreduce筆記

環境配置 hadoop 版本:2.7.2 ubuntu 版本:lubuntu-16.04.1-desktop-amd64 java 版本:1.8.0_102 windows 版本:Microsoft Windows [版本 10.0.10586] eclipse 版本:Ne

大資料基礎(五)從零開始安裝配置Hadoop 2.7.2+Spark 2.0.0到Ubuntu 16.04

raw to spark 0 install ubuntu 14.04.01 desktop x64 1 system基礎配置 《以下都是root模式》 1.3 root password sudo passwd root 1.5 root登入選項 a.在terminal下

ubuntu 14.04 下單機安裝 hadoop 2.7.2+scala 2.11.8+spark 2.0偽分散式教程

一.安裝java 將java下載後手動解壓到/home/che資料夾下(可採用右擊壓縮包,單擊“提取”) 在終端(可用Ctrl+Alt+T快捷鍵開啟)中輸入: sudo gedit /etc/profile 在開啟的文字中新增: expor

Hadoop HA高可用叢集搭建2.7.2

<configuration> <!--指定hdfs的nameservice為ns1,需要和core-site.xml中的保持一致 --> <property> <name>dfs.nameservices</name> <valu

Linux鞏固記錄(5) hadoop 2.7.4下自己編譯代碼並運行MapReduce程序

parser mod pill self add let tokenize org cto 程序代碼為 ~\hadoop-2.7.4\share\hadoop\mapreduce\sources\hadoop-mapreduce-examples-2.7.4-sourc

大數據Hadoop學習之搭建Hadoop平臺(2.1)

穩定版 發的 log tar sshd scheduler 文件夾 三種 rest    關於大數據,一看就懂,一懂就懵。 一、簡介   Hadoop的平臺搭建,設置為三種搭建方式,第一種是“單節點安裝”,這種安裝方式最為簡單,但是並沒有展示出Hadoop的技術優勢,適

Hadoop叢集搭建一:Single node cluster

Hadoop叢集搭建一:Single node cluster 本文主要介紹在單個ubantu機器上搭建hadoop叢集。 1.ubuntu虛擬機器安裝 採用Vmware workstation10工具來安裝ubuntu系統,ubuntu使用的是64位的18.04-desktop版本

hadoop 2.7.2 + zookeeper 高可用叢集部署

一.環境說明 虛擬機器:vmware 11 作業系統:Ubuntu 16.04 Hadoop版本:2.7.2 Zookeeper版本:3.4.9 二.節點部署說明 三.Hosts增加配置 sudo gedit /etc/hosts wxzz-pc、wxzz-pc0、

Hadoop 2.7.2啟動WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...

在/etc/profile檔案中配置如下環境變數 export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_O

Hadoop-2.7.2分散式安裝手冊

目錄 目錄 1 1. 前言 3 3. 部署 5 4. 約定 7

centos7 docker 安裝hadoop 2.7.2記錄

docker常用命令: 執行映象: <code>docker run -i -t centos /bin/bash</code> 提交映象: <code>docker commit 3a09b2588478 ubuntu:mynew

Hadoop 2.7.2 + Sqoop2 安裝使用

dfs- mon form 64bit shell 架設 sqoop2 address bsp 1. 安裝環境 本次使用兩個節點,一個作為master,一個作為slave。兩個虛擬機使用virtualbox。操作系統為ubuntu 64bit server(Ubuntu

Hadoop Shell命令(版本:2.7.2

將不 mis 無法 替換 text 系統 print facl hot Hadoop Shell命令(版本:2.7.2) 官方文檔2.7.2 官方中文1.0.4 概觀 appendToFile cat checksum chgrp chmod chown copyFro

CentOS7下編譯Hadoop-2.7.2詳解

1.工具準備,最靠譜的是hadoop說明文件裡要求具備的那些工具。 到hadoop官網,點選source下載hadoop-2.7.2-src.tar.gz。 利用FileZilla上傳壓縮包到/opt/software/目錄下 在該目錄下,解壓到/opt/modu

hadoop 2.7.2使用maven編譯安裝

(1)依賴包: libssl-dev   zlib1g-dev  openssl  protobuf2.5 maven  jdk1.7 cmake openssh-server (2) mvn  clean package -DskipTests -Pdist,na

Mac上通過偽分佈方式部署Hadoop 2.7.2

1. 無密碼登入localhost的設定 1. ssh-keygen -t rsa Press enter for each line 2. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 3. chmod

Hadoop 2.7.2 HA 自動切換高可用叢集配置詳解

1、叢集節點規劃 NameNode node1 node2 DataNode node1 node2 node3 JournalNode node1 node2 node3 zookeeper node1 node2 node3 node1:172.16.73.143

2.7.2 元素定位:frame 內定位 driver.switch_to.frame()

path 第一個 process switch -a element ren nbsp 定位 來源: http://blog.csdn.net/anniejunyan/article/details/23257327 Selenium + Webdriver 學習(五)

Ubuntu搭建Hadoop的踩坑之旅(三)

namenode 結束 ctu mapreduce 分布 使用 framework 2.6 start 之前的兩篇文章介紹了如何從0開始到搭建好帶有JDK的Ubuntu的過程,本來這篇文章是打算介紹搭建偽分布式集群的。但是後來想想反正偽分布式和完全分布式差不多,所幸直接介紹

吳恩達 2.7 2.8 2.9 logistic中的梯度下降

mage normal XML 它的 image 2.7 計算 png gis 邏輯回歸中包含了正向傳播和反向傳播,用一個計算圖來表示其過程 計算圖: 舉一個簡單的例子例: 把j(a,b,c)看作logistic回歸成本函數j=3(a+bc),它的計算過程為讓u=bc