Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

阿新 • • 發佈：2018-11-20

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

新建一個Maven專案

不用說了，普通的Maven專案就行。

加入Hadoop依賴

其中的${hadoop.version}對應自己使用的Hadoop版本

hadoop-client

<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client -->
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>${hadoop.version}</version>
</dependency>

log4j

<!-- https://mvnrepository.com/artifact/log4j/log4j -->
<dependency>
    <groupId>log4j</groupId>
    <artifactId>log4j</artifactId>
    <version>1.2.17</version>
</dependency>

log4j的配置檔案放到resources下面，名為log4j.properties。

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{ABSOLUTE} | %-5.5p | %-16.16t | %-32.32c{1} | %-32.32C %4L | %m%n

要想使Maven打成的jar包，可以直接拿到namenode上用hadoop jar 命令跑，需要在Maven中加一個外掛

<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-shade-plugin</artifactId>
            <version>1.2.1</version>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>shade</goal>
                    </goals>
                    <configuration>
                        <transformers>
                            <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                <!--程式入口類，main方法類-->
                               <mainClass>com.caohui.hadoop.mapreduce.Main</mainClass>
                            </transformer>
                        </transformers>
                    </configuration>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

加入hadoop配置檔案

將namenode下面的hadoop的以下幾個配置檔案拷貝到resources中，一個都不能少，否則會報錯。

core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml

編寫測試MapReduce程式

測試程式非常簡單，如下檔案price.txt

北京 1
北京 2
北京 1
北京 2
北京 1
北京 2
北京 1
北京 2
北京 1
北京 2
北京 1
北京 2
杭州 1
杭州 2
杭州 1
杭州 2
杭州 1
杭州 2
杭州 1

統計這個檔案中北京的數字之和和杭州的數字之和。

HousePriceMapper.java

package com.caohui.hadoop.mapreduce;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class HousePriceMapper extends Mapper<LongWritable, Text, Text, Text> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String item = value.toString();
        String[] items = item.split(" ");
        if (items.length >= 2) {
            context.write(new Text(items[0]), new Text(items[1]));
        }
    }
}

HousePriceReducer.java

package com.caohui.hadoop.mapreduce;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class HousePriceReducer extends Reducer<Text, Text, Text, Text> {
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (Text i : values) {
            sum += Integer.parseInt(i.toString());
        }
        context.write(key, new Text(String.valueOf(sum)));
    }
}

Main.java

package com.caohui.hadoop.mapreduce;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class Main {
    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration(true);
        Job job = Job.getInstance(configuration, "House Price");

        // 為了在本地跑mapReduce程式方便，這裡job.setJar要設定成Maven打包的路徑
        job.setJar("./target/hadoop-1.0-SNAPSHOT.jar");

        // 放到nameNode下執行時要把上面一句改成下面這句！！不然找不到target資料夾，會報錯。
        //job.setJarByClass(Main.class);

        job.setMapperClass(HousePriceMapper.class);
        job.setReducerClass(HousePriceReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path("hdfs://namenode:9000/price.txt"));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://namenode:9000/output"));

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

開啟完全分散式hadoop

start-all.sh

本地打包-執行

先用maven將專案打包，打的包在target下面。然後執行main函式。等一小會兒，執行成功。

執行結果：

北京 18
杭州 12

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式新建一個Maven專案不用說了，普通的Maven專案就行。加入Hadoop依賴其中的${hadoop.version}對應自己使用的Hadoop版本 hadoop-client

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式，spark-shell是Spark自帶的互動式Shel

並行作業3：在eclipse中開發MapReduce程式

在eclipse中開發MapReduce程式系統採用vm下ubuntu16.04 一、eclipse安裝(參考我的其它部落格) 二、eclipse配置 1、下載hadoop-eclipse-plugin-2.7.3.jar外掛，並將其拖到虛擬機器桌面 2、將其移動到/u

Hadoop學習之路（二十三）MapReduce中的shuffle詳解

就是多個流程 http cer 分開分享圖片數據分區 bsp 概述 1、MapReduce 中，mapper 階段處理的數據如何傳遞給 reducer 階段，是 MapReduce 框架中最關鍵的一個流程，這個流程就叫 Shuffle 2、Shuffle: 數

搭建hadoop偽分散式叢集環境過程中遇見的問題總結

1、網路配置問題：在centos7中配置網路環境後，本機（win10系統）與虛擬機器centos7網路不通（本機可以ping通虛擬機器，但是虛擬機器ping不通本機）；解決方式：方式1：檢視本機win10系統的防火牆是否關閉，若沒有，直接關閉win10系統的防火牆即可；方式2

Hadoop學習1-MacBook下Hadoop-2.9的配置

MacBook下Hadoop-2.9的配置由於研究生課程需要，今天下午搭建了本地Hadoop環境。我用的是Hadoop-2.9版本，不打算一上來就3.x（其實是因為大部分教程都是2.x, 呵呵）。本人MacBook Pro配置是 8G記憶體，256GSSD，InterCore I5處

Windows下，在IDEA中搭建MapReduce開發環境（需基礎，非詳盡篇）

hadoop在官網下載，jdk在官網下載，自行解壓下載的hadoop包，安裝下載的jdk。開啟IDEA，新建專案： File->Project Structure：選擇之前解壓的hadoop資料夾中的share/hadoop目錄下的common

在IDEA中編寫Spark的WordCount程式（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Art

Hadoop學習筆記(二)----環境搭建之CentOS 7 配置與安裝Hadoop

# Load additional iptables modules (nat helpers) # Default: -none- # Space separated list of nat helpers (e.g. 'ip_nat_ftp ip_nat_irc'), which # are load

python中編寫一個程式，能在當前目錄以及當前目錄的所有子目錄下查詢檔名包含指定字串的檔案，並打印出相對路徑—— python學習筆記

1. 題目：編寫一個程式，能在當前目錄以及當前目錄的所有子目錄下查詢檔名包含指定字串的檔案，並打印出相對路徑。 2. 解答 import os # 引入os "編寫一個程式，能在當前目錄以及當前目錄的所有子目錄下查詢檔名包含指定字串的檔案，並打印出相對路徑" def se

Hadoop學習筆記—13.分散式叢集中節點的動態新增與下架

開篇：在本筆記系列的第一篇中，我們介紹瞭如何搭建偽分佈與分佈模式的Hadoop叢集。現在，我們來了解一下在一個Hadoop分散式叢集中，如何動態（不關機且正在執行的情況下）地新增一個Hadoop節點與下架一個Hadoop節點。一、實驗環境結構　　本次試驗，我們構建的叢集是一個主節點，三個從節點的結構，

hadoop學習3 查詢塊的位置

[[email protected] softpackage]# hadoop fs -put scala-2.10.4.tgz / [[email protected] softpackage]# hadoop fsck /scala-2.10.4.tgz -files -locat

Hadoop學習筆記(一)----環境搭建之VMware虛擬機器安裝及建立CentOS

一、vmware安裝準備好軟體包: 點選安裝vmware 下一步下一步下一步下一步下一步點選安裝安裝完畢: 點選桌面上的

Hadoop學習之一《環境搭建及配置》

問題？Hadoop學習之環境搭建及配置一、搭建VMware Workstation Pro及CentOS環境要學習hadoop環境的搭建肯定是必不可少的，如果你的電腦是 Linux系統，當然不用搭建此環節了，如果是在其他平臺上就需要一個虛擬環境VM及可在此環境下安裝C

在IDEA中編寫mybatis，需要注意的問題

在我複習 mybatis的過程中，在IDEA編譯器下，使用mapper的介面開發。其中注意以下幾點： 1，mapper.xml (UserMapper.xml)中的namespace為mapper介面的路徑名(包名.UserMapper)。 2，User

Hadoop學習之路（十九）MapReduce框架排序

ati ioe extends 一個用戶必須 idt 構造 sta gpo 流量統計項目案例樣本示例需求 1、統計每一個用戶（手機號）所耗費的總上行流量、總下行流量，總流量 2、得出上題結果的基礎之上再加一個需求：將統計結果按照總流量倒序排序 3

Hadoop學習之路（十七）MapReduce框架Partitoner分區

div get() 劃分 mapreduce ride 作用程序輸出 lin Partitioner分區類的作用是什麽？在進行MapReduce計算時，有時候需要把最終的輸出數據分到不同的文件中，比如按照省份劃分的話，需要把同一省份的數據放到一個文件中；按照性別劃分

Hadoop學習之路（十八）MapReduce框架Combiner分區

類型規則比較一個學習過程 key-value body 註意對combiner的理解 combiner其實屬於優化方案，由於帶寬限制，應該盡量map和reduce之間的數據傳輸數量。它在Map端把同一個key的鍵值對合並在一起並計算，計算規則與reduce一致

hadoop學習筆記（十一）：MapReduce數據類型

筆記 ash all 記錄 write 一個操作 png bool 一、序列化 1 hadoop自定義了數據類型，在hadoop中，所有的key/value類型必須實現Writable接口。有兩個方法，一個是write，一個是readFileds。分別用於讀（反序列化操

在Spark Shell中編寫WordCount程式

Spark Shell是一個互動式的命令列，裡面可以寫Spark程式(Scala語言)，也是一個客戶端，用於提交Spark程式 1.啟動Spark Shell bin/spark-shell 上邊是沒有指定Master地址的啟動方式，啟動後用的是spark的local模

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式