Hadoop學習之idea開發wordcount例項

阿新 • • 發佈：2018-12-21

在使用idea開發wordcount例項中，首先構建一個maven工程，需要引入的依賴有：

<repositories>
    <repository>
        <id>apache</id>
        <url>http://maven.apache.org</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.7.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>2.7.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.3</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>3.8.1</version>
        <scope>test</scope>
    </dependency>
</dependencies>
<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-dependency-plugin</artifactId>
            <configuration>
                <excludeTransitive>false</excludeTransitive>
                <stripVersion>true</stripVersion>
                <outputDirectory>./lib</outputDirectory>
            </configuration>

        </plugin>
    </plugins>
</build>

在引入各個依賴後，點選自己建立的專案，選擇open module setting如下所示;

之後，引入Hadoop的包，如下圖所示：

選擇自己Hadoop的路徑，之後選擇以下所示的資料夾，選中引入即可。

之後點選配置，配置本專案的檔案輸入路徑和輸出路徑，在program arguments中前一個為檔案輸入路徑，後一個為輸出路徑，當然，此時的路徑均為hdfs叢集路徑，應該將建立的資料夾上傳到hdfs叢集中，然後把該路徑寫入，否則會報找不到檔案路徑的錯誤，出錯解決辦法參考我上一篇部落格。

配置完成後，將core-site.xml配置檔案引入，如下圖所示：

在一切配置準備完成後，便可以進行編碼了，首先建立一個java類名為WordCount，具體程式碼如下所示：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


import java.io.IOException;
import java.util.StringTokenizer;

public class WordCount {
//編寫TokenizerMapper類繼承Mapper類
    public static class TokenizerMapper extends Mapper<Object,Text,Text,IntWritable>{
        //定義變數one值設定為1，為每個單詞定義value為1
        public static final IntWritable one=new IntWritable(1);
        private Text word=new Text();
        //編寫map函式，其中輸入引數為value（即為單詞），輸出引數為context
        public void map(Object key,Text values,Context context) throws IOException, InterruptedException {
            StringTokenizer str=new StringTokenizer(values.toString());
            while(str.hasMoreTokens()){
                word.set(str.nextToken());
                context.write(word,one);
            }
        }
    }
    //定義IntSumReducer繼承Reducer
    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable>{
        private IntWritable result=new IntWritable();
        //定義reduce方法
        public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
            //遍歷，將統計各個單詞的總個數
            int sum=0;
            for (IntWritable val:values) {
                sum+=val.get();
            }
            result.set(sum);
            context.write(key,result);
        }
    }
    //編寫主函式
    public static void main(String[] args) throws Exception{
        Configuration conf=new Configuration();

        Job job=Job.getInstance(conf,"wordCount");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //新增檔案的輸入路徑
        FileInputFormat.addInputPath(job, new Path(args[0]));
        //新增檔案的輸出路徑
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
}

一切就緒後，點選執行便可執行出結果。當然在執行之前要開啟hadoop叢集。

Hadoop學習之idea開發wordcount例項

在使用idea開發wordcount例項中，首先構建一個maven工程，需要引入的依賴有： <repositories> <repository> <id>apache</id> <

hadoop學習之HDFS（2.5）：windows下eclipse遠端連線linux下的hadoop叢集並測試wordcount例子

windows下eclipse遠端連線linux下的hadoop叢集不像在linux下直接配置eclipse一樣方便，會出現各種各樣的問題，處處是坑，連線hadoop和執行例子時都會出現問題，而網上的

spark學習1——配置hadoop 單機模式並執行WordCount例項（ubuntu14.04 & hadoop 2.6.0）

1. 安裝SSH hadoop是採用SSH進行通訊的，此時要設定密碼為空，即不需要密碼登陸，免去每次登陸時都要輸入密碼，當叢集較大時該步驟顯得尤為重要。 $ sudo apt-get install ssh 安裝完成後啟動服務： $ /etc/init.

hadoop入門學習系列之六hadoop學習之sqoop安裝

1.7 sqoop安裝 opc 2.6 clas jdb -m -- error 1.下載安裝包及解壓 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.配置環境變量和配置文件 cd 到 sqoop

大數據Hadoop學習之搭建Hadoop平臺（2.1）

穩定版發的 log tar sshd scheduler 文件夾三種 rest 　　關於大數據，一看就懂，一懂就懵。一、簡介　　Hadoop的平臺搭建，設置為三種搭建方式，第一種是“單節點安裝”，這種安裝方式最為簡單，但是並沒有展示出Hadoop的技術優勢，適

ReactNative學習之：開發之圖標庫react-native-vector-icons

git con www http tps ati https ionic 今天 GitHub地址：https://github.com/oblador/react-native-vector-icons iOS 參考：http://www.jianshu.com/p/4

Hadoop學習之路（二）Hadoop發展背景

chukwa 站點 avro azkaban das 可擴展性對數就是 pro Hadoop產生的背景 1. HADOOP最早起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能，但隨著抓取網頁數量的增加，遇到了嚴重的可擴

Hadoop學習之路（一）理論基礎和邏輯思維

file 工作 puts 範圍小文件集合無效任務問題三個題目第一題問題描述統計出當前這個一行一個IP的文件中，到底哪個IP出現的次數最多解決思路 //必須要能讀取這個內容 BufferedReader br = n

Hadoop學習之路（四）Hadoop集群搭建和簡單應用

get allocated reduce plugins caching handle ces -h per 概念了解主從結構：在一個集群中，會有部分節點充當主服務器的角色，其他服務器都是從服務器的角色，當前這種架構模式叫做主從結構。主從結構分類： 1、一主多從

Hadoop學習之路（五）Hadoop集群搭建模式和各模式問題

數據場景模式問題沒有問題：重裝故障 style 分布式集群的通用問題當前的HDFS和YARN都是一主多從的分布式架構，主從節點---管理者和工作者問題：如果主節點或是管理者宕機了。會出現什麽問題？群龍無首，整個集群不可用。所以在一主多從的架構中都會

Hadoop學習之路（十九）MapReduce框架排序

ati ioe extends 一個用戶必須 idt 構造 sta gpo 流量統計項目案例樣本示例需求 1、統計每一個用戶（手機號）所耗費的總上行流量、總下行流量，總流量 2、得出上題結果的基礎之上再加一個需求：將統計結果按照總流量倒序排序 3

Hadoop學習之路（十七）MapReduce框架Partitoner分區

div get() 劃分 mapreduce ride 作用程序輸出 lin Partitioner分區類的作用是什麽？在進行MapReduce計算時，有時候需要把最終的輸出數據分到不同的文件中，比如按照省份劃分的話，需要把同一省份的數據放到一個文件中；按照性別劃分

Hadoop學習之路（十三）MapReduce的初識

drive 分配任務 xtend JD aps 想要好處 val HR MapReduce是什麽首先讓我們來重溫一下 hadoop 的四大組件： HDFS：分布式存儲系統 MapReduce：分布式計算系統 YARN：hadoop 的資源調度系統 Common

Hadoop學習之路（十八）MapReduce框架Combiner分區

類型規則比較一個學習過程 key-value body 註意對combiner的理解 combiner其實屬於優化方案，由於帶寬限制，應該盡量map和reduce之間的數據傳輸數量。它在Map端把同一個key的鍵值對合並在一起並計算，計算規則與reduce一致

Hadoop學習之路（二十三）MapReduce中的shuffle詳解

就是多個流程 http cer 分開分享圖片數據分區 bsp 概述 1、MapReduce 中，mapper 階段處理的數據如何傳遞給 reducer 階段，是 MapReduce 框架中最關鍵的一個流程，這個流程就叫 Shuffle 2、Shuffle: 數

小強的Hadoop學習之路（二）

com TE 區別截斷用戶分開路徑問題登陸用戶學習接著第一遍。中間間隔了大約半年的時間了，話不多說，直接進入主題。這篇是主要是應用篇。目前的環境是4臺機器，環境 centos 7.2 CDH5.10.2 網上很多安裝教程，這邊就不說明了。 Hive+

React學習之旅----專案小例項----無人點餐二---詳情頁渲染

App.js /* react路由的配置： 1、找到官方文件 https://reacttraining.com/react-router/web/example/basic 2、安裝 cnpm install react-router-dom --save 3、找

hadoop學習之Linux使用

Hadoop學習前準備工作 1、安裝虛擬機器(常用虛擬機器：VirtualBox、VMWare) 2、安裝Linux作業系統（可以直接將打包好的Linux作業系統的映象檔案拿來用，滑鼠右鍵開啟，開啟方式選擇一個虛擬機器即可。）常見Linux作業系統：Redhat、centos、ubun

Hadoop學習之shuffle過程最詳細講解

hadoop1.x和hadoop2.x的區別： Hadoop1.x版本：核心主要由Hdfs和Mapreduce兩個系統組成，其中Mapreduce是一個離線分散式計算框架，由一個JobTracker和多個TaskTracker組成。 JobTracker的主要作用：JobTracker

服務計算學習之路-開發 web 服務程式

開發 web 服務程式文章目錄開發 web 服務程式簡介開發環境 Go的http包使用http包編寫的簡單web伺服器 http包有關路由部分 http包有關

Hadoop學習之idea開發wordcount例項

相關推薦