java：MapReduce原理及入門例項：wordcount

阿新 • • 發佈：2018-12-13

在這裡插入圖片描述

MapReduce原理

MapperTask -> Shuffle(分割槽排序分組) -> ReducerTask

在這裡插入圖片描述

MapReduce執行步驟

Map處理任務
1. 讀取檔案每一行，解析成<key、value>，呼叫map函式
2. 處理邏輯對key、value處理，行成新的key、value
3. 資料分割槽
Reduce處理任務
1. 拷貝map任務輸出到reduce節點，對map任務輸出合併，排序
2. 處理邏輯處理key、value，行成新的key、value
3. 儲存到檔案中

wordcount示例

準備檔案
vim word.txt

hello Jack
hello Tom
hello Jimi
hello Mili
hello Make

上傳檔案

hadoop fs -put word.txt /word.txt
hadoop fs -ls /   # 檢視

執行任務

cd hadoop-2.8.5/share/hadoop/mapreduce

hadoop jar hadoop-mapreduce-examples-2.8.5.jar wordcount /word.txt /wcout

檢視任務結果

hadoop fs -ls /wcout
hadoop fs -cat /wcout/part-r-00000

Jack    1
Jimi    1
Make    1
Mili    1
Tom     1
hello   5

java示例

mapper

package mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java. 
io.IOException;

/**
 * 繼承Mapper 實現map計算
 * 傳遞的引數需要實現序列化，通過網路傳輸
 */
public class MapDemo extends Mapper<LongWritable, Text, Text, LongWritable>{

    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException
    {
        // 接收資料
        String line = value.toString();
        // 切分單詞
        String[] words = line.split(" ");

        // 將每個單詞轉為數字
       for(String word: words)
       {
           context.write(new Text(word), new LongWritable(1));
       }
    }
}

reducer

package mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

/**
 * 繼承Reducer，實現reduce計算
 */
public class ReduceDemo extends Reducer<Text, LongWritable, Text, LongWritable> {

    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context)
            throws IOException, InterruptedException
    {
        // 定義計數器
        long count = 0;

        // 統計
        for (LongWritable counter : values)
        {
            count += counter.get();
        }

        // 輸出結果
        context.write(key, new LongWritable(count));
    }
}

package mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * 統計單詞個數
 * 執行：hadoop jar hdfsdemo.jar
 * 根據實際路徑指定輸入輸出檔案 
 */
public class WordCount {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        // 構建Job物件
        Job job = Job.getInstance(new Configuration());

        // 注意：main方法所在類
        job.setJarByClass(WordCount.class);

        // 設定輸入檔案路徑
        FileInputFormat.setInputPaths(job, new Path(args[0]));

        // 設定Mapper屬性
        job.setMapperClass(MapDemo.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        // 設定Reducer屬性
        job.setReducerClass(ReduceDemo.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        // 設定輸出檔案路徑
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 提交任務
        job.waitForCompletion(true);

    }
}

將WordCount類的打包為jar，上傳至伺服器，執行

hadoop jar hdfsdemo.jar /word.txt /out

檢視輸出檔案，和haoop中自帶的wordcount輸出一致

Jack	1
Jimi	1
Make	1
Mili	1
Tom	    1
hello	5

總結

匯入依賴jar包
hadoop-2.8.5/share/hadoop/mapreduce/

自定義任務

分析業務邏輯，確定輸入輸出樣式
繼承Mapper
繼承Reducer
通過job物件組裝Mapper和Reducer

java：MapReduce原理及入門例項：wordcount

MapReduce原理 MapperTask -> Shuffle(分割槽排序分組) -> ReducerTask MapReduce執行步驟 Map處理任務讀取檔案每一行，解析成<key、value>，呼叫

大資料第四天——MapReduce原理及IDEA Maven下WordCount例項兩種實現

1.MapReduce概述 HDFS實現了分散式檔案儲存，儲存問題解決了，我們就需要考慮如何對資料進行處理，MapReduce是一個計算框架（程式設計模型），基於該計算框架，可以很容易的編寫資料處理程式，從而以較高的效率處理海量資料集。 MR框架對於程式設計師的最大意義在

LTE關鍵技術之一：OFDMA（OFDM基本原理及簡單例項應用）

OFDM即正交頻分複用（Orthogonal Frequency Division Multiplexing），是多載波調製的一種，通俗來說就是通過多條互相沒有關係的通道傳輸不同的資訊。OFDM現在主要用於4G通訊上

機器學習入門：概念原理及常用演算法

機器學習(Machine Learning, ML)是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心，是使

網絡：Session原理及存儲

簡單處理 gin .com smb 均衡 pla 失效 ons 一.Session的工作流程二.會話保持　　會話保持是負載均衡最常見的問題之一，會話保持是指在負載均衡器上實現的一種機制，可以識別客戶端與服務器之間交互過程的關連性，在作負載均衡的同時還保證一系列

深入學習Redis高可用架構：哨兵原理及實踐

在進入正文之前，順便在此給大家推薦一個Java架構方面的交流學習群：698581634，裡面會分享一些資深架構師錄製的視訊錄影：有Spring，MyBatis，Netty原始碼分析，高併發、高效能、分散式、微服務架構的原理，JVM效能優化這些成為架構師必備的知識體系，

達觀資料王江：fastText原理及實踐

fastText是Facebook於2016年開源的一個詞向量計算和文字分類工具，在學術上並沒有太大創新。但是它的優點也非常明顯，在文字分類任務中，fastText（淺層網路）往往能取得和深度網路相媲美的精度，卻在訓練時間上比深度網路快許多數量級。在標準的多核CPU上，能夠訓練10億詞級

Spark+ECLIPSE+JAVA+MAVEN windows開發環境搭建及入門例項【附詳細程式碼】

前言本文旨在記錄初學Spark時，根據官網快速入門中的一段Java程式碼，在Maven上建立應用程式並實現執行。首先推薦一個很好的入門文件庫，就是CSDN的Spark知識庫，裡面有很多spark的從入門到精通的形形色色的資料， 1.開發軟體恭喜你，拿到spark駕考

Pytorch入門例項：mnist分類訓練

#!/usr/bin/env python # -*- coding: utf-8 -*- __author__ = 'denny' __time__ = '2017-9-9 9:03' import torch import torchvision from torch.autograd

Android開發入門例項：四則混合運算計算器

開發Android應用主要使用的語言是Java，佈局檔案和介面則一般用XML來描述。整個應用的GUI開發與Java SWT、QT等其實區別不是特別大。如果有任何一種GUI程式開發經驗，學習Android應用開發就是一件非常容易的事。這篇文章裡我們來開發一個支

MySQL優化（三）：索引原理及索引優化

建立高效能索引索引是提高MySQL查詢效能的一個重要途徑，但過多的索引可能會導致過高的磁碟使用率以及過高的記憶體佔用，從而影響應用程式的整體效能。應當儘量避免事後才想起新增索引，因為事後可能需要監控大量的SQL才能定位到問題所在，而且新增索引的時間肯定是遠大於初始新增索引所需

大資料流式計算：關鍵技術及系統例項

雲端計算、物聯網、移動互連、社交媒體等新興資訊科技和應用模式的快速發展,促使全球資料量急劇增加,推動人類社會邁入大資料時代[1，2，3，4].一般意義上,大資料是指利用現有理論、方法、技術和工具難以在可接受的時間內完成分析計算、整體呈現高價值的海量複雜資料集合.大資料呈現出多種鮮明特徵[3, 4, 5,

Tensorflow實戰：Word2Vec_Skip_Gram原理及實現（多註釋）

Word2Vec也稱Word Embeddings，中文的叫法為“詞向量”或“詞嵌入”，是一種非常高效的，可以從原始語料中學習字詞空間向量的預測模型。在Word2Vec出現之前，通常將字詞轉為One-Hot Encoder ，一個詞對應一個

java代理模式原理及例項講解

東漢末年，大將軍何進引董卓入京，想借西北王的軍隊對抗閹黨，無奈自己先被閹黨做掉，而後造成鉅變，導致諸侯並起，最終形成三國鼎立局面。漢獻帝即位後，初平三年（公元 192 年），治中從事毛玠向曹操建議“奉天子以令不臣”，曹操採納了他的建議，迎接漢獻帝來到許昌。漢獻帝劉協在許都沒有

python爬蟲基本原理及入門

http safari pre col 分享圖片 ade 如果渲染登陸百度爬蟲：請求目標網站並獲得數據的程序爬蟲的基本步驟：使用python自帶的urllib庫請求百度： import urllib.request response = urllib.req

java反射的原理及使用

int port mar unit .class 使用方法 www. fec pos 定義 JAVA反射機制是在運行狀態中，對於任意一個類，都能夠知道這個類的所有屬性和方法；對於任意一個對象，都能夠調用它的任意方法和屬性；這種動態獲取信息以及動態調用對象方法的

[Hadoop]淺談MapReduce原理及執行流程

技術分享情況下 size 原來 per node 有一個根據執行流程 MapReduce MapReduce原理非常重要，hive與spark都是基於MR原理 MapReduce采用多進程，方便對每個任務資源控制和調配，但是進程消耗更多的啟動時間，因此MR時效

Java LinkedList工作原理及實現

++ 部分更多 size mov info 容量限制 element git 1. 概述以雙向鏈表實現。鏈表無容量限制，但雙向鏈表本身使用了更多空間，也需要額外的鏈表指針操作。按下標訪問元素—get(i)/set(i,e) 要悲劇的遍歷鏈表將指針移動到位(如果i&g

Mapreduce原理及應用

Mapreduce原理 MapReduce（以下簡稱MR）是一種程式設計模型，用於大規模資料集（大於1TB）的並行運算。概念"Map（對映）“和"Reduce（歸約）”，是它們的主要思想，都是從函數語言程式設計語言裡借來的，還有從向量程式語言裡借來的特性。它極大地方便了程式設計人員在不會

JVM 垃圾回收器工作原理及使用例項介紹

垃圾收集基礎 Java 語言的一大特點就是可以進行自動垃圾回收處理，而無需開發人員過於關注系統資源，例如記憶體資源的釋放情況。自動垃圾收集雖然大大減輕了開發人員的工作量，但是也增加了軟體系統的負擔。擁有垃圾收集器可以說是 Java 語言與 C++語言的一項顯著區別。

java：MapReduce原理及入門例項：wordcount

MapReduce原理

MapReduce執行步驟

wordcount示例

java示例

總結

相關推薦