hadoop MapReduce —— 輸出每個單詞所對應的檔案

阿新 • • 發佈：2018-12-15

下面是四個檔案及其內容。

程式碼實現：

Mapper：

package cn.tedu.invert;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

 
public class InvertMapper extends Mapper<LongWritable, Text, Text, Text> {
    
    @Override
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 獲取檔名
        FileSplit fileSplit = (FileSplit)context.getInputSplit();
        String pathName  
= fileSplit.getPath().getName();
        
        // 將檔案中的內容提取 
        String[] words = value.toString().split(" ");
        
        // 每一個單詞都對應著自己所在檔案的檔名
        for(String word:words){
            context.write(new Text(word), new Text(pathName));
        }
    }
}

Reducer：

package cn.tedu.invert;

 
import java.io.IOException;
import java.util.HashSet;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class InvertReducer extends Reducer<Text, Text, Text, Text> {

    public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        
        // 雜湊表不存重複元素，將重複的檔名去掉
        HashSet<String> set = new HashSet<>();
        for (Text text : values) {
            set.add(text.toString());
        }
        
        StringBuilder sb = new StringBuilder();
        for (String str : set) {
            sb.append(str.toString()).append(" ");
        }
        
        context.write(key, new Text(sb.toString()));
    }
}

Driver：

package cn.tedu.invert;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class InvertDriver {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "JobName");
        job.setJarByClass(cn.tedu.invert.InvertDriver.class);
        job.setMapperClass(InvertMapper.class);
        job.setReducerClass(InvertReducer.class);
        
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.74.129:9000/text/invert"));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.74.129:9000/result/invert_result"));

        if (!job.waitForCompletion(true))
            return;
    }
}

結果：

hadoop MapReduce —— 輸出每個單詞所對應的檔案

下面是四個檔案及其內容。程式碼實現： Mapper： package cn.tedu.invert; import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop

C語言K&R習題系列——統計文件中每個單詞所包含的字母個數，以直方圖形式輸出

原題： Write a program to print a histogram of the lengths of words in its input. It is easy to draw

hadoop-mapreduce-(1)-統計單詞數量

fig pack lib let ack 函數 text dex pri 編寫map程序 package com.cvicse.ump.hadoop.mapreduce.map; import java.io.IOException; import org.apach

2018-08-05 期 MapReduce實現每個單詞在每個文件中坐標信息統計

line 字符 count throws ase protect clas 行處理 tostring package cn.sjq.bigdata.inverted.index;import java.io.IOException;import java.util.Iter

編寫MapReduce :統計每個關鍵詞，所在檔案及，第幾行出現了多少次

import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.HashMap; import java.util.Map; import org.a

大資料-Hadoop-MapReduce (二) WrodCount單詞計算

Hadoop-MapReduce (二) -WrodCount單詞計算一句話理解: 將很多很多的文字檔案遍歷計算出每一個單詞出現的次數 -擴充套件閱讀TF-IDF詞頻-逆向文件頻率 (Wor

hadoop 單詞個數及所處檔案位置統計

一、題目描述輸入若干個檔案，得到所有檔案中某單詞的所在檔名，單詞在文件中出現的次數和具體的位置資訊例如，輸入檔案如下： 1.txt: it iswhat it is what isit it is abanana 2.txt: i is whathe i

Hadoop MapReduce輸入輸出類型

imu finally configure 獲得命名 pfile 計算 uil 大文件一、輸入格式　　1、輸入分片split 　　　　　　一個分片對應一個map任務；　　　　　　一個分片包含一個表（整個文件）上的若幹行，而一條記錄（單行）對應一行；　　　　　　分片

【C語言程序】讓用戶輸入一句話，輸出這句話中每個單詞含有多少個字母

get mage 一句話 printf png es2017 urn bsp can #include <stdio.h>#define N 100 //宏定義，用N表示100 int main(int argc, char *argv[]) { int i

hadoop mapreduce開發實踐之輸出數據壓縮

實踐 shuff file apr 存儲壓縮 ras 最終 item 1、hadoop 輸出數據壓縮 1.1、為什麽要壓縮？輸出數據較大時，使用hadoop提供的壓縮機制對數據進行壓縮，可以指定壓縮的方式。減少網絡傳輸帶寬和存儲的消耗；可以對map的輸出進行壓縮（m

Python3基礎 str 循環輸出list中每個單詞及其長度

clas str 簡單 dev 方法 .cn uid 語言 art ? python : 3.7.0 OS : Ubuntu 18.04.1 LTS

Hadoop之MapReduce過程，單詞計數WordCount

單詞計數是最簡單也是最能體現MapReduce思想的程式之一，可以稱為MapReduce版“Hello World”，該程式的完整程式碼可以在Hadoop安裝包的src/example目錄下找到。單詞計數主要完成的功能：統計一系列文字檔案中每個單詞出現的次數，如下圖所示。 WordCo

Hadoop-MapReduce初步應用-統計單詞個數

參考官網的單詞統計，上傳文字檔案讀取資料，統計等，首先準備好文字檔案，隨便寫點單詞，再看統計結果正確與否。註釋都寫在程式碼裡了，希望能幫到入門的開發人員專案結構如下，讀出的資料一起發出來了 package hadoop.com.test; import

Python每日一題：第3題：統計一個檔案中每個單詞出現的次數

題目：統計一個檔案中每個單詞出現的次數，列出出現頻率最多的5個單詞。前言：這道題在實際應用場景中使用比較廣泛，比如統計歷年來四六級考試中出現的高頻詞彙，記得李笑來就利用他的程式設計技能出版過一本背單詞的暢銷書，就是根據詞頻來記單詞，深受學生喜歡。這就是一個把程式設計技能用來解決實際問

用一個MapReduce輸出多個key的分割槽檔案

先看一下要處理的資料型別 19392963501,17816115082,2018-09-18 16:19:44,1431 14081946321,13094566759,2018-05-23 09:34:27,0610 13415701165,18939575060,2018-

程式設計，輸入一個１０進位制正整數，然後輸出它所對應的八進位制數。

方法一 import java.util.Scanner; public class Main { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); whil

三道習題（1、將單詞表中由相同字母組成的單詞歸成一類，每類單詞按照單詞的首字母排序，並按 #每類中第一個單詞字典序由大到小排列輸出各個類別。 #輸入格式：按字典序由小到大輸入若干個單詞，每個單詞佔一行，以end結束輸入。）

#coding=gbk ''' 1、將單詞表中由相同字母組成的單詞歸成一類，每類單詞按照單詞的首字母排序，並按 #每類中第一個單詞字典序由大到小排列輸出各個類別。 #輸入格式：按字典序由小到大輸入若干個單詞，每個單詞佔一行，以end結束輸入。 #cinema #iceman #maps #spam #a

【c語言】將一個數的二進位制序列逆序，然後輸出逆序之後的二進位制序，所對應的數

<pre name="code" class="cpp">// 將一個數的二進位制序列逆序，然後輸出逆序之後的二進位制序，所對應的數 #include <stdio.h> // 從原數拿出最低位，放到mid中，mid左移，原數右移 int r

Hadoop Streaming 輸出檔案分割

Hadoop streaming框架預設情況下會以'/t’作為分隔符，將每行第一個'/t’之前的部分作為key，其餘內容作為value，如果沒有'/t’分隔符，則整行作為key；這個key/tvalue對又作為reduce的輸入。hadoop 提供配置供使用者自主設定分隔

hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

剛剛研究了一下haoop官網單詞計數的例子，把詳細步驟解析貼在下面：準備工作： 1、haoop叢集環境搭建完成 2、新建一個檔案hello,並寫入2行單詞，如下： [[email protected] hadoop-2.6.0]# vi hello hello

hadoop MapReduce —— 輸出每個單詞所對應的檔案

相關推薦