統計單詞在每個檔案中出現的次數，並且將出現次數按照降序排列

阿新 • • 發佈：2018-12-24

package kaoshi3;

import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import 
 org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

//統計單詞在每個檔案中出現的次數，並且將出現次數按照降序排列 


public class wordcount {
    static class MyMapper extends Mapper<LongWritable, Text, Text, Text>{
        Text mk=new Text();
        Text mv=new Text();
        String filename="";
        @Override
            //setup job任務執行時載入一次，可以獲取檔案資訊
        protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)
                throws 
 IOException, InterruptedException {
            InputSplit insplit = context.getInputSplit();   //通過上下文物件，獲取切片檔案的切片資訊
            FileSplit fs=(FileSplit)insplit;                //轉換其型別，inputsplit中沒有獲取檔名的
            filename = fs.getPath().getName();              //獲取檔名
        }
        @Override
        protected void map(LongWritable key, 
                Text value,
                Context context)
                throws IOException, InterruptedException {

            //liangchaowei love liujialing
            String[] sp = value.toString().split(" ");
            for(String word: sp){
                mk.set(word);
                mv.set(filename);               
                context.write(mk, mv);          //單詞作為key，檔名作為value傳送
            }
        }
    }
    static class MyReducer extends Reducer<Text, Text, Text, Text>{
        Text t = new Text();
        String sv="";
        int sum1=0;
        int sum2=0;
        String file1="";
        String file2="";
        String out1="";
        String out2="";
        @Override
        protected void reduce(Text key, 
                Iterable<Text> values, 
                Reducer<Text, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            for(Text v:values){
                sv = v.toString();
                if(sv.startsWith("mapreduce-4-1.txt")){
                    file1=sv;               //檔名
                    sum1++;                 //獲取次數
                }else{                      
                    file2=sv;               //獲取次數
                    sum2++;                 //檔名
                }
            }
            if(sum1>sum2){                  //判斷排序
                out1=file1+":"+sum1+"\t"+file2+":"+sum2;//輸出資料比較少就用了String型別
                t.set(out1);
                context.write(key,t);
            }else{
                out2=file2+":"+sum2+"\t"+file1+":"+sum1;
                t.set(out2);
                context.write(key,t);
            }
        }
    }

    public static void main(String[] args) throws IOException, URISyntaxException, ClassNotFoundException, InterruptedException {
        //本地執行新增
        System.setProperty("HADOOP_USER_NAME", "hadoop");
        //新增配置檔案
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);            //建立一個job任務

        job.setJarByClass(kaoshi3.wordcount.class); //指定驅動類的載入路徑

        job.setMapperClass(MyMapper.class);         //指定mapper的載入類
        job.setReducerClass(MyReducer.class);       //指定reduce載入類

        job.setOutputKeyClass(Text.class);          //設定輸出key的型別
        job.setOutputValueClass(Text.class);        //設定輸出valse的型別

        FileInputFormat.addInputPath(job, new Path("hdfs://hadoop01:9000/ksin02"));     //新增輸入路徑

        FileSystem fs = FileSystem.get(new URI("hdfs://hadoop01:9000"), conf);

        Path path = new Path("/ksout02");                       //輸出路徑
        if(fs.exists(path)){                                    //判斷輸出路徑是否存在
            fs.delete(path,true);
        }
        FileOutputFormat.setOutputPath(job, path);
        job.waitForCompletion(true);
    }

}

統計單詞在每個檔案中出現的次數，並且將出現次數按照降序排列

package kaoshi3; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.hadoop.conf.Configuratio

找出兩個數組中都有，並且重復次數最多的元素

var In IT 兩個 code TE total urn des var itemA = [1, 2, 3, 3] var itemB = [3, 3, 2] var crossArr = []; var countArr = []; itemA.forEach((e

java實現賦值excel模板，並在新檔案中寫入資料，並且下載

/** * 生成excel並下載 */ public void exportExcel(){ File newFile = createNewFile(); //File newFile = new File("d:/ss.x

Java中讀取配置檔案中的內容，並將其賦值給靜態變數的方法

應用場景專案開發中某個功能需要抽取成方法寫成一個工具類，提供給別人使用。寫過工具類的人都知道，工具類中的方法一般都是靜態方法，可以直接使用類名點方法名呼叫，使用很方便，比如判斷某個物件是否為空的方式Objects.equals().由於我寫的這個工具類中需要讀取配置檔案中的內容，但是常規方法注入成員變數時

最大生成樹poj2377 （和最小生成樹一個原理，只是排序的時候要降序排列）

#include<cstdio> #include<algorithm> #include<cstring> using namespace std; const int maxn=1000+10; const int maxm=20000+10; struc

把陣列按照降序排列，然後加入一個數，重新排列

程式程式碼： package com.bd22; import java.util.Scanner; public class Sort { public static void main(String[] args) { int[] nums = new int[6];

做一個詞頻統計程式，該程式具有以下功能基本要求：（1）可匯入任意英文文字檔案（2）統計該英文檔案中單詞數和各單詞出現的頻率（次數），並能將單詞按字典順序輸出。（3）將單詞及頻率寫入檔案。

import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileReader; import java.io.FileWriter; import java.io.IOExcep

編寫一個模組，含char_freq_table()函式。傳入檔名，統計檔案中的所有英文字元的出現次數，忽略大小寫的區別，並根據次數的高低列印字元以及頻率到螢幕

編寫一個模組，包含char_freq_table()函式。傳入一個檔名，統計檔案中的所有英文字元的出現次數，忽略大小寫的區別，並根據次數的高低列印字元以及頻率到螢幕如果有更好的思路，歡迎交流因為時間問題就直接寫在一個檔案裡了，主要實現了統計檔案中的所出現的各個字元以及他的次數

統計一個字串中每個字元出現的次數，並按出現的次數降序輸出統計結果

/* * * 如統計 abdc2223333ddd 輸出如下統計結果字元3出現了4次字元d出現了4次字元2出現了3次字元b出現了1次字元c出現了1次字元a出現了1次 */ public class CharacterCountTest { public static

利用python內建函式，快速統計單詞在文字中出現的次數

python中包含許多標準程式設計資料結構，如list(列表)，tuple(元組）、dict（字典）和set()，如果現有的資料型別不能滿足需求，可以派生某個內建型別進行定製，或者使用collections中定義的某個抽象基類作為起點構建一個新的容器型別。 c

統計字串在檔案中出現的次數

話不多說直接上程式碼 package Test; import java.io.BufferedReader; import java.io.FileReader; /** * 寫一個方法輸入一個一個檔名和一個字串，統計這個字串出現的次數 * @author Admini

Java統計一個文字檔案中每一行字串出現的次數

需求：現要統計一個文字檔案中每一行字串出現次數 public static HashMap<String, Integer> analysizeFile(File file) { Ha

隨機生成 50 個數字，每個數字的範圍在 [10, 50] 之間，統計每個數字出現的次數，最後將每個數字和它出現的次數打印出來

/** * 隨機生成 50 個數字，每個數字的範圍在 [10, 50] 之間，統計每個數字出現的次數，最後 * 將每個數字和它出現的次數打印出來 */ public class Test4 {

linux 統計關鍵字在檔案中出現的次數

方法一: grep -o '$關鍵字1\|關鍵字2|關鍵字3$' ur_log_file | awk '{a[$0]++} END{for (i in a) {print i"\t"a[i]; }}' | sort -nr -k2 按次數降序排的

Java 檔案統計：編寫程式，統計英文文字檔案中的字元數目和單詞數目。程式執行時，輸入要統計的檔案的名稱，程式處理後輸出字元數目和單詞數目

package text6; import java.util.*; import java.io.File; import java.io.FileReader; import javax.sw

統計日誌檔案中訪問數量，Spark中加強版WordCount

寫在前面學習Scala和Spark基本語法比較枯燥無味，搞搞簡單的實際運用可以有效的加深你對基本知識點的記憶，前面我們完成了最基本的WordCount功能的http://blog.csdn.net/whzhaochao/article/details/72358215，這篇主

查詢單詞在檔案中出現的位置及對應的行數

import java.io.*; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Demo1030a { public stati

Java學習（4）：統計一個文件中的英文，中文，數字，其他字符以及字符總數

port let args str reader 文件路徑要求 cnblogs pub 要求：統計一個文件中的英文，中文，數字，其他字符以及字符總數（此隨筆以txt文件為例） import java.io.BufferedReader; import java.io.F

統計來訪ip的次數，及輸出來訪次數大於10000的IP

for 5.0 出現 0.12 0.10 ces 下標 print 分析分析IP[$1]++ ##統計IP下標出現的次數 for (i in IP){print IP[i],i} 循環輸出IP下標出現的次數和下標（ip地址） 172.25.0.11172.2

python 從檔案中讀取資料，同時去除掉空格和換行

從檔案中讀取資料，同時去除掉空格和換行，程式碼如下 import numpy as np def sort(path): w = open(path,'r') l = w.readlines() col=[] for k in l: k = k.strip('\n')

統計單詞在每個檔案中出現的次數，並且將出現次數按照降序排列

相關推薦