Hadoop去掉格，換行符，製表符，回車符，換頁符【好吧，其實用正則表示式一下子就搞定了】

阿新 • • 發佈：2019-02-20

第一步：將文件中的空格，換行符(\n)，製表符(\t)，回車符(\n)，換頁符(\f)去掉

這時候可以採用兩種方法

1.使用Hadoop將文字以預設的分隔符（空格，換行符，製表符，回車符，換頁符）進行分割，並將分割後的字串直接輸出，這樣子新的文件中將不包括這些分隔符。

/**
 這裡在Map中去除空格、tab、回車等
 */
import java.io.*;
import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class Standardization {

  public static class TokenizerMapper
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
                        //預設的分隔符是“空格”、“製表符(‘\t’)”、“換行符(‘\n’)”、“回車符(‘\r’)”,換頁(‘\f’)
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
                context.write(word, one);//將分隔分割成功的文字直接輸出就排除了這些分隔符
      }
    }
  }

  public static class IntSumReducer
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable(1);

    public void reduce(Text key, Iterable<IntWritable> values,
                       Context context
                       ) throws IOException, InterruptedException {
                                PrintWriter outputStream=null;//這個被建立的檔案將在jar所在目錄下生成，而不會在存在於dfs
                                try{
                                        outputStream =new PrintWriter(new FileOutputStream("out.txt",true));
                }
                                catch(FileNotFoundException e){
                                        System.out.println("沒有許可權");
                                        System.exit(0);
                                        }
                outputStream.print(key.toString());
                outputStream.close();
                context.write(key,result);//而這裡的內容將被解除安裝dfs上
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount <in> [<in>...] <out>");
      System.exit(2);
    }
    Job job = new Job(conf, "word count");
    job.setJarByClass(Standardization.class);
    job.setMapperClass(TokenizerMapper.class);
    //這裡並沒有配置shuffle
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

以上程式碼可以執行並得到所需結果，但有一個缺點是會將輸入檔案中的文字的順序打亂即輸出檔案中的文字順序和輸入檔案的不同。

這是由於在shuffle過程中對map的輸出重新進行了排序，如果是英文的話是按照a-z的字母表順序。、

另外執行hadoop程式可藉助shell程式設計，減少重複敲程式碼。而shell中的內容直接寫命令即可。

Hadoop去掉格，換行符，製表符，回車符，換頁符【好吧，其實用正則表示式一下子就搞定了】

第一步：將文件中的空格，換行符(\n)，製表符(\t)，回車符(\n)，換頁符(\f)去掉這時候可以採用兩種方法 1.使用Hadoop將文字以預設的分隔符（空格，換行符，製表符，回車符，換頁符）進行分割，並將分割後的字串直接輸出，這樣子新的文件中將不包括這些分隔符。 /

微信自動回復，Python幾行代碼就搞定了，消息不在錯過

天突 b2c 百度搜接口 python 幫助文檔分析 caption req 之前寫過一篇python-requests獲取好友列表的文章，簡直花費了好多的時間和精力，又抓包，又找參數，又分析的，簡直麻煩透頂，今天突然知道了另外一種捷徑，幾行代碼就可以完成...

微信自動回覆，Python幾行程式碼就搞定了，訊息不在錯過

之前寫過一篇python-requests獲取好友列表的文章，簡直花費了好多的時間和精力，又抓包，又找引數，又分析的，簡直麻煩透頂，今天突然知道了另外一種捷徑，幾行程式碼就可以完成.... 學習Python中有不明白推薦加入交流裙

【轉】如何快速識別應用MOS管，幾張圖片就搞定了

alt 通過 lan dia icm dji icp jpg http 三極管是流控型器件，MOS管是壓控型器件，兩者存在相似之處。三極管機可能經常用，但MOS管你用的可能較少。對於MOS管先拋出幾個問題：如何區分P-MOS和N-MOS；如何區分MOS的G、D、

轉義序列中的換行、水平製表符、回車的作用

1.轉義字元:\n （newline）:在Windows系統中，就是當前位置移到下一行開頭` 例：printf("%s\n"，“rose”); ,此時的程式碼是指從rose開始把游標的位置移到下一行（不一定在開頭，但不知道為什麼）,無論是放在哪裡，只有在程式執行時都是直接換行

Python 用正則表示式一次替換文章中所有特殊符號，如“-,$()#+&*”之類

一個簡單的正則表示式，可能會起大作用。比如說字符集就是這樣。一篇文章如果有各種亂碼，就可以用這種方法去除。如去除“-,$()#+&*”之類符號是很方便的。按照查詢、分割、替換的套路再做一做這樣的練習。今天晚了，後續還要操作檔案來完善這一點。 import re

#計算字串中所有數字和，連續當一個數字（正則表示式,能不用就不用）

s='12as3d6f20ads01sd02' import re def he(s): c=re.compile('\d+')#建立正則表示式 l=c.findall(s)#返回所有匹配結果的列表 sum=0 #和 for i in l: #遍歷

驗證正則表示式(一)，同時驗證手機號碼和固定電話號碼

var reg=^((13[0-9])|(14[5|7])|(15([0-3]|[5-9]))|(18[0,5-9]))\d{8}$|^0\d{2,3}-?\d{7,8}$;//正則表示式主要實現程式碼如下： function CheckPhone(number){

idea快速生成實體類Entity（找了半天，自己一步就搞出來了）

第一步、用idea連線資料庫（我這裡用的mysql）第二步、關鍵的來了，瑪德怪不得idea開發效率高，生成實體類一步搞定（右鍵選擇生成實體的表，那個Generare POJO就是了，屌不屌…………太屌了，然後稍微修改一下下）

我沒有前端經驗，但1天就搞定了開源專案主頁

## 前言前段時間打算為自己的開源專案做一個主頁，一方面有個好的門面能提升專案的關注度，一方面也能對專案所涉及的資源做一個整合。其實原先專案已經有一個文件主頁，比較簡潔，大致長這樣： ![04b3mF.png](https://img2020.cnblogs.com/other/268224/202

寫個選項卡用bootstrap 幾行程式碼就搞定了

<ul id="myTab" class="nav nav-tabs"> <li class="active"> <a href="#A" data-toggle="tab"> A選項卡

Javascript：匹配所有“\r\n”的正則表示式，把換行符替換成 br

Javascript：匹配所有“\r\n”的正則表示式，把換行符替換成 var atStr="字串"; var dataAt=atStr.replace(/(\r\n)|(\n)/g,'<br&

js________轉義字元，什麼是轉義字元，換行（\n）和回車（\r）的區別是什麼

一、轉義字元什麼時候使用：//1、在每門計算機語言裡，都有一些字元代表著特殊意義。//如果，我們需要使用字元的本意（如：我就希望使用左尖括號），就得用轉義字元//2、有些字元是沒有直接輸出的。就需要轉義字元；如：回車；//如：在HTML裡，左尖括號代表標籤開始，右尖括號代表標

js正則表示式，去除首尾多餘的空格或者換行

var str="\n\n111\n\n" str = str.replace(/^\s+|\s+$/g,''); //去掉末尾多餘的換行執行後str="111"了，呵呵其中：要匹配的內容的需要放在/ /之間； ^代表開頭，$代表結尾 \s 代表：匹配一

正則表示式匹配換行符

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

Python正則表示式做文字預處理，去掉特殊符號

在進行文字訓練和處理之前難免要進行下預處理，過濾掉沒有用的符號等，簡單用python 的正則表示式過濾一下。 #!/usr/bin/python # encoding: UTF-8 import re # make English text clean def clean_en_text(te

python 遇到表情程式碼出錯，用正則表示式去掉表情程式碼

>>> aa = '\U0001f60a\adwkdkdkkdk' # 這裡“\U0001f60a” 這是表情的程式碼帶這個\ >>> import re >>> cc = re.compile(r'\U0

這20個正則表示式，讓你少寫1,000行程式碼

正則表示式——古老而又強大的文字處理工具。僅用一段簡短的表示式語句，就能快速地實現一個複雜的業務邏輯。掌握正則表示式，讓你的開發效率有一個質的飛躍。正則表示式經常被用於欄位或任意字串的校驗，比如下面這段校驗基本日期格式的JavaScript程式碼：

Javascript去除回車換行符號和PHP去除回車換行符的方法

在不同的作業系統，回車換行符號是不一樣的，看下面： Unix系統裡，每行結尾只有“<換行>”，即“\n”；Windows系統裡面，每行結尾是“<回車><換行>”，即“\r\n”；Mac系統裡，每行結尾是“<回車>”，即“\r”

python----使用re正則表示式刷選資料，去重，列表，取特定行資料（適用於web的html回包資料提取）

python—-使用re正則表示式刷選資料，去重，列表，取特定行資料（適用於web的html回包資料提取）環境配置：對目標伺服器的日誌檔案進行刷選特定資料（192.168.4.27） /usr/

Hadoop去掉格，換行符，製表符，回車符，換頁符【好吧，其實用正則表示式一下子就搞定了】

相關推薦