java編寫spark程式

阿新 • • 發佈：2019-01-07

importjava.net.URI; 
import java.util.Arrays; 
import java.io.*; 
import org.apache.hadoop.io.*; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.*; 
import org.apache.hadoop.fs.FileSystem; 
 
public class mysparktest { 
    public static void main(String[] args) throws IOException{ 
        String uri = "hdfs://192.168.217.132:9000/unit/xferlog"; 
        String uro = "hdfs://192.168.217.132:9000/unit/xferlogoutput" ; 
        Configuration conf = new Configuration(); 
        try { 
             //開啟檔案系統
            FileSystem fs = FileSystem. get(URI.create (uri), conf); 
            //開啟檔案輸入流
            FSDataInputStream in = fs.open( new Path(uri)); 
            //檔案讀取 
            byte[] ioBuffer = new byte[1024];   
            int readLen = in.read(ioBuffer);       
            while(readLen!=-1)   
            {   
                readLen = in.read(ioBuffer);   
            }   
            String str = new String(ioBuffer); 
            int cnt=0; 
            while(( int)(str.charAt(cnt)) != 0)cnt++; 
            str=str.substring(0, cnt); 
            System. out.println(str); 
            in.close();   
            //檔案的刪除 
            fs.delete( new Path(uri), true); 
            //寫入到新檔案中
            FSDataOutputStream out = fs.create( new Path(uro));           
            out.write(( "new1"+str).getBytes( "UTF-8")); 
            out.flush(); 
            out. sync(); 
            out.close(); 
            fs.close(); 
        } catch (Exception e) { 
            e.printStackTrace(); 
        } 
         
    } 
}import org.apache.spark.SparkConf; 
import org.apache.spark.api.java.JavaPairRDD; 
import org.apache.spark.api.java.JavaRDD; 
import org.apache.spark.api.java.JavaSparkContext; 
import org.apache.spark.api.java.function.FlatMapFunction; 
import org.apache.spark.api.java.function.Function2; 
import org.apache.spark.api.java.function.PairFunction; 
import scala.Tuple2; 
 
 
import java.util.Arrays; 
import java.util.List; 
import java.util.regex.Pattern; 
 
 
public final class mysparktest { 
  private static final Pattern SPACE = Pattern. compile(" "); 
 
 
  public static void main(String[] args) throws Exception { 
    String uri = "hdfs://Master:9000/unit/xferlog";
    String uro = "hdfs://Master:9000/unit/xferlog1";
      
//    if (args.length < 1) { 
//      System.err.println("Usage: JavaWordCount "); 
//      System.exit(1); 
//    } 
 
 
    //建立SparkConf，包含application的相關資訊 
    SparkConf sparkConf = new SparkConf().setAppName( "JavaWordCount"); 
    //建立一個JavaSparkContext物件 
    JavaSparkContext sc = new JavaSparkContext(sparkConf); 
    //textFile()方法可將本地檔案或HDFS檔案轉換成RDD，讀取本地檔案需要各節點上都存在，或者通過網路共享該檔案 
    //讀取一行 
    JavaRDD lines = sc.textFile(uri, 1); 


    //flatMap與map的區別是，對每個輸入，flatMap會生成一個或多個的輸出，而map只是生成單一的輸出 
    //用空格分割各個單詞,輸入一行,輸出多個物件,所以用flatMap 
    JavaRDD words = lines.flatMap( new FlatMapFunction() { 
      @Override 
      public Iterable call(String s) { 
        return Arrays.asList(SPACE.split(s)); 
      } 
    }); 
    //對每個單詞生成key-value對,PairFunction 
    //表示輸入型別為T,生成的key-value對中的key型別為k,value型別為v,對本例,T=String, K=String, V=Integer(計數) 
    //重寫scala的Tupple2方法 
    JavaPairRDD ones = words.mapToPair( new PairFunction() { 
      @Override 
      //scala.Tuple2 call(T t) 
      //Tuple2為scala中的一個物件,call方法的輸入引數為T,即輸入一個單詞s,新的Tuple2物件的key為這個單詞,計數為1 
      public Tuple2 call(String s) { 
        return new Tuple2(s, 1); 
      } 
    }); 
    //呼叫reduceByKey方法,按key值進行reduce 
    //呼叫Function2物件,Function2 
    //輸入兩個引數,T1,T2,返回R 
    //若ones有<"one", 1>, <"one", 1>,會根據"one"將相同的pair單詞個數進行統計,輸入為Integer,輸出也為Integer 
    //輸出<"one", 2> 
    JavaPairRDD counts = ones. reduceByKey(new Function2() { 
      @Override 
      public Integer call(Integer i1, Integer i2) { 
        return i1 + i2; 
      } 
    }); 
    //將結果儲存到HDFS中 
    counts.saveAsTextFile(uro); 
    //collect返回一個包含RDD內所有元素的Array 
    List> output = counts.collect(); 
    for (Tuple2<?, ?> tuple : output) { 
      System.out.println(tuple._1() + ": " + tuple._2()); 
    } 
    sc.stop(); 
  } 
}importorg.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;
 
import java.util.Arrays;
import java.util.List;
import java.util.regex.Pattern;
 
 
public final class mysparktest {
  private static final Pattern SPACE = Pattern. compile(" ");
 
 
  public static void main(String[] args) throws Exception {
        String uri = "hdfs://Master:9000/unit/xferlog";
      String uro = "hdfs://Master:9000/unit/xferlog1" ;

      SparkConf sparkConf = new SparkConf().setAppName( "JavaWordCount");
      JavaSparkContext ctx = new JavaSparkContext(sparkConf);


      //也可以使用ctx獲取環境變數，例如下面的語句 
      System.out.println("spark home:"+ctx.getSparkHome()); 

       //一次一行，String型別    ,還有 hadoopfile，sequenceFile什麼的  ，可以直接用sc.textFile("path") 
      JavaRDD lines = ctx.textFile(uri, 1);  //java.lang.String path, int minSplits 
      lines.cache();   //cache，暫時放在快取中，一般用於哪些可能需要多次使用的RDD，據說這樣會減少執行時間 


      //collect方法，用於將RDD型別轉化為java基本型別，如下 
      List line = lines.collect(); 
      for(String val:line) 
              System. out.println(val); 


     //下面這些也是RDD的常用函式 
     // lines.collect();  List 
     // lines.union();     javaRDD 
     // lines.top(1);     List 
     // lines.count();      long 
     // lines.countByValue(); 


      /**
       *   filter test
       *   定義一個返回 bool型別的函式，spark執行filter的時候會過濾掉那些返回只為false的資料
       *   String s，中的變數s可以認為就是變數lines（lines可以理解為一系列的String型別資料）的每一條資料
       */  
      JavaRDD contaninsE = lines.filter( new Function() { 
      
          public Boolean call(String s) throws Exception { 
             return (s.contains( "passwd")); 
          } 
      }); 
     
      System.out.println("--------------next filter's  result------------------"); 
      line = contaninsE.collect(); 
      for(String val:line) 
          System. out.println(val); 


      /**
       * sample test
       * sample函式使用很簡單，用於對資料進行抽樣
       * 引數為：withReplacement: Boolean, fraction: Double, seed: Int
       *
       */  


      JavaRDD sampletest = lines.sample( false,0.1,5); 
      System.out.println("-------------next sample-------------------"); 
      line = sampletest.collect(); 
      for(String val:line) 
          System. out.println(val); 

      /**
       *
       * new FlatMapFunction兩個string分別代表輸入和輸出型別
       * Override的call方法需要自己實現一個轉換的方法，並返回一個 Iterable的結構
       *
       * flatmap屬於一類非常常用的spark函式，簡單的說作用就是將一條 rdd資料使用你定義的函式給分解成多條 rdd資料
       * 例如，當前狀態下，lines這個 rdd型別的變數中，每一條資料都是一行String，我們現在想把他拆分成1個個的詞的話，
       * 可以這樣寫 ：
       */  


      JavaRDD words = lines.flatMap( new FlatMapFunction() { 
          @Override 
          public Iterable call(String s) { 
               String[] words=s.split( " "); 
                return Arrays. asList(words); 
          } 
      }); 

      /**
       * map 鍵值對 ，類似於MR的map方法
       * pairFunction: T:輸入型別；K,V：輸出鍵值對
       * 需要重寫call方法實現轉換
       */  
      JavaPairRDD ones = words.mapToPair( new PairFunction() { 
          @Override 
          public Tuple2 call(String s) { 
              return new Tuple2(s, 1); 
          } 
      }); 


      //A two-argument function that takes arguments 
      // of type T1 and T2 and returns an R. 
      /**
       *  reduceByKey方法，類似於MR的reduce
       *  要求被操作的資料（即下面例項中的ones）是KV鍵值對形式，該方法會按照key相同的進行聚合，在兩兩運算
       */  
      JavaPairRDD counts = ones.reduceByKey( new Function2() { 
          @Override 
          public Integer call(Integer i1, Integer i2) {  //reduce階段，key相同的value怎麼處理的問題 
              return i1 + i2; 
          } 
      }); 


      //備註：spark也有reduce方法，輸入資料是RDD型別就可以，不需要鍵值對， 
      // reduce方法會對輸入進來的所有資料進行兩兩運算 

      /**
       * sort，顧名思義，排序
       */  
      JavaPairRDD sort = counts.sortByKey(); 
      System.out.println("----------next sort----------------------"); 



      /**
       * collect方法其實之前已經出現了多次，該方法用於將spark的RDD型別轉化為我們熟知的java常見型別
       */  
      List> output = sort.collect(); 
      for (Tuple2<?,?> tuple : output) { 
          System. out.println(tuple. _1 + ": " + tuple._2()); 
       
      } 


      /**
       * 儲存函式，資料輸出，spark為結果輸出提供了很多介面
       */  
//      sort.saveAsTextFile( uro); 

     // sort.saveAsNewAPIHadoopFile(); 
    //  sort.saveAsHadoopFile();
     
      System.exit(0); 
  }
}

java編寫spark程式

importjava.net.URI; import java.util.Arrays; import java.io.*; import org.apache.hadoop.io.*; import org.apache.hadoop.conf.Configuration; import org.

用java編寫spark程式，簡單示例及執行

最近因為工作需要，研究了下spark，因為scala還不熟，所以先學習了java的spark程式寫法，下面是我的簡單測試程式的程式碼，大部分函式的用法已在註釋裡面註明。我的環境：hadoop 2.2.0 spark-0.9.0

JAVA——編寫時鐘程式

編寫時鐘程式 1.要求建立一個視窗並實時顯示當前時間，每1秒時鐘內容更新一次，在介面中包含數字式和錶盤式的顯示。 2.語法 Java.util.Calendar包的使用繪製時鐘圖形 Gregor

java 編寫一個程式實現字串大小寫的轉換並倒序輸出

package cn; public class Test01 { public static void main(String[] args) { String str= "HelloWorld"; char[] ch = str.toCharArray();

編寫Spark程式並提交到叢集上執行

編寫Spark應用程式使用SCALA IDE，新建一個SCALA PROJECT，在專案下新建一個lib的資料夾，把spark的JAR包放進去，並且build path裡新增一下JAR包引用，然後新增一個SCALA類SparkRowCount，這個Spark

如何使用PyCharm編寫Spark程式(pyspark)

import os import sys # Path for spark source folder os.environ['SPARK_HOME'] = "/Users/dustinchen/Do

編寫Spark程式的幾個優化點

雖然spark已經提供了大量簡單易用的API，但要想編寫出高效能的spark應用，必須要對整體框架有一定的瞭解，對於Spark初學者來說是比較困難的。針對這個這個問題，其實在spark1.6中，已經加入了dataset，官方已經對其進行了一系列

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式

好程式設計師大資料教程：SparkShell和IDEA中編寫Spark程式，spark-shell是Spark自帶的互動式Shel

java編寫WordCound的Spark程式，Scala編寫wordCound程式

1、建立一個maven專案，專案的相關資訊如下： <groupId>cn.toto.spark</groupId> <artifactId>bigdata</artifactId> <version>1.0-S

在Spark Shell中編寫WordCount程式

Spark Shell是一個互動式的命令列，裡面可以寫Spark程式(Scala語言)，也是一個客戶端，用於提交Spark程式 1.啟動Spark Shell bin/spark-shell 上邊是沒有指定Master地址的啟動方式，啟動後用的是spark的local模

山科java實驗4-1 編寫一個程式，使用者可以從鍵盤錄入若干個學生的姓名和分數（程式每次提示使用者輸入“Y”或“N”決定是否繼續錄入學生資訊，如果使用者輸入“N”則使用者輸入完畢。輸入的“Y”、“N”不區分

編寫一個程式，使用者可以從鍵盤錄入若干個學生的姓名和分數（程式每次提示使用者輸入“Y”或“N”決定是否繼續錄入學生資訊，如果使用者輸入“N”則使用者輸入完畢。輸入的“Y”、“N”不區分大小寫）。使用者錄入完畢後，程式按成績由高到低的順序輸出學生的姓名和分數（姓名和分數之間用一個空格分割）。【說明

【已解決！】spark程式報錯：java.lang.IndexOutOfBoundsException: toIndex = 9

該篇文章意於記錄報錯，也給遇到相同問題的小夥伴提供排錯思路！但是本人也沒有什麼好的解決方法，如果有，我會更新此文章問題已經解決，請大家拉到最下面↓↓↓↓↓ 記錄下報錯：寫了段spark程式碼，然後報錯了 2018-07-30 17:19:28,854 WARN [task-re

使用java和scala編寫spark-WordCount示例

前言：最近博主在學習spark相關知識，感覺是個挺不錯的框架，它的分散式處理大資料集的思想還是值得我們好好學習的。個人感覺以後java開發肯定不僅僅是SSM這一套東西了，當資料量越來越大時，我們需要學習使用這些大資料工具。

Eclipse IDE 使用Java語言執行Spark程式

簡單記錄下遇到的坑一、新增/usr/local/spark-2.3.1-bin-hadoop2.7/lib下所有jar包（若是Scala語言也需要新增這些庫）二、設定執行URI或本地模式三、建立new_configuration 參考https

用 java 編寫 Hello World 程式

一、安裝 JDK 可在360軟體管家內下載並安裝安裝如下圖：設定安裝目錄等待進度條完成：二、eclipse下載與安裝下載連結為：https://www.eclipse.org/ 下載安裝包：點選 Eclipse

使用 java 編寫 Hello World 程式

一、安裝 JDK 可在360軟體管家內下載並安裝安裝如下圖：設定安裝目錄等待進度條完成：二、eclipse下載與安裝下載安裝包：點選 Eclipse IDE for Java Developers 進行下載：三、

在IDEA中編寫Spark的WordCount程式（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Art

java編寫控制檯五子棋小程式

package com.lddx.game; import java.util.Scanner; //五子棋遊戲 /* * 做出棋盤，實現黑白雙方落子，實現黑白雙方重複落子的功能，實現黑白雙方勝利的功能 * */ public class wuziqi { /** * @para

Spark程式呼叫json4s報錯[java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/Js]

Error: org.json4s.jackson.JsonMethods$.parse(Lorg/json4s/JsonInput;Z)Lorg/json4s/JsonAST$JValue; at org.apache.spark.sql.types.DataTyp

java編寫抖音上圖片轉文字的程式

看著有趣就花了點時間，找相關demo拼湊在一起了。邏輯是讀取圖片畫素，根據畫素RGB值區分深淺，然後再用文字替換，輸出成text的文件。最後改變字型到合適的大小。話不多說，直接貼主程式碼。為防伸手黨，各位添加個包，補個private的命名就好。/** * 讀取一張圖片的RGB

java編寫spark程式

相關推薦