spark java 示例代碼wordcount

阿新 • • 發佈：2017-11-28

pairs form onf 字符串拆分 apt tex sco 初始化 weibo

import java.util.Arrays;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
 
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

/**
 * 使用Java的方式開發進行本地測試Spark的WordCount程序
 *
 * @author DT大數據夢工廠 http://weibo.com/ilovepains
 */
public class WordCountSpk {

  public static void main(String[] args) {
     
/**
     * 第1步：創建Spark的配置對象SparkConf，設置Spark程序的運行時的配置信息，
     * 例如說通過setMaster來設置程序要鏈接的Spark集群的Master的URL,如果設置
     * 為local，則代表Spark程序在本地運行，特別適合於機器配置條件非常差（例如 只有1G的內存）的初學者 *
     */
    SparkConf conf = new SparkConf().setAppName("Spark WordCount written by Java").setMaster("local");
    /**
     * 第2步：創建SparkContext對象
     * SparkContext是Spark程序所有功能的唯一入口，無論是采用Scala、Java、Python
     * 、R等都必須有一個SparkContext(不同的語言具體的類名稱不同，如果是Java的話則為JavaSparkContext)
     * SparkContext核心作用：初始化Spark應用程序運行所需要的核心組件，包括DAGScheduler、TaskScheduler、
     * SchedulerBackend 同時還會負責Spark程序往Master註冊程序等
     * SparkContext是整個Spark應用程序中最為至關重要的一個對象
      
*/
    JavaSparkContext sc = new JavaSparkContext(conf); // 其底層實際上就是Scala的SparkContext
    /**
     * 第3步：根據具體的數據來源（HDFS、HBase、Local FS、DB、S3等）通過JavaSparkContext來創建JavaRDD
     * JavaRDD的創建基本有三種方式：根據外部的數據來源（例如HDFS）、根據Scala集合、由其它的RDD操作
     * 數據會被RDD劃分成為一系列的Partitions，分配到每個Partition的數據屬於一個Task的處理範疇
     * 註意：文件路徑不能直接用Windows路徑中的反斜扛\，要改成Linux下的斜扛/
     */
    JavaRDD<String> lines = sc
        .textFile("D:/hu.txt");
    /**
     * 第4步：對初始的JavaRDD進行Transformation級別的處理，例如map、filter等高階函數等的編程，來進行具體的數據計算
     * 第4.1步：講每一行的字符串拆分成單個的單詞
     */
    JavaRDD<String> words = lines
        .flatMap(new FlatMapFunction<String, String>() { // 如果是Scala，由於SAM轉換，所以可以寫成val
          // words =
          // lines.flatMap
          // { line =>
          // line.split(" ")}
          public Iterable<String> call(String line) throws Exception {
            return Arrays.asList(line.split(" "));
          }
        });
    /**
     * 第4步：對初始的JavaRDD進行Transformation級別的處理，例如map、filter等高階函數等的編程，來進行具體的數據計算
     * 第4.2步：在單詞拆分的基礎上對每個單詞實例計數為1，也就是word => (word, 1)
     */
    JavaPairRDD<String, Integer> pairs = words
        .mapToPair(new PairFunction<String, String, Integer>() {
          public Tuple2<String, Integer> call(String word)
              throws Exception {
            return new Tuple2<String, Integer>(word, 1);
          }
        });
    /**
     * 第4步：對初始的RDD進行Transformation級別的處理，例如map、filter等高階函數等的編程，來進行具體的數據計算
     * 第4.3步：在每個單詞實例計數為1基礎之上統計每個單詞在文件中出現的總次數
     */
    JavaPairRDD<String, Integer> wordsCount = pairs
        .reduceByKey(new Function2<Integer, Integer, Integer>() { // 對相同的Key，進行Value的累計（包括Local和Reducer級別同時Reduce）
          public Integer call(Integer v1, Integer v2)
              throws Exception {
            return v1 + v2;
          }
        });
    wordsCount.foreach(new VoidFunction<Tuple2<String, Integer>>() {
      public void call(Tuple2<String, Integer> pairs) throws Exception {
        System.out.println(pairs._1 + " : " + pairs._2);
      }
    });
    sc.close();
  }
}

pairs form onf 字符串拆分 apt tex sco 初始化 weibo import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.

java HTTP代碼示例

rac eba object 時間 ati mes highlight bytes sign //測試環境發送用例 @Test public void testSendForTest() { String url = "http://172.16.3

zbb20180913 java thread 死鎖示例代碼

exce stat pre ace imp exc @override runnable arp package com.zbb.test.thread; public class DeadLock { public static String obj1 = "obj

Spark SQL 源代碼分析之Physical Plan 到 RDD的詳細實現

local 過濾右連接操作 images img mem sans 觀察 /** Spark SQL源代碼分析系列文章*/ 接上一篇文章Spark SQL Catalyst源代碼分析之Physical Plan。本文將介紹Physical Plan的toRDD的

PMD 5.7.0 發布，Java 程序代碼檢查工具

使用 beats odi 每日代碼 amp 抓取變量更多 PMD 5.7.0 發布了。PMD 是一款采用 BSD 協議發布的 Java 程序代碼檢查工具。該工具可以做到檢查 Java 代碼中是否含有未使用的變量、是否含有空的抓取塊、是否含有不必要的對象等。該軟件功能強

java 源代碼的魅力

clas data- 經典的 java源碼 trac post con font rac 學習一種語言：最快的方法。就是研究其源碼。從源碼中可以體會到各種經典的思想！贊賞一下：比如：我們在寫一些冒泡和選擇排序的時候用的交換： /**

rocketMQ的運行示例代碼

auto oid ret try code thread comm shu pan rocketMQ的示例代碼 1 import com.alibaba.rocketmq.client.exception.MQBrokerException; 2 import com

Java常用代碼總結

[] blog http ati target catch () log 字符串格式化原創作品，可以轉載，但是請標註出處地址：http://www.cnblogs.com/V1haoge/p/7004474.html 1、日期與字符串之間的轉換 1 publ

jquery的父子兄弟節點查找示例代碼

tro 過濾 jquery對象 parent 元素一個 ldr all 但是 jQuery.parent(expr) 找父親節點，可以傳入expr進行過濾，比如$("span").parent()或者$("span").parent(".class") jQuery.pa

java 反射代碼片段

反射 getc 處理異常 name date tcl 必須 getclass logs Date d = new Date(); Class cl = d.getClass(); String className = "java.util.Dat

Spark Core源代碼分析: RDD基礎

water 節點遞歸 extc 細致 get part -- 排序 RDD RDD初始參數：上下文和一組依賴 abstract class RDD[T: ClassTag]( @transient private var sc: SparkCont

java 總結代碼塊

音樂選擇 log sys 隨機數 ava msg bst ring 判斷str2在str中出現了多少次： //msg: // // 世界上最痛苦的事莫過於有眼睛卻發現不了美有耳朵卻不會欣賞音樂有心靈卻無法理解什麽是最真

自學Java測試代碼

wan 二維數組 ted eth args bin -- pac blog 2017-08-22 21:23:37、 writer：pprp package test; public class helloWorld { int maxn = 123;

大道至簡第一章讀後感——java偽代碼形式

我們 stat 分析師實施方案 class 組織者 ava 軟件工程目標大道至簡這本書第一章在向讀者展示編程的精義。開篇以愚公移山的例子來描述軟件工程項目。愚公，作為一名工程名家，集項目組織者、團隊經理、編程人員、技術分析師於一身，來領導工程的進

Spring MVC 使用支付寶接口完成在線支付的示例代碼

ole lur 在線支付本地 pro 之間 temp 完成在外本篇文章主要介紹了Spring MVC 使用支付寶接口完成在線支付的示例代碼，具有一定的參考價值，有興趣的可以了解一下項目中要使用到在線支付功能目前常用的在線支付手段主要是支付寶和微信。這裏我使

java源代碼安全審計(三)

target tar 生成進行 java源代碼 -- 接下來項目工具使用上期說到對項目進行maven clean install成功後，生成了target目錄接下來看我如何處理剩下的步驟，完成源代碼安全審計的。預留，下次再補 ------------

大道至簡第一章觀後感——java偽代碼

ron span 編程語言宋體觀後感行動討論設計師技術一節： public class Yugongyishan_ { //定義一個名為Yugongyishan_的類 Public static void main(string args[]) //

Java偽代碼描述《大道至簡》第一章

完成管理 class 網頁數值處理小數點技術方案小數 default 第一節 Begin //原始需求懲山北之塞，出入之迂 //項目溝通的基本方式聚室而謀曰 //項目目標畢力平險，指通豫南，達於漢陰 //技術方案扣石墾壤，箕畚運於渤海之尾 //技術人員

大道至簡第一章Java偽代碼

關系邏輯喜歡條件 pri 學習時間 args 事件分析 1.編程的精義//愚公移山public class Yugong{public static void main(String[]args){ while(山沒平){

大道至簡第一章讀後感（java偽代碼）

sys 快速 break java 程序 str rgs ring 結束大道至簡第一章用Java偽代碼編寫第一次寫，難免有錯誤，歡迎指正和指導 //1 愚公移山public class yishan{public static void main(String[]args

spark java 示例代碼wordcount

相關推薦