SparkStreaming部分：updateStateByKey運算元（包含從Linux端獲取資料，flatmap切分，maptopair分類，寫入到本地建立的資料夾中）【Java版純程式碼】

阿新 • • 發佈：2019-02-05

package com.bjsxt;

import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;

import com.google.common.base.Optional;

import scala.Tuple2;
import scala.actors.threadpool.Arrays;

public class UpdateStateByKeyOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("test").setMaster("local[2]");
        JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(5));
        /**
         * 去除日誌的重複
         */
        jsc.sparkContext().setLogLevel("ERROR");
        /**
         * 設定checkpoint目錄： 多久會接收記憶體中的資料（每一個key所對應的狀態）寫入到磁碟上呢？
         * 如果你的batchinterval小於10S，那麼10S會將記憶體中的資料寫入到磁碟一份
         * 如果batchinterval大於10S，那麼就以batchinterval為準 這樣做是為了防止頻繁的寫HDFS
         * 設定checkpoint目錄的兩種方式： 1.jsc.checkpoint("./checkpoint"); 2.JavaSparkContext
         * sc=jsc.sparkContxt(); sc.setCheckpointDir("./checkpoint");
         * 
         */
        jsc.checkpoint("./checkpoint");
        /**
         * 從Linux端接收資料
         */
        JavaReceiverInputDStream<String> lines = jsc.socketTextStream("node01", 9999);
        /**
         * 呼叫flatmap運算元進行切分
         */
        JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

            @Override
            public Iterable<String> call(String s) throws Exception {

                return Arrays.asList(s.split(" "));
            }
        });
        /**
         * 呼叫mapToPair 進行分類
         */
        JavaPairDStream<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<String, Integer>(s, 1);
            }
        });
        /**
         * 呼叫updateStateByKey運算元
         * 
         */
        JavaPairDStream<String, Integer> counts = ones
                .updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() {

                    @Override
                    public Optional<Integer> call(List<Integer> values, Optional<Integer> state) throws Exception {
                        /**
                         * values:經過分組最後 這個key所對應的value [1,1,1,1,1] state:這個key在本次之前之前的狀態
                         */
                        Integer updateValue = 0;
                        if (state.isPresent()) {
                            updateValue = state.get();
                        }
                        for (Integer value : values) {
                            updateValue += value;
                        }
                        return Optional.of(updateValue);
                    }
                });
        // output operator
        counts.print();
        jsc.start();
        jsc.awaitTermination();
        jsc.close();
    }
}

SparkStreaming部分：updateStateByKey運算元（包含從Linux端獲取資料，flatmap切分，maptopair分類，寫入到本地建立的資料夾中）【Java版純程式碼】

package com.bjsxt; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction;

SparkStreaming部分：OutPutOperator類，SaveAsHadoopFile運算元（實際上底層呼叫textFileStream讀取的，跟前兩種有一些區別）【Java版純程式碼】

package streamingOperate.output; import java.util.Arrays; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; imp

SparkStreaming部分：OutPutOperator類，SaveAsTextFile運算元（實際上底層呼叫textFileStream讀取的，呼叫dstream儲存的）【Java版純程式碼】

package streamingOperate.output; import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.F

SparkSQL建立RDD：UDF（UserDataFrame）使用者建立自定義函式（包含動態建立schema，使用者自定義函式，查詢字元的個數）【Java版純程式碼】

Java版程式碼： package com.bjsxt; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import org.apache.spark.Spark

Spark部分：Spark中取交集（intersection ）和取差集（subtract ）【Java版純程式碼】

package com.bjsxt.spark; import java.util.Arrays; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.Spar

SparkSQL建立RDD：UDAF（UserDefinedAggregatedFunction）使用者自定義聚合函式【Java版純程式碼】

要實現8個方法，8個方法中，最為重要的有3個： initialize：初始化，在給，map端每一個分割槽的每一個key進行初始化，給0 update：在map端聚合 merge：在reduce端聚合 Java版程式碼： package com.bjsxt; im

Storm部分：程式碼模板【Java版純程式碼】

總結：構成部分： Spout部分：繼承BaseRichSpout類，實現裡邊的三個方法：nextTuple,open,declareOutPutFields.主要的方法在nexttuple中寫，打包成集合的形式，在這個方法中用emit傳送，同時在declareOutPutF

（dataframe）利用dataframe來操作MySQL資料庫【Java版純程式碼】

package com.bjsxt; import java.util.HashMap; import java.util.Map; import java.util.Properties; import org.apache.commons.collections.ma

java基礎-初級（一）【java的基本語法】

目錄 1、java的基本語法 1、java的基本語法關鍵字、註釋、運算子、變數、常量、進位制和進位制轉換、語句、資料型別和資料轉換、識別符號。關鍵字：關鍵字是電腦語言中事先預定好的有意義的識別符號，又叫保留關鍵字

SparkStreaming（17）：updateStateByKey運算元，保留上一次計算結果

1.實現功能如果SparkStreaming程式斷掉，重新啟動，可以讀取斷掉之前的結果。通過，使用SparkStreaming的HA：checkpoints。 2.程式碼 package _0809kafka //import com.beifeng.util.

spark部分運算元的彙總大全（包含Transformations類運算元，action類運算元，持久化運算元等）【文字說明+Scala程式碼+程式碼連結】

一.Spark中的運算元總結（原理） Spark運算元 1).Transformations ,轉換運算元，懶執行，需要Action類運算元觸發。 map/mapToPair,flatMap,filter,reduceByKey,s

（轉載）【笨木頭Lua專欄】基礎補充20：面向對象——類和繼承

笑話 ava span 生成 code BE 手機情況忽略終於來了，在Lua中的面向對象編程，相信目前學習Lua的大部分人都是為了開發手機網遊吧。而且基本都是奔著腳本語言的熱更新特性去的，所以全腳本開發變得十分流行。對於普及不太廣的Lua（相對於C++、Java等主

（轉載）【笨木頭Lua專欄】基礎補充22：弱引用table

ive AC -c 所在 lan contain 函數貢獻缺陷這次要介紹的內容比較少，就一個——弱引用table 笨木頭花心貢獻，哈？花心？不，是用心~ 轉載請註明，原文地址：http://www.benmutou.com/archives/1808 文章來源：

（轉載）【笨木頭Lua專欄】基礎補充21：面向對象——多重繼承、私密性

子類先來 nta 參數 hive lua 封裝完成存在在Lua中的多重繼承和私密性可能用得比較少，也可能只是我個人用得比較少。本來想偷懶不寫這文章的，因為我今天剛買了個漂移板，連起步都還沒學會啊，想多學一會。咳咳，本著堅持不懈、負責到底的態度，我還是決定隨便寫幾

Spring Cloud 一：服務註冊與發現（Eureka）【Dalston版】

什麽是 pom 日誌操作 prop ng- 通過決策 target Spring Cloud簡介 Spring Cloud是一個基於Spring Boot實現的雲應用開發工具，它為基於JVM的雲應用開發中涉及的配置管理、服務發現、斷路器、智能路由、微代理、控制總線、全局

Spring Cloud 八：服務容錯保護（Hystrix斷路器）【Dalston版】

sta 什麽 star 根據 .com 一次 href 進行響應斷路器斷路器模式源於Martin Fowler的Circuit Breaker一文。“斷路器”本身是一種開關裝置，用於在電路上保護線路過載，當線路中有電器發生短路時，“斷路器”能夠及時的切斷故障電路，防止

Spring Cloud（八）：配置中心（服務化與高可用）【Finchley 版】

outer get btn discovery ofo DC master 配置兩個 Spring Cloud（八）：配置中心（服務化與高可用）【Finchley 版】發表於 2018-04-19 | 更新於 2018-04-26 | 本文接之前的《Spring

練習四：日期計算（輸入某年某月某日計算出這一天是該年第幾天的方法）

nbsp style 內置練習 day pan and error == 實現輸入某年某月某日計算出這一天是該年第幾天的方法方法一：笨辦法 1 list_day = [0,31,28,31,30,31,30,31,31,30,31,30,31] 2 year

獲取指定目錄下，指定副檔名的檔案（包含子目錄中的），把這些檔案的絕對路徑寫入到一個文字檔案中。

題目：獲取指定目錄下，指定副檔名的檔案（包含子目錄中的），把這些檔案的絕對路徑寫入到一個文字檔案中。思路： 1.必須深度遍歷 2.要在遍歷的過程中進行過濾，將符合條件的內容儲存到容器中 3.對容器中的內容進行遍歷並將絕對路徑寫入到檔案中程式碼： import java.io

Spring Cloud構建微服務架構：分散式服務跟蹤（收集原理）【Dalston版】

在本節內容之前，我們已經對如何引入Sleuth跟蹤資訊和搭建Zipkin服務端分析跟蹤延遲的過程做了詳細的介紹，相信大家對於Sleuth和Zipkin已經有了一定的感性認識。接下來，我們介紹一下關於Zipkin收集跟蹤資訊的過程細節，以幫助我們更好地理解Sleuth生產跟蹤資訊

SparkStreaming部分：updateStateByKey運算元（包含從Linux端獲取資料，flatmap切分，maptopair分類，寫入到本地建立的資料夾中）【Java版純程式碼】

相關推薦