Spark定製班第1課：通過案例對Spark Streaming透徹理解三板斧之一：解密Spark Streaming另類實驗及Spark Streaming本質解析

阿新 • • 發佈：2019-01-23

package com.dt.spark.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

object OnlineBlackListFilter {
    def main(args: Array[String]){
      /**
       * 第1步：建立Spark的配置物件SparkConf，設定Spark程式的執行時的配置資訊，
       * 例如說通過setMaster來設定程式要連結的Spark叢集的Master的URL，如果設定
       * 為local，則代表Spark程式在本地執行，特別適合於機器配置條件非常差（例如
       * 只有1G的記憶體）的初學者。
       */
      // 建立SparkConf物件
      val conf = new SparkConf()
      // 設定應用程式的名稱，在程式執行的監控介面可以看到名稱
      conf.setAppName("OnlineBlackListFilter")
      // 此時，程式在Spark叢集
      conf.setMaster("spark://Master:7077")

      val ssc = new StreamingContext(conf, Seconds(30))

      /**
       * 黑名單資料準備，實際上黑名單一般都是動態的，例如在Redis或者資料庫中，
       * 黑名單的生成往往有複雜的業務邏輯，具體情況演算法不同，
       * 但是在Spark Streaming進行處理的時候每次都能夠訪問完整的資訊。
       */
      val blackList = Array(("Spy", true),("Cheater", true))
      val blackListRDD = ssc.sparkContext.parallelize(blackList, 8)

      val adsClickStream = ssc.socketTextStream("Master", 9999)

      /**
       * 此處模擬的廣告點選的每條資料的格式為：time、name
       * 此處map操作的結果是name、（time，name）的格式
       */
      val adsClickStreamFormatted = adsClickStream.map { ads => (ads.split(" ")(1), ads) }
      adsClickStreamFormatted.transform(userClickRDD => {
        // 通過leftOuterJoin操作既保留了左側使用者廣告點選內容的RDD的所有內容，
        // 又獲得了相應點選內容是否在黑名單中
        val joinedBlackListRDD = userClickRDD.leftOuterJoin(blackListRDD)

        /**
         * 進行filter過濾的時候，其輸入元素是一個Tuple：（name,((time,name), boolean)）
         * 其中第一個元素是黑名單的名稱，第二元素的第二個元素是進行leftOuterJoin的時候是否存在的值。
         * 如果存在的話，表明當前廣告點選是黑名單，需要過濾掉，否則的話是有效點選內容；
         */
        val validClicked = joinedBlackListRDD.filter(joinedItem => {
          if(joinedItem._2._2.getOrElse(false))
          {
            false
          } else {
            true
          }

        })

        validClicked.map(validClick => {validClick._2._1})
      }).print

      /**
       * 計算後的有效資料一般都會寫入Kafka中，下游的計費系統會從kafka中pull到有效資料進行計費
       */
      ssc.start()
      ssc.awaitTermination()

    }
}

把程式的Batch Interval設定從30秒改成300秒：

Spark定製班第1課：通過案例對Spark Streaming透徹理解三板斧之一：解密Spark Streaming另類實驗及Spark Streaming本質解析

package com.dt.spark.streaming import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seco

Spark定製班第29課：深入理解Spark 2.x中的Structured Streaming內幕

本期內容： 1. 新型的Spark Streaming思維 2. Structured Streaming內幕 Spark 2.0 仍有bug，不適合於生成環境。只用於測試。 Spark 2.X提出了continuous application（連續的應用程式）的概念，非

Spark定製班第9課：Spark Streaming原始碼解讀之Receiver在Driver的精妙實現全生命週期徹底研究和思考

本期內容： 1. Receiver啟動的方式設想 2. Receiver啟動原始碼徹底分析 1. Receiver啟動的方式設想　　Spark Streaming是個執行在Spark Core上的應用程式。這個應用程式既要接收資料，還要處理資料，這些都是在分散式的

Spark定製版2：通過案例對SparkStreaming透徹理解三板斧之二

本節課主要從以下二個方面來解密SparkStreaming：一、解密SparkStreaming執行機制二、解密SparkStreaming架構 SparkStreaming執行時更像SparkCore上的應用程式，SparkStreaming程式啟動後會啟動很

（基礎篇）第1課：C#程序設計基礎——動起來的Label控件

創建文本編輯器 ble 知識項目 pac too cli 雙擊參考：學通C#的24堂課（羊皮卷系列） 1. Tool：VS2017(VS2008 VS2010 都可以) 2. 新建項目：C# -> Windows應用窗體程序 3. 在彈出的Form窗口中添加L

少兒創意學編程（Scratch基礎篇）：第1課——搖滾樂隊

apple 塊代碼中一 rendering mage 應該鋼琴發揮世界《少兒創意學編程（Scratch基礎篇）》，參考了英國公益組織發起的“code club（代碼俱樂部）”——少兒免費學編程活動。願為中國的少兒創意編程教育盡微薄之力，對國內的家長、信息教師和相關

機器學習筆記第1課：機器學習中的資料

資料在機器學習中起著重要的作用。在談論資料時，理解和使用正確的術語非常重要。你如何看待資料？想想電子表格吧，有列、行和單元格。從統計視角而言，機器學習的任務是在假設函式( f )的上下文中構建資料。這些假設函式由機器學習演算法通過學習建立。給定一些輸入變數( Input )，該函式回答

jdbc篇第1課：jdbc的介紹和使用

我們已經學過mysql了，接下來我們要學學如何用java來操作mysql。 Java操作資料庫所使用的技術叫JDBC，看百度百科: JDBC（Java DataBase Connectivity,java資料庫連線）是一種用於執

第1課：如何用寫作突破職場瓶頸？

現在一點文字階段自己的影響依賴分布過程可能大家現在都面臨著同樣的困惑：在職場中逐漸陷入一種被卡住、迷茫的瓶頸狀態。其實，這個瓶頸，是可以突破的。而突破瓶頸之道，就是提高自己的影響力。許多人可能會想，擁有影響力是一件離自己很遠、很難實現的事情。但在互聯網

第1課第4.4節_Android硬件訪問服務編寫HAL代碼

更新編寫 services 指定版本 open ext which module .sh 4 編寫HAL代碼源碼下載方法第一次: git clone https://github.com/weidongshan/SYS_0001_LEDDemo.git 更新: gi

第1課 - 學習C++的意義

用戶需求數據結構並不會過程發展歷史 ges 移植 lin 應用程序第1課 - 學習C++的意義 1. 對C++的一些誤解 ××× 　　（1）操作系統和驅動都是用C寫的，學好C就夠了。 (驅動和操作系統開發屬於極少部分的人) 　　（2

scrum第1課作業，知易行難

經理模式討論方案 bsp 項目組不變技能綜合素質 1. 這一年你做了些什麽事？去年輾轉5、6個項目，大多是小型項目；基本都是5人以下的小組完成。開發模式千年不變的瀑布式。 2. 哪些事讓你印象深刻？回顧前幾年的工作，做的基本都是同一類工作，這麽多年基本沒有

第1階段——uboot通過nand命令讀內核分析(8)

opts turn [] 轉換成 default conf 最終 off unlock 本節主要學習: 詳細分析UBOOT中"bootcmd=nand read.jffs2 0x30007FC0 kernel;bootm 0x30007FC0" 怎麽實現nand命令

[福大軟工教學] W班第1次成績排行榜

str 經歷專業課程計算機 -1 個人人生路徑作業地址 https://edu.cnblogs.com/campus/fzu/FZUSoftwareEngineering1715W/homework/837 作業要求（1）回想一下你初入大學時對計算機專業的暢想

1周第1課擴展為 centos 虛機安裝 vmtools

tools vmware centos 虛機安裝完成後，還有最重要的一步，安裝 vmware tools,它類似於虛擬機硬件的驅動程序。安裝好 vmtools,能讓虛機更好的工作，例如可以讓鼠標能在虛機窗口和本地操作系統之間無縫切換。下面就簡單介紹下安裝 vmware tools 的過程

5月班第9課更多的網絡類型

img 技術分享 alt http .cn nbsp height width ges 5月班第9課更多的網絡類型

第1課基本數據類型

sig png return 一個 img 存儲空間 enter int () 1.數據類型 1.1 什麽是數據類型（1）數據類型可以理解為固定內存大小的別名（2）數據類型是創建變量的模子 1.2 數據類型的本質 2. 變量的本質（1）變量是一段實際連續存

機器學習升級版（VII）——第1課機器學習與數學分析

矩陣分解變化回歸分析兩個例如處理 fff mage 我們參考：鄒博《機器學習升級版》 1. 機器學習概論 1. 什麽是機器學習定義：對於某給定的任務T，在合理的性能度量方案P的前提下，某計算機程序可以自主學習任務T的經驗E；隨著提供合適、

第 1 課 Go 簡介和開發環境搭建

特點支持類型安全 AR ron .com 沒有 c語言內存安全（課程地址： http://study.163.com/course/courseLearn.htm?courseId=306002&from=study#/learn/video?lessonI

路飛學院-Python爬蟲實戰密訓班-第1章

bsp enc fin 以及 sign 模塊 nco comm soc 學習筆記：通過本章的學習，學習到了requests和BeautifulSoup模塊的安裝及使用方法。以及爬取給類網站的方法和知識點。 1、requests和Be

Spark定製班第1課：通過案例對Spark Streaming透徹理解三板斧之一：解密Spark Streaming另類實驗及Spark Streaming本質解析

相關推薦