SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

阿新 • • 發佈：2018-11-08

1.實現功能：

SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。

2.前提開啟：

（1）hdfs

（2）metastore

3.scala程式碼：

（1）本地目錄寫法：

file:///E:\\Tools\\WorkspaceforMyeclipse\\scalaProjectMaven\\datas\\

（2）hdfs目錄寫法：

/spark/

（3）程式碼（以本地為例）

package Spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 使用spark Streaming處理檔案系統（local/hdfs）的資料
  */
object FileWordCount {
  def main(args: Array[String]): Unit = {
    val sparkConf=new SparkConf().setMaster("local[2]").setAppName("FileWordCount")

    val ssc=new StreamingContext(sparkConf,Seconds(5))




    //    file:///opt/modules/spark-2.1.0-bin-2.7.3/README.md
    val lines=ssc.textFileStream("file:///E:\\Tools\\WorkspaceforMyeclipse\\scalaProjectMaven\\datas\\")

    val result= lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    result.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

4.測試：

（1）將內容寫入test.log

（2）將檔案test.log採用cp方式，放到對應datas檔案下面

cp .\test.log .\datas\

（注意：（2）非常重要，一定要通過cp或者mv的方式移動進去，否者streaming讀取不到增加的流資訊！）

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能： SparkStreaming處理本地或者HDFS檔案，並進行wordcount的統計。 2.前提開啟：（1）hdfs （2）metastore 3.scala程式碼：（1）本地目錄寫法： file:///E:\\Tools\\WorkspaceforM

SparkStreaming（5）：例項-處理socket源資料

1.實現功能： SparkStreaming處理socket源的資料，並進行wordcount的統計。 2.scala程式碼 package Spark import org.apache.spark.SparkConf import org.apache.spark

SparkStreaming（7）：例項-wordcount統計結果寫入到MySQL

一、功能概述 DStreams的輸出操作，即將DStreams輸出到對應的目的地。輸出操作包括：print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles、foreachRDD。本例將使用foreachRDD把資料輸出到外部mysql資料庫

SparkStreaming（6）：例項-統計到目前為止累積出現的單詞的個數（updateStateByKey）

1.實現功能現實中，不僅需要統計，當前批次的單詞個數，還需要統計，迄今為止的總的單詞個數。這個就是需要，使用到updateStateByKey運算元。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.ht

SparkStreaming（9）：例項-Streaming整合Spark SQL，進行wordcount功能

1.功能實現綜合Spark Streaming和Spark SQL，進行word count的統計。核心理解DStream和RDD相互操作，需要通過使用foreachRDD這個API。 2.程式碼 package Spark import or

Python爬蟲入門（5）：URLError異常處理

大家好，本節在這裡主要說的是URLError還有HTTPError，以及對它們的一些處理。 1.URLError 首先解釋下URLError可能產生的原因：網路無連線，即本機無法上網連線不到特定的伺服器伺服器不存在在程式碼中，我們需要用

SpringBoot學習筆記（5）：處理前端JSON返回的日期的格式

處理 date() ring row 學習筆記 post 直觀 val rtt SpringBoot學習筆記（4）：處理前端JSON返回的日期的格式問題描述　　前端頁面顯示的時間為毫秒格式，不利於直觀顯示！解決方法1——後端解決 public class Flow

SparkStreaming（4）：Discretized Streams (DStreams)理解

參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#discretized-streams-dstreams 1.概念（1）DStreams是一個連續的資料流，可以通過兩種方式產生：資料來源來的輸入

SparkStreaming（8）：windows視窗操作

1.概念在一定的時間間隔（interval）進行一個時間段（window length）內的資料處理。【參考：http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html】 2.核心

SparkStreaming（12）：高階資料來源kafka Receiver方式（生產）

1.準備環境（1）啟動zk bin/zkServer.sh start （2）啟動kafka bin/kafka-server-start.sh -daemon config/server.pr

SparkStreaming（11）：高階資料來源flume-pull方式（生產）

1.環境（1）生產環境 flume1.6.0 spark2.1.0 （2）下載對應依賴備註：一定要將依賴都放入flume的Flume’s classpath內，否則flume執行有問題。（遇到過坑~~~） (i) Custom sink JAR: groupId =

SparkStreaming（10）：高階資料來源flume-push方式（生產）

【參考：http://spark.apache.org/docs/2.1.0/streaming-flume-integration.html】 1.環境 spark2.1.0 flume1.6.0 2.flume的配置檔案flume_push_streaming.

SparkStreaming（14）：log4j日誌-flume-kafka-SparkStreaming的整合

一、功能實現模擬log4j的日誌生產，將日誌輸出到flume伺服器。然後，通過flume將日誌資訊輸出到kafka，進而Streaming可以從kafka獲得日誌，並且進行簡單的處理。二、步驟 1.目的：使用log4j將日誌輸按照一定格式輸出，並且傳遞給flume伺服器特定埠接

SparkStreaming（13）：高階資料來源kafka Direct方式（生產）

【Direct方式，直接從kafka的broker讀取資料，而Receiver方式，從zk獲得偏移量資訊，效能要差一些！】 1.測試環境（1）啟動zk bin/zkServer.sh start （2) 啟動kafka bin/kafka-server-start.sh -da

SparkStreaming（15）：DStream轉換為RDD的Transform運算元

1.實現功能 DStream中還是缺少某些API的，比如sortByKey之類的。所以使用Transform直接操作DStream中的當前job/批次對應的RDD，來替換DStream的操作（可以直接使用RDD的api），比較方便。 2.程式碼 package

SparkStreaming（17）：updateStateByKey運算元，保留上一次計算結果

1.實現功能如果SparkStreaming程式斷掉，重新啟動，可以讀取斷掉之前的結果。通過，使用SparkStreaming的HA：checkpoints。 2.程式碼 package _0809kafka //import com.beifeng.util.

python數字影象處理（5）：影象的繪製

實際上前面我們就已經用到了影象的繪製，如： io.imshow(img) 這一行程式碼的實質是利用matplotlib包對圖片進行繪製，繪製成功後，返回一個matplotlib型別的資料。因此，我們也可以這樣寫： import matplotlib.pyplot as plt plt.imsh

TensorFlow實現經典深度學習網路（5）：TensorFlow實現自然語言處理基礎網路Word2Vec

TensorFlow實現經典深度學習網路（5）：TensorFlow實現自然語言處理基礎網路Word2Vec 迴圈神經網路RNN是在自然語言處理NLP領域最常使用的神經網路結構，和卷積神經網路在影象識別領域的地位相似，影響深遠。而Word2Vec則是將語

Groovy基本使用（5）：檔案I/O 處理

Groovy 檔案I/O 處理Groovy 中處理檔案 I/O 時，除了可以使用 Java 本身的IO類，如： java.io.File， java.io.InputStream，java.io.

OpenCV Python教程（3）（4）（5）：直方圖的計算與顯示形態學處理初級濾波內

OpenCV Python教程（3、直方圖的計算與顯示）本篇文章介紹如何用OpenCV Python來計算直方圖，並簡略介紹用NumPy和Matplotlib計算和繪製直方圖直方圖的背景知識、用途什麼的就直接略過去了。這裡直接介紹方法。計算並顯

SparkStreaming（5）：例項-SparkStreaming處理本地或者HDFS檔案

1.實現功能：

2.前提開啟：

3.scala程式碼：

4.測試：

相關推薦