spark streaming 接收kafka資料寫入Hive分割槽表

阿新 • • 發佈：2018-12-26

直接上程式碼

object KafkaToHive{
	def main(args: Array[String]){
		val sparkConf = new SparkConf().setAppName("KafkaToHive")
		val sc = new SparkContext(sparkConf)
		val ssc = new StringContext(sc,Seconds(60))
		// 建立kafka引數
		val kafkaParams = Map[String,Object](
			//ip為kafka叢集ip,埠為叢集埠
			"bootstrap.servers" -> "ip1:port1,ip2:port2,ip:port3",
			"group.id" -> "KafkaToHive_group1",  //自定義組名稱
			"auto.offset.reset" -> "earliest",
			"enable.auto.commit" -> "false")
		val topics = Array("test1")
		val stream = KafkaUtils.createDirectStreaming[String,String](
			ssc,PreferConsistent,
			Subscribe[String,String](topics,kafkaParms)
		stream.foreachRDD(rdd=>{
			if(rdd.count>0){
				val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges
				//TODO 具體處理邏輯
				//寫入Hive
				//value為實際操作中的結果集，即是//TODO返回的結果集
				val subRdd = rdd.sparkContext.parallelize(value)
				val sqlContext : SQLContext = new HiveContext(rdd.sparkContext)
				sqlContext.setConf("hive.exec.dynamic.partition.mode","nonstrict")
				sqlContext.setConf("hive.exec.dynamic.partition","true")						       															    						       sqlContext.sql("use database1")
		     	val tempTable = sqlContext
		     	.read
		     	.format("json")
		     	.json(subRdd)
		     	.select(cols.map(new Column(_)): _*)
		     	.coalesce(1)
		     	.write
		     	.mode(SaveMode.Append)
		     	.insertInto("task_exec_time")
		        //提交offset
		       stream.asInstanceOf[CanCommitOffsets].commotAsync(offsetRanges)
		}
	})
}

}

spark streaming 接收kafka資料寫入Hive分割槽表

直接上程式碼 object KafkaToHive{ def main(args: Array[String]){ val sparkConf = new SparkConf().setAppName("KafkaToHive") val sc = new SparkConte

Spark Streaming接收kafka資料，輸出到HBase

需求 Kafka + SparkStreaming + SparkSQL + HBase 輸出TOP5的排名結果排名作為Rowkey，word和count作為Column 實現建立kafka生產者模擬隨機生產資料 object produ

spark 將dataframe資料寫入Hive分割槽表

從spark1.2 到spark1.3，spark SQL中的SchemaRDD變為了DataFrame，DataFrame相對於SchemaRDD有了較大改變，同時提供了更多好用且方便的API。 DataFrame將資料寫入hive中時，預設的是hive預設資料庫，in

程式碼 | Spark讀取mongoDB資料寫入Hive普通表和分割槽表

版本： spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4 一原始資料及Hive表 MongoDB資

kafka（六）：與spark streaming對接，spark streaming接收kafka資料來源

1.功能實現 spark streaming從kafka接收資料，有兩種方式，receiver和direct兩種方式。 2.pom依賴針對kafka_2.10-0.8.2.1版本 <!-- https

Spark-Streaming獲取kafka資料的兩種方式：Receiver與Direct的方

簡單理解為：Receiver方式是通過zookeeper來連線kafka佇列，Direct方式是直接連線到kafka的節點上獲取資料回到頂部使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Exec

學習筆記 --- Kafka Spark Streaming獲取Kafka資料 Receiver與Direct的區別

Receiver 使用Kafka的高層次Consumer API來實現 receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中，然後Spark Streaming啟動的job會去處理那些資料要啟用高可靠機制，讓資料零丟失，就必須啟用Spark

spark streaming讀取kafka資料，記錄offset

如下是pom.xml檔案<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocati

spark streaming讀取kafka資料令丟失（二）

方式二：方法二就是每次streaming 消費了kafka的資料後，將消費的kafka offsets更新到zookeeper。當你的程式掛掉或者升級的時候，就可以接著上次的讀取，實現資料的令丟失和 at most once。而且使用checkpoint的方

Flume-將資料寫入動態分割槽表

一、場景描述實時監控檔案目錄，將目錄中的實時產生的資料檔案（檔案內容非動態）寫入動態分割槽，分割槽為3級（裝置ID/檔案產生日期/檔案產生的時間（h））.檔名格式如下（日期+時間+產品ID.txt）二、主要存在的難點由於flume只支援傳入一些簡單的引數變數（時

Spark Streaming結合 Kafka 兩種不同的資料接收方式比較

DirectKafkaInputDStream 只在 driver 端接收資料，所以繼承了 InputDStream，是沒有 receivers 的在結合 Spark Streaming 及 Kafka 的實時應用中，我們通常使用以下兩個 API 來獲取最初的 DStream（這裡不關心這兩個 API 的

大資料學習之路97-kafka直連方式（spark streaming 整合kafka 0.10版本）

我們之前SparkStreaming整合Kafka的時候用的是傻瓜式的方式-----createStream,但是這種方式的效率很低。而且在kafka 0.10版本之後就不再提供了。接下來我們使用Kafka直連的方式，這種方式其實是呼叫Kafka底層的消費資料的API,我們知道，越底層的東

關於Spark Streaming感知kafka動態分割槽的問題

本文主要是講解Spark Streaming與kafka結合的新增分割槽檢測的問題。讀本文前關於

Spark Streaming消費Kafka的資料進行統計

流處理平臺：這裡是第四步的實現： Spark Streaming整合Kafka採用的是Receiver-based，另一種方式Direct Approach，稍作修改就行。 package spark import org.apache.spark.SparkConf impo

Spark Streaming消費Kafka Direct方式資料零丟失實現

一、概述上次寫這篇文章文章的時候，Spark還是1.x，kafka還是0.8x版本，轉眼間spark到了2.x，kafka也到了2.x，儲存offset的方式也發生了改變，筆者根據上篇文章和網上文章，將offset儲存到Redis，既保證了併發也保證了資料不丟失，經過測試，有效。二、

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

大資料實時流式資料處理是大資料應用中最為常見的場景，與我們的生活也息息相關，以手機流量實時統計來說，它總是能夠實時的統計出使用者的使用的流量，在第一時間通知使用者流量的使用情況，並且最為人性化的為使用者提供各種優惠的方案，如果採用離線處理，那麼等到使用者流量超標

spark讀取kafka資料寫入hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

Spark Streaming從Kafka中獲取資料，並進行實時單詞統計，統計URL出現的次數

1、建立Maven專案 2、啟動Kafka 3、編寫Pom檔案 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.or

【Spark深入學習 -15】Spark Streaming前奏-Kafka初體驗

rod htm 新的 callback tails 包括 -c 舉例清理 ----本節內容------- 1.Kafka基礎概念 1.1 出世背景 1.2 基本原理 1.2.1.前置知識 1.2.2.架構和原理 1.2.

Spark Streaming從Kafka中獲取數據，並進行實時單詞統計，統計URL出現的次數

scrip 發送消息 rip mark 3.2 umt 過程 bject ttr 1、創建Maven項目創建的過程參考：http://blog.csdn.net/tototuzuoquan/article/details/74571374 2、啟動Kafka A:安裝ka

spark streaming 接收kafka資料寫入Hive分割槽表

相關推薦