spark sql 小樣

阿新 • • 發佈：2019-05-12

parquet truct 讀取文件 cit per ive java sources lin

package dev.spark.sql

import java.util.Properties

import org.apache.spark.sql.{Row, SQLContext, SaveMode}
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.types.{IntegerType, StructField, StructType}
import org.apache.spark.{SparkConf, SparkContext}

object DataFrame {

  val num = 0
  val map = scala.collection.immutable.Map("url" -> "jdbc:mysql://192.168.0.1:3306/spark",
 
    "dbtable"-> "tmp_table3",
    "user"-> "spark",
    "password"->"spark")
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local")
    conf.setAppName("dataFrame")
    val sc = new SparkContext(conf)
    val ssc = new SQLContext(sc)
    val df = ssc.read.json()
 
    ssc.read.format("json").load(".json")
    // dataFrame.show 直接查看數據集 按條件查看數據集
    df.show()
    df.filter(df.col("col")<= num).show()

    // 將dataFrame註冊為臨時表 按照SQL方式訪問數據集
    df.registerTempTable("tmp_table0")
    // 返回的結果是將每行包裝為ROW的數據集集
    val dataSet0 = ssc.sql("SELECT col FROM tmp_table WHERE col <="+ num)
 
    // dataSet屬性方法很多
    dataSet0.collect()foreach(println)
    dataSet0.columns.foreach(println)
    dataSet0.rdd.foreach(println)
    dataSet0.explain()
    dataSet0.alias("")
    dataSet0.cache()
    dataSet0.na

    // SQLContext格式化讀取文件
    // parquet
    val pssc = new SQLContext(sc)
    pssc.read.format("parquet")load(".parquet")
    // jdbc
    val dataSet3 = ssc.read.format("jdbc").options(map).load()

    dataSet3.write.jdbc("jdbc:mysql://192.168.0.1:3306/spark","tmp_table3",new Properties())
    // HiveSQLContext在resources中配置hive-site.xml後對hive倉庫進行查詢 註意：優先從臨時表中查詢，可以通過數據庫.表名的方式完全限定避免歧義,默認倉庫是default
    val hssc = new HiveContext(sc)

    val dataSet1 = hssc.sql("SELECT col FROM database.table")
    dataSet1.registerTempTable("tmp_table1")
    // 相同sparkContext上下文可以進行聯表操作
    hssc.sql("SELECT * FROM tmp_table0 t0 inner join tmp_table1 t1 on t0.col = t1.col")

    // 數據映射為表
    dataSet0.rdd.map(line=>Row(line.size))
    val rowkeyStructField = new StructField("rowkey", IntegerType,true)
    val tableStructType = new StructType(Array(rowkeyStructField))
    val dataSet2 = hssc.createDataFrame(dataSet0.rdd, tableStructType)
    dataSet2.registerTempTable("tmp_table2")
    dataSet2.write.mode(SaveMode.Append).saveAsTable("hive_spark.tmp_table2")

    // rdd轉dataframe需要隱式轉換
    import ssc.implicits._
    case class RowKeyClass (rowkey:Int)
    dataSet0.rdd.map(x => new RowKeyClass(x.size)).toDF()
  }
}

spark sql 小樣

parquet truct 讀取文件 cit per ive java sources lin package dev.spark.sqlimport java.util.Propertiesimport org.apache.spark.sql.{Row, SQLCont

Spark-Sql之DataFrame實戰詳解

集合 case 編程方式優化所表 register 操作數 print ava 1、DataFrame簡介：在Spark中，DataFrame是一種以RDD為基礎的分布式數據據集，類似於傳統數據庫聽二維表格，DataFrame帶有Schema元信息，即DataFram

Spark SQL編程指南（Python）【轉】

res 平臺 per 它的 split 執行文件的分組不同轉自：http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允許我們在Spark環境中使用SQL或者Hive SQL執行關系型查詢。它的核

Spark SQL 源代碼分析之Physical Plan 到 RDD的詳細實現

local 過濾右連接操作 images img mem sans 觀察 /** Spark SQL源代碼分析系列文章*/ 接上一篇文章Spark SQL Catalyst源代碼分析之Physical Plan。本文將介紹Physical Plan的toRDD的

spark-sql case when 問題

spark 大數據 hadoop spark-sqlSELECT CASE (pmod(datediff(f0.`4168388__c_0`,‘1970-01-04‘),7)+1) WHEN ‘1‘ THEN ‘星期日‘ WHEN ‘2‘ THEN ‘星期一‘ WHEN ‘3‘ THEN ‘星期二‘ WHE

Spark-Sql整合hive，在spark-sql命令和spark-shell命令下執行sql命令和整合調用hive

type with hql lac 命令 val driver spark集群 string 1.安裝Hive 如果想創建一個數據庫用戶，並且為數據庫賦值權限，可以參考：http://blog.csdn.net/tototuzuoquan/article/details/5

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

ati been -m displays txt -a 版本 ava form Spark SQL是處理結構化數據的Spark模塊。它提供了DataFrames這樣的編程抽象。同一時候也能夠作為分布式SQL查詢引擎使用。 DataFrames D

Spark SQL

mapr bsp 單機模塊 ont 比較分布整合技術 1.1. Spark SQL概述 1.1.1. 什麽是Spark SQL Spark SQL是Spark用來處理結構化數據的一個模塊，它提供了一個編程抽象叫做DataFrame並且作為分布式SQL查詢引

spark SQL概述

hive 徹底 es2017 ima img cor com font size Spark SQL是什麽？何為結構化數據 sparkSQL與spark Core的關系 Spark SQL的前世今生：由Shark發展而來 Spark

Spark SQL 編程

ima art tps ext img rdd point .cn ram Spark SQL的依賴 Spark SQL的入口：SQLContext 官方網站參考 https://spark.apache.org/docs/1.6.2/sql-programmi

Spark SQL 之 Join 實現

結構很多找到過濾 sql查詢優化 ade read 轉換成分析原文地址：Spark SQL 之 Join 實現 Spark SQL 之 Join 實現塗小剛 2017-07-19 217標簽： spark ，數據庫 Join作為SQL中

Spark-SQL連接Hive

ces submit mat targe runt match tms force trying 第一步：修個Hive的配置文件hive-site.xml 　　添加如下屬性，取消本地元數據服務： <property> <name>hive.

【Spark SQL 源碼分析系列文章】

blog .com data 原創 org 分析成了系列 ice 從決定寫Spark SQL源碼分析的文章，到現在一個月的時間裏，陸陸續續差不多快完成了，這裏也做一個整合和索引，方便大家閱讀，這裏給出閱讀順序：）第一篇 Spark SQL源碼分析之核心流程

第二篇：Spark SQL Catalyst源碼分析之SqlParser

end from pop tco 循環 -c font 多個再看 /** Spark SQL源碼分析系列文章*/ Spark SQL的核心執行流程我們已經分析完畢，可以參見Spark SQL核心執行流程，下面我們來分析執行流程中各個核心組件的工作職責。

第一篇：Spark SQL源碼分析之核心流程

example 協議 bst copyto name 分詞 oop 不同 spl /** Spark SQL源碼分析系列文章*/ 自從去年Spark Submit 2013 Michael Armbrust分享了他的Catalyst，到至今1年多了,Spark SQ

第九篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 cache table

gravity base field eof 授權葉子節點 command ref gist /** Spark SQL源碼分析系列文章*/ Spark SQL 可以將數據緩存到內存中，我們可以見到的通過調用cache table tableName即可將一張表緩

第十篇：Spark SQL 源碼分析之 In-Memory Columnar Storage源碼分析之 query

pro .net asn 解析 partition store exec attr_ array /** Spark SQL源碼分析系列文章*/ 前面講到了Spark SQL In-Memory Columnar Storage的存儲結構是基於列存儲的。那

第四篇：Spark SQL Catalyst源碼分析之TreeNode Library

pla where 並且手冊 input bst node lec esc /** Spark SQL源碼分析系列文章*/ 前幾篇文章介紹了Spark SQL的Catalyst的核心運行流程、SqlParser，和Analyzer，本來打算直接寫Optimizer

Spark SQL中 RDD 轉換到 DataFrame

pre ase replace 推斷 expr context 利用反射轉換 port 1.people.txtsoyo8, 35小周, 30小華, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射機制推斷RDD

spark-sql(spark sql cli)客戶端集成hive

oop research sel 數據進行 dep per 集群 second 1、安裝hadoop集群參考：http://www.cnblogs.com/wcwen1990/p/6739151.html 2、安裝hive 參考：http://www.cnblogs.c

spark sql 小樣

相關推薦