SparkSQL學習記錄（SparkSQL 兩種Schema建立方式）

阿新 • • 發佈：2019-02-02

方式：//l通過定義Case Class，使用反射推斷Schema（case class方式）

//2 通過可程式設計介面，定義Schema，並應用到RDD上（createDataFrame 方式)

依賴：

                <dependency>
			<groupId>org.apache.spark</groupId>
			<artifactId>spark-core_2.10</artifactId>
			<version>1.6.1</version>
			<scope>provided</scope>
		</dependency>
		<dependency>
			<groupId>org.apache.spark</groupId>
			<artifactId>spark-sql_2.10</artifactId>
			<version>1.6.1</version>
		</dependency>

方式一：

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext

//l通過定義Case Class，使用反射推斷Schema（case class方式）
 case class Person(name: String, age: Int)
object SparkSqlDemo1 {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("sparksqldemo1").setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    val rddpeople = sc.textFile("test.txt").map(_.split(" ")).map(p => Person(p(0), p(1).trim().toInt))
    //隱式轉換    
    // this is used to implicitly convert an RDD to a DataFrame.
    import sqlContext.implicits._
    val df = rddpeople.toDF()
    df.registerTempTable("people")
    
    //快取和清除快取表
    //sqlContext.cacheTable("people")
    //sqlContext.uncacheTable("people")
    //sqlContext.sql("CACHE TABLE people")
    //sqlContext.sql("UNCACHE TABLE people")
    val teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 10 and age <= 19")

    //DSL（Domain Specific Language）
    //在DSL中，使用Scala符號'+標示符表示基礎表中的列，Spark的execution engine會將這些標示符隱式轉換成表示式
    //另外可以在API中找到很多DSL相關的方法，如where()、select()、limit()等等，詳細資料可以檢視Catalyst模組中的DSL子模組
   // val teenagers =  df.where('age >= 10).select('name)
    teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

    sc.stop()
  }
}

方式二：

import org.apache.spark.sql.SQLContext
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.Row
//通過可程式設計介面，定義Schema，並應用到RDD上（createDataFrame 方式)
object SparkSqlDemo2 {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("sparksqldemo2").setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    val schemaString = "name age"
    val schema =
      StructType(
        schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, true)))
    val rowRDD = sc.textFile("test.txt").map(_.split(" ")).map(p => Row(p(0), p(1).trim))
    val peopleDF = sqlContext.createDataFrame(rowRDD, schema)
    peopleDF.registerTempTable("people")
    sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
    .map(t => "Name: " + t(0)).collect().foreach(println)
  }
}

SparkSQL學習記錄（SparkSQL 兩種Schema建立方式）

方式：//l通過定義Case Class，使用反射推斷Schema（case class方式） //2 通過可程式設計介面，定義Schema，並應用到RDD上（createDataFrame 方式)依賴： <dependency&g

用Python和NetCore、Shell分別開發一個Ubuntu版的定時提醒（附NetCore跨平臺的兩種發布方式）

not 代碼程序異常 read bsp install dia alt Python3 與 C# 基礎語法對比：https://www.cnblogs.com/dotnetcrazy/p/9102030.html 平時經常用定時提醒來提高工作效率，到了Linux。。

vue自定義進度條的製作方法（含css屬性值的兩種動態改變方式）

雛形部分接上一篇文章：https://blog.csdn.net/ColourfulTiger/article/details/82910505 結合vue製作自定義的進度條，優勢在於採用了vue特有的樣式繫結，與雙向繫結的方法，達到資料與進度條的進度一致。突破點：通過變數來動態改變屬性對

Hadoop學習記錄（四、hadoop實現檔案操作）

1.從Hadoop URL讀取資料類似cat命令 public class URLCat { static{ URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory()); }

Hadoop學習記錄（一、Hadoop叢集的搭建）

參考：http://www.zuidemo.com/filePreview/pdfFilePreview/11202並進行補充 1.新建七個centos7系統的虛擬機器，分別命名為cluster1,cluster2等。關閉防火牆。 2.七臺主機都修改host檔案 vi /etc/host

學習記錄（2018年7月25日）

1、編寫一個C函式,將句子中的單詞位置倒置,而不改變單詞內部結構. #include <stdio.h> #include <stdlib.h> #include <string.h> void str_rev(char *str,

Storm學習記錄（二、分發策略與架構）

一、分發策略 Shuffle Grouping：隨機分組，隨機派發stream裡面的tuple，保證每個bolt task接收到的tuple數目大致相同。輪詢，平均分配 Fields Grouping：按欄位分組，比如，按"user-id"這個欄位來分組，那麼具有同樣"u

spark學習記錄（八、廣播變數和累加器）

一、廣播變數 public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("

spark學習記錄（九、MasterHA和Spark shuffle）

一、zookeeper配置MasterHA 1.1修改conf下的spark-env.sh ： export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookee

HBase權威指南學習記錄（五、hbase與MapReduce整合）

新增依賴： <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifact

hdu2159FATE（付出兩種代價的揹包）

FATE Time Limit : 2000/1000ms (Java/Other) Memory Limit : 32768/32768K (Java/Other) Total Submission(s) : 3 Accepted Submission(s)

React Native開發學習記錄（我的開發環境是ubuntu）

1、React Native 在windows下的環境搭建我參考的博文： PS：最重要的一點，在windows下要安裝C++環境 2、React與React Native的關係我的理解：這和Java與Android的關係差不多，React Native使用的是Reac

spark學習記錄（十、SparkSQL）

一、介紹 SparkSQL支援查詢原生的RDD。 RDD是Spark平臺的核心概念，是Spark能夠高效的處理大資料的各種場景的基礎。能夠在Scala中寫SQL語句。支援簡單的SQL語法檢查，能夠在Scala中寫Hive語句訪問Hive資料，並將結果取回作為RDD使用。 D

SparkSql學習筆記（包含IDEA編寫的原生代碼）

Spark SQL and DataFrame 1.為什麼要用Spark Sql 原來我們使用Hive，是將Hive Sql 轉換成Map Reduce 然後提交到叢集上去執行，大大簡化了編寫MapReduce的程式的複雜性，由於MapReduce這種計算模型執行效率比較

BigData 學習記錄（三）

如果 lock 都沒有 stream 節點信息 nod 存在物理 master/slave主從結構： HDFS是一個 master/slave的架構。HDFS只有一個NameNode，即master。master負責管理文件系統命名空間和client對文件的訪問。此外，

BigData 學習記錄（五）

merge 而且 seq 運行時間 big 存儲位置完成 setup 其中 MR(MapReduce)運行過程 client程序--》提交job至JobTracker--》分配job ID--》JobTracker檢查輸入文件存在，輸出文件不存在--》進行輸入分片--

Android學習筆記(36):Android的兩種事件處理方式

post gravity cal log 基於處理方法 hang mil 重寫 Android提供了兩種事件處理的方式：基於回調的事件處理和基於監聽的事件處理。我們來說的easy理解一點：（1）基於回調的事件處理就是繼承GUI組件，並重寫該組件的

JS學習記錄（補充二）

har title 求和 .com ron alert += 顯示 utf-8 循環變量<html lang="en"> <head> <meta charset="UTF-8"> <title>循環變量&l

JS學習記錄（補充三）

bre protoc 漢堡 replace 修飾同名關鍵字進入 length 函數<html lang="en"> <head> <meta charset="UTF-8"> <title>函數<

repmgr學習記錄（主從切換）

over ges -h stand code nbsp 嘗試 strong 服務 1.服務器狀態：一主二備 2.停主庫：pg_ctl -D /home/postgres/PG-9.6.1/ stop 　　此時node2、node3仍均處於read-only狀態 3.將no

SparkSQL學習記錄（SparkSQL 兩種Schema建立方式）

相關推薦