spark複習筆記(7):sparkSQL

阿新 • • 發佈：2018-11-05

一、saprkSQL模組，使用類sql的方式訪問Hadoop，實現mr計算，底層使用的是rdd

　　1.hive　　　　　　//hadoop mr sql

　　2.phenoix　　　　//hbase上構建sql的互動過程

　　該模組能在spark上執行sql語句

　　3.DataFrame　　　　//資料框，表

　　在spark中的資料框，sparkSQL就能以完全分散式的方式來處理資料。組合資料框可以來自各種資料來源來進行查詢的處理

　　4.SparkSQL　　　　//SQL | DataFrame API

　　5.RDD[Customer]===>

　　　　$scala>df=sc.createDataFrame(rdd);

$scala>df = sc.createDataFrame(rdd);
//建立樣例類
$scala>case class  Customer1(id:Int,name:String,age:Int)
//構造資料
$scala>val arr = Array("1,tom,12","2,tomas,13","3,tomasLee,14")
$scala>val rdd1 = sc.makeRDD(arr)
//建立物件RDD
$scala>val rdd2=rdd1.map(e=>{
　　val arr= e.split(",");
　　Customer1(arr(0).toInt,arr(1),arr(2).toInt)
})
//建立customer的rdd,通過rdd建立資料框
$scala>val df = spark.createDataFrame(rdd2)
//打印表結構
//建立臨時檢視
$scala>df.createTempView("customers")
//打印表結構
$scala>df.printSchema
$scala>df.show　　　　//等價於查詢資料
//建立臨時檢視
$scala>df.createTempView("customers")
//使用sparkSQL來進行相關的查詢
val df2 = spark.sql("select * from customers")
//將上述結果進行相關的顯示
df2.show
//帶條件進行相關的查詢
val df2 = spark.sql("select * from customers where id<2")
df2.show
//或者用如下的方式直接show
spark.sql("select * from customer").show

val df1 = spark.sql("select * from customer where id<2")

val df2 = spark.sql("select * from customers where id>2")

df1.show

df2.show

df.create

df1.createTempView("c1")

df2.createTempView("c2")

val dff = spark.sql("select * from c1 union select * from c2")

dff.show　　　　　　//顯示前面查詢的結果


$scala>spark.sql("select * from c1 from union select *from c2").show

df1.union(df2).show

spark.sql("select count(*) from customer").show

spark.sql("select * from customer limit 1").show

spark.sql("select *from customers where name like 't%' order by name desc").show
//對映聚合操作
df.map(_.getAs[Int]("age")).reduce(_ + _)

//聚合函式
df.agg(sum("age"),max("age"),min("age"))

　　sparkQSL :使用類似SQL方式訪問hadoop，實現MR計算。RDD

　　df= sc.createDataFrame(rdd);

　　DataSet<Row> ===DataFrame===>//類似於table操作

儲存spark的sql計算結果(json)

　　JavaRDD<Row> rdd = df1.toJava();

儲存spark的sql計算結果(json)

　　//儲存成json檔案。

　　df.write().json(dir)　　//這個地方寫的是資料夾，就是儲存檔案的上級目錄

　　//設定儲存模式

　　df.mode(SaveMode.APPEND);

json檔案的讀寫

---------------------------------

　　SparkSession.read().json("")　　//讀取json檔案形成資料框

　　//將資料框的資料寫入json檔案

　　SparkSession.write().json("........")　　//將資料框的資料寫成json檔案

SparkDataFrame以jdbc的方式操縱表

SparkDataFrame以jdbc的方式來操縱表

　　1.引入mysql驅動

　　　　pom.xml直接修改

spark整合Hive

　　1.hive的類庫需要在spark的worker節點，他們也需要通過類庫來訪問hive

　　2.複製core-site.xml(hdfs) + hdfs-site.xml + hive-site.xml(hive)這三個檔案複製到spark/conf目錄下面

　　3.指定hive的home目錄環境變數

　　4.賦值mysql驅動序列到/soft/spark/jars目錄下面

　　5.啟動spark-shell,指定啟動模式

　　　　spark-shell --master local[4]

　　　　create table tt(id int,anme string,age int)

　　　　row format delimited fields terminated by ','

　　　　lines terminated by '\n' stored as textfile;

spark複習筆記(7):sparkSQL

一、saprkSQL模組，使用類sql的方式訪問Hadoop，實現mr計算，底層使用的是rdd 　　1.hive　　　　　　//hadoop mr sql 　　2.phenoix　　　　//hbase上構建sql的互動過程　　該模組能在spark上執行sql語句　　3.Da

spark複習筆記(4):RDD變換

一、RDD變換　　1.返回執行新的rdd的指標，在rdd之間建立依賴關係。每個rdd都有一個計算函式和指向父rdd的指標　　2.Spark是惰性的，因此除非呼叫某個轉換或動作，否則不會執行任何操作，否則將觸發工作建立和執行。　　3.map()是對每個元素進行變換，應用變換函式；而mapPartit

spark複習筆記(2)

　　之前工作的時候經常用，隔了段時間，現在學校要用學的東西也忘了，翻翻書謝謝部落格吧。　　1.什麼是spark? Spark是一種快速、通用、可擴充套件的大資料分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化專案，2014年2月成為Apac

Spark SQL 筆記(7)—— DataFrame API操作案例

1 測試資料 stu.txt 1|Anaa|111111|[email protected] 2|Bob|22222|[email protected] 3|Candy|333333

java複習筆記7--java基礎之I/O流2

字元流前面針對位元組流和位元組快取流做了一個比較全面的探索。位元組流以位元組（8bit）為單位讀取資料，且可以處理所有的資料，包括文字，音訊等，這裡就要丟擲一個問題了，既然位元組流這麼方便，只是讀取資料比較麻煩，那我們完全可以包裝位元組流進行快速的一些處理，為

Spark RDD Transformation 詳解---Spark學習筆記7

這幾天學習了Spark RDD transformation 和 action ，做個筆記記錄下心得，順便分享給大家。 1. 啟動spark-shell SPARK_MASTER=local[4] ./spark-shell.shWelcome to ___

複習電商筆記-7

後臺首頁+EasyUI+分類樹+商品列表思考：序號知識點型別難度係數掌握程度 EasyUI富客戶端

C++程式設計學習筆記複習/拾遺 7

組合與繼承程式碼重用是面向物件最引人注目的功能之一：可以通過建立新類來複用程式碼，而不必再重頭開始編寫。可以使用別人已經開發並除錯好的類。類的重用在新類中使用其他類的物件。即新類由多種類的物件組成，這種方法稱為組合。在現有類的基礎

大資料實時計算Spark學習筆記（7）—— RDD 資料傾斜處理

1 處理資料傾斜在 reduceByKey 之前先進行隨機分割槽 package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} import scala.util.Ran

Principle of Computing (Python)學習筆記(7) DFS Search + Tic Tac Toe use MiniMax Stratedy

ide out generate depth sku color ati cond with 1. Trees Tree is a recursive structure. 1.1 math nodes https://class.coursera.org/prin

Spark學習筆記——文本處理技術

使用 ken ins main 最小 leg tran sparse rain 1.建立TF-IDF模型 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.lin

Spark調研筆記第3篇 - Spark集群相應用的調度策略簡單介紹

executor enabled max 靜態 air apache div pan 相關 Spark集群的調度分應用間調度和應用內調度兩種情況，下文分別進行說明。 1. 應用間調度 1) 調度策略1: 資源靜態分區資源靜態分區是指整個集群的資源被預先劃分為多個par

Android:日常學習筆記(7)———探究UI開發(1)

tac calling repl action its 內容 schema lesson try Android:日常學習筆記(7)———探究UI開發(1) 常用控件的使用方法 TextView 說明：TextView是安卓中最為簡單的一個控件，常用來在界面上顯示一段文本信

python學習筆記7-異常處理

exec blog span log exception pytho clas 處理 cep 1 寫弄成了讀1 try: 2 fh = open("testfile", "r") 3 fh.write("This is my test file for exc

Android:日常學習筆記(7)———探究UI開發(4)

this 活動 eal enc panel .html http 中間編寫 Android:日常學習筆記(7)———探究UI開發(4) UI概述 View 和 ViewGrou 　　Android 應用中的所有用戶界面元素都是使用 View 和 ViewGroup 對象

sqlite學習筆記7：C語言中使用sqlite之打開數據庫

實例 clas details code 返回 pri san filename stdlib.h 數據庫的基本內容前面都已經說得差點兒相同了。接下看看如何在C語言中使用sqlite。一接口 sqlite3_open(const char *filename, s

Spark學習筆記——泰坦尼克生還預測

cti build case model 學習筆記 classes gre dict path package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf i

python筆記7-if中的is ；in ；not搭配用法

names 內存地址 int mes 筆記判斷 true spa pan names="111 222 333" print("111" in names)#返回的是True，用in返回的是布爾值in在裏面 print("111" not in names)#返回的是FA

【Head First Servlets and JSP】筆記7：如何創建一個全局的dog？

函數 response servlet對象用戶技術而是 ... first int 重定向與請求分派 “局部”參數——ServletConfig——servlet初始化參數 “全局

Jmeter學習筆記7-擴展圖形監控

ext 技術啟動 standard jar包 star 如果 height 點擊第一部分：我們介紹下需要的擴展插件以及安裝說明。 1.準備工作，需要下載兩個插件在https://jmeter-plugins.org/downloads/old/網址下下載JMeterP

spark複習筆記(7):sparkSQL

一、saprkSQL模組，使用類sql的方式訪問Hadoop，實現mr計算，底層使用的是rdd

相關推薦