Spark SQL 筆記(7)—— DataFrame API操作案例

阿新 • • 發佈：2018-12-19

1 測試資料

stu.txt

1|Anaa|111111|[email protected]
2|Bob|22222|[email protected]
3|Candy|333333|[email protected]
4|Dany|44444|[email protected]
5|Elf|55555|[email protected]
6|Frank|6666|[email protected]
7|George|777777|[email protected]@.com
8|Hlnk|888888|[email protected] 

9||999999|[email protected]
10||101010|[email protected]
11|NULL|121212|[email protected]

2 測試程式碼

package com.tzb.demo2

import org.apache.spark.sql.SparkSession


object DataFrameTest {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("DataFrameAPITest" 
).master("local[2]").getOrCreate()

    val rdd = spark.sparkContext.textFile("file:///d://stu.txt")

    import spark.implicits._
    val stuDF = rdd.map(_.split("\\|")).map(line => {
      Stu(line(0).toInt, line(1), line(2), line(3))
    }).toDF()

    //預設只顯示20條
   // stuDF.show()

    //stuDF.take(10).foreach( 
println)

    stuDF.first()
    stuDF.head(3)

    //stuDF.select("email").show(20,false)
    //stuDF.select("name","email").show(20,false)

   // stuDF.filter("name=''").show()
    //stuDF.filter("name='' OR name='NULL'").show()

    //檢視 name 以 H開頭的人
    //stuDF.filter("SUBSTR(name,0,1)='H'").show()

    //stuDF.sort(stuDF("name")).show()
    //stuDF.sort(stuDF("name").desc).show()

    //stuDF.sort(stuDF("name").asc,stuDF("id").desc).show()

    val stuDF2 = rdd.map(_.split("\\|")).map(line => {
      Stu(line(0).toInt, line(1), line(2), line(3))
    }).toDF()

    stuDF.join(stuDF2,stuDF.col("id")===stuDF2.col("id")).show()


    spark.stop()

  }

  case class Stu(id: Int, name: String, phone: String, email: String)

}

Spark SQL 筆記(7)—— DataFrame API操作案例

1 測試資料 stu.txt 1|Anaa|111111|[email protected] 2|Bob|22222|[email protected] 3|Candy|333333

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

Spark SQL原理與DataFrame、DataSet相關API操作以及程式碼介紹

//一. DataFrame建立// 1.json檔案// val df = sqlContext.read.json("file:\\G:\\code\\source_code\\spark\\examples\\src\\main\\resources\\people.json")//

Spark SQL 筆記(19)——spark SQL 總結(2) DataFrame VS SQL

1 DataFrame DataFrame = RDD + Schema DataFrame is just a type alias for Dataset of Row DataFrame ov

Spark SQL筆記整理（三）：加載保存功能與Spark SQL函數

code ren maven依賴 append 關聯 dfs 取值 struct nal 加載保存功能數據加載（json文件、jdbc）與保存（json、jdbc）測試代碼如下： package cn.xpleaf.bigdata.spark.scala.sql.p1

spark複習筆記(7):sparkSQL

一、saprkSQL模組，使用類sql的方式訪問Hadoop，實現mr計算，底層使用的是rdd 　　1.hive　　　　　　//hadoop mr sql 　　2.phenoix　　　　//hbase上構建sql的互動過程　　該模組能在spark上執行sql語句　　3.Da

Spark SQL 筆記(5)—— Hive 到 Spark SQL（1）

1 SQLContext 1.1 Spark1.x 中Spark SQL 的入口點：SQLContext 參考連結 https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#starting-point-sqlc

Spark SQL 筆記(4)——Spark SQL 介紹

1 Spark SQL 背景介紹 1.1 Hive 介紹類似 sql 的 Hive QL 語言， sql -> mapreduce 改進： hive on tez，hive on spark, hive on mapreduce 1.2 Spark

Spark SQL 筆記(3)——Spark 環境搭建

1 local 模式直接執行即可 2 Standalone 模式和 Hadoop/HDFS 的架構類似 /home/hadoop/apps/spark-2.1.3-bin-2.6.0-cdh5.7.0/conf 2.1 spark-env.sh SPARK_MA

Spark SQL 筆記(2)——Spark 生態圈和 Hadoop 生態圈對比

1 Spark 產生的背景 1.1 MapReduce 的侷限性程式碼繁瑣只能夠支援map 和 reduce 方法；執行效率低；不適合多次迭代、互動式、流式的處理； 1.2 框架多樣化批處理（離線）：MapReduce,H

Spark SQL 筆記(1)—— Hive

1 大資料入門學習 Hadoop ,Hive 的使用學習 Spark DataFrame 和 DataSet 在 Spark 框架中的核心地位 2 Hive 2.1 hive 產生的背景 MapReduce 程式設計的不便性；

Spark SQL：Hive資料來源複雜綜合案例實戰

一、Hive資料來源實戰 Spark SQL支援對Hive中儲存的資料進行讀寫。操作Hive中的資料時，必須建立HiveContext，而不是SQLContext。HiveContext繼承自SQLContext，但是增加了在Hive元資料庫中查詢表，以及用Hi

Spark SQL：JDBC資料來源複雜綜合案例實戰

一、JDBC資料來源實戰 Spark SQL支援使用JDBC從關係型資料庫（比如MySQL）中讀取資料。讀取的資料，依然由DataFrame表示，可以很方便地使用Spark Core提供的各種運算元

Spark SQL 筆記(10)——實戰網站日誌分析（1）

1 使用者行為日誌介紹 1.1 行為日誌生成方法 Nginx Ajax 1.2 日誌內容訪問的系統屬性：作業系統、瀏覽器訪問特徵：點選的 url、從哪個url 跳轉過來的（referer）、頁

Spark SQL 筆記(11)——實戰網站日誌分析（2）統計結果入庫

1 統計結果入庫使用 DataFrame API 完成統計分析使用 SQL API 完成統計分析將結果寫入 MySQL 資料庫 1.1 調優點分割槽欄位的資料型別的調整 https://

Spark SQL 筆記(15)——實戰網站日誌分析（5）資料視覺化

1 常見的視覺化框架 echarts highcharts d3.js HUE Zeppelin 2 建立 Web 專案下載Echarts的檔案放到此目錄 http://echarts.bai

Spark SQL 筆記(16)—— Spark on YARN

1 Spark 的4種執行模式不管使用壽命模式，Spark 應用程式的程式碼是不變的，只需要在提交的時候通過 --master引數來指定 Local,開發時使用 Standalone，Spark自帶的，如果一個叢集是 Standalone ,那麼就需要在多臺

Spark SQL 筆記(17)—— 專案效能調優

1 叢集優化儲存格式的選擇 ,https://www.infoq.cn/article/bigdata-store-choose 壓縮格式的選擇，https://www.ibm.com/develo

Spark SQL 筆記(18)——spark SQL 總結(1)

1 Spark SQl 使用場景 Ad-hoc querying of data in files Live SQL analytics over streaming data ETL capabilities alongside familiar SQL I

第79課：Spark SQL基於網站Log的綜合案例綜合程式碼和實際執行測試

內容： 1.熱門論壇板塊排名 2.綜合程式碼實戰和測試一、熱門論壇板塊排版建立表： spark.sql("createtable userlogs(date st

Spark SQL 筆記(7)—— DataFrame API操作案例

1 測試資料

2 測試程式碼

相關推薦