spark SQL學習（案例-統計每日uv）

阿新 • • 發佈：2019-01-10

需求：統計每日uv

package wujiadong_sparkSQL


import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.sql.types._
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.functions._
/**
  * Created by Administrator on 2017/3/6.
  */
object DailyUV {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("dailyuv")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)

    val userAccesslog = Array(
      "2017-01-01,1122",
      "2017-01-01,1122",
      "2017-01-01,1123",
      "2017-01-01,1124",
      "2017-01-01,1124",
      "2017-01-02,1122",
      "2017-01-01,1121",
      "2017-01-01,1123",
      "2017-01-01,1123"

    )
    val AccesslogRDD = sc.parallelize(userAccesslog,2)
    //val AccesslogRDD = sc.textFile("hdfs://master:9000/student/2016113012/data/userAccesslog.txt").map(_.split(","))
    //通過StructType直接指定每個欄位的schema
    val schema = StructType(
      Array(
        StructField("date",StringType,true),
        StructField("userid",IntegerType,true)
      )
    )

    //j將普通rdd對映到rowRDD
    val RowRDD = AccesslogRDD.map(log => Row(log.split(",")(0),log.split(",")(1).toInt))
    //將schema資訊對映到RowRDD上,即建立dataframe
    val df = sqlContext.createDataFrame(RowRDD,schema)
    //要使用spark SQL的內建函式需匯入SQLContext下的隱士轉換

    import sqlContext.implicits._
    df.groupBy("date") //根據日期分組
        .agg('date,countDistinct('userid))//根據日期聚合，然後根據使用者id，注意這裡的語法是‘引號
         .map(row => Row(row(1),row(2))).collect().foreach(println)


    //uv含義和業務，每天都有很多使用者訪問，每個使用者可能每天訪問很多次，uv指的是對使用者進行去重以後的訪問次數




  }

}

執行結果

[email protected]:~/wujiadong$ spark-submit --class wujiadong_sparkSQL.DailyUV  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar 
17/03/06 21:01:52 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/03/06 21:01:53 WARN SparkConf: 
SPARK_CLASSPATH was detected (set to ':/home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.26-bin.jar').
This is deprecated in Spark 1.0+.

Please instead use:
 - ./spark-submit with --driver-class-path to augment the driver classpath
 - spark.executor.extraClassPath to augment the executor classpath
        
17/03/06 21:01:53 WARN SparkConf: Setting 'spark.executor.extraClassPath' to ':/home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.26-bin.jar' as a work-around.
17/03/06 21:01:53 WARN SparkConf: Setting 'spark.driver.extraClassPath' to ':/home/hadoop/bigdata/hive/lib/mysql-connector-java-5.1.26-bin.jar' as a work-around.
17/03/06 21:01:55 INFO Slf4jLogger: Slf4jLogger started
17/03/06 21:01:55 INFO Remoting: Starting remoting
17/03/06 21:01:56 INFO Remoting: Remoting started; listening on addresses :[akka.tcp:// 
[email protected]:57493]
17/03/06 21:01:57 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
17/03/06 21:01:58 WARN MetricsSystem: Using default name DAGScheduler for source because spark.app.id is not set.
[2017-01-01,4]                                                                  
[2017-01-02,1]
17/03/06 21:02:21 INFO RemoteActorRefProvider$RemotingTerminator: Shutting down remote daemon.
17/03/06 21:02:21 INFO RemoteActorRefProvider$RemotingTerminator: Remote daemon shut down; proceeding with flushing remote transports.
17/03/06 21:02:21 INFO RemoteActorRefProvider$RemotingTerminator: Remoting shut down.

spark SQL學習（案例-統計每日uv）

需求：統計每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apach

spark SQL學習（案例-統計每日銷售）

需求：統計每日銷售額 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext} import org.apach

spark SQL學習（綜合案例-日誌分析）

日誌分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala> val logRDD = sc.textFile("hdfs://

spark SQL學習（認識spark SQL）

spark SQL學習（認識spark SQL） spark SQL初步認識 spark SQL是spark的一個模組，主要用於進行結構化資料的處理。它提供的最核心的程式設計抽象就是DataFrame。 DataFrame：它可以根據很多源進行構建，包括：結構化的資料檔案，hive中的表

Spark機器學習（上）

控制常用 nbsp 建立判斷測試數據話題 with 分享圖片 1、機器學習概念 1.1 機器學習的定義在維基百科上對機器學習提出以下幾種定義：l“機器學習是一門人工智能的科學，該領域的主要研究對象是人工智能，特別是如何在經驗學習中改善具體算法的性能”。l“機

Spark Streaming整合Spark SQL之wordcount案例

完整原始碼地址： https://github.com/apache/spark/blob/v2.3.2/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCount.scala 案例原

Spark-SQL學習筆記_總結和拓展

一、Spark-SQL應用場景 1.資料檔案即席查詢 Ad-hoc 普通查詢:定製化查詢 2.對流資料檔案採用SQL分析 Spark-Streaming+Spark-SQL 3.使用SQL完成ETL開發

Spark基礎-scala學習（七、型別引數）

型別引數是什麼類似於java泛型，泛型類泛型函式上邊界Bounds 下邊界 View Bounds Context Bounds Manifest Context Bounds 協變和逆變 Existential Type 泛型類 scala> :p

程式設計的兩種方式執行Spark SQL查詢（方式一）

現在我們來實現在自定義程式中編寫Spark SQL查詢程式。實現查詢的方式有兩種：方式一：通過反射推斷schema。方式二：通過structtype直接指定schema。我們先用方式一來實現自定義查詢。首先建立一個team.txt檔案，內容有5列，分別是id，球隊

程式設計的兩種方式執行Spark SQL查詢（方式二）

現在我們來實現在自定義程式中編寫Spark SQL查詢程式。實現查詢的方式有兩種：方式一：通過反射推斷schema。方式二：通過structtype直接指定schema。這次我們用方式二來實現自定義查詢。具體程式如下： package cn.allengao.s

Spark SQL電影分析案例

用Spark SQL分析熱門電影的TopN 1.資料結構 users.dat 5220::M::25::7::91436 5221::F::56::1::96734 5222::M::25::12::94501 5223::M::56::10

spark streaming 學習（和flume結合+和kafka 的結合）

spark 2.1 設定日誌級別很簡單下面幾行程式碼就可以搞定主要是下面畫橫線的程式碼val conf = new SparkConf().setAppName("FlumePollWordCount").setMaster("local[2]") val sc = ne

Spark SQL--商品訂單案例

需求統計所有訂單中每年的銷售單數、銷售總額統計每年最大金額訂單的銷售額統計每年最暢銷貨品（哪個貨品銷售額amount在當年最高，哪個就是最暢銷貨品）我們首先需要在scala裡連線hive，然後建立這三個表，匯入資料。建立以及匯入資料與操作Hive一致。

SQL學習（2）——MySQL資料庫常用的函式--聚合函式

一、聚合函式聚合函式對一組值執行計算並返回單一的值，聚合函式與group by子句一塊使用方能顯現它的強大，聚合函式與其他函式的根本區別：聚合函式一般作用在多條記錄上，聚合函式中除了count()外，都忽略空值。 **聚合函式用表： CREA

Spark原始碼學習（4）——Scheduler

本文要解決的問題：從scheduler各個類的具體方法閱讀原始碼，進一步瞭解Spark的scheduler的工作原理和過程。 Scheduler的基本過程使用者提交的Job到DAGScheduler後，會封裝成ActiveJob，同時啟動Job

SQL學習（一）--資料庫行列轉換

SQLServer 1、UNPIVOT 操作符 UNPIVOT操作符就是取得一個行的資料集合，然後把每一行都轉換成多個行資料。 UNPIVOT 語法下面就是 UNPIVOT 的語法: SELECT [columns not unpivoted], [unp

Spark原始碼學習（二）---Master和Worker的啟動以及Actor通訊流程

在《Spark原始碼學習（一）》中通過Spark的啟動指令碼，我們看到Spark啟動Master的時候實際上是啟動了org.apache.spark.deploy.master.Master，下面我們就從這2個類入手，通過閱讀Spark的原始碼，瞭解Spark的啟動流程。

spark sql 實踐（續）

前言之前一篇文章《spark sql 在mysql的應用實踐》已經簡單描述了spark sql 在我們的業務場景的實踐、開發遇到的問題和叢集的佇列分配問題。這篇主要介紹spark dataset 的cache，瞭解其引數，基本原理和簡單的原始碼分析。

Databricks 第9篇：Spark SQL 基礎（資料型別、NULL語義）

Spark SQL 支援多種資料型別，併兼容Python、Scala等語言的資料型別。一，Spark SQL支援的資料型別整數系列： BYTE, TINYINT：表示1B的有符號整數 SHORT, SMALLINT：表示2B的有符號整數 INT, INTEGER：表示4B的有符號整數 LONG, BIG

Databricks 第11篇：Spark SQL 查詢（行轉列、列轉行、Lateral View、排序）

本文分享在Azure Databricks中如何實現行轉列和列轉行，並介紹對查詢的結果進行排序的各種方式。一，行轉列在分組中，把每個分組中的某一列的資料連線在一起： collect_list：把一個分組中的列合成為陣列，資料不去重，格式是['a','a','b'] collect_set：把一個分組中的

spark SQL學習（案例-統計每日uv）

需求：統計每日uv

執行結果

相關推薦