spark學習記錄（十、SparkSQL）

阿新 • • 發佈：2019-01-13

一、介紹

SparkSQL支援查詢原生的RDD。 RDD是Spark平臺的核心概念，是Spark能夠高效的處理大資料的各種場景的基礎。
能夠在Scala中寫SQL語句。支援簡單的SQL語法檢查，能夠在Scala中寫Hive語句訪問Hive資料，並將結果取回作為RDD使用。

DataFrame也是一個分散式資料容器。與RDD類似，然而DataFrame更像傳統資料庫的二維表格，除了資料以外，還掌握資料的結構資訊，即schema。同時，與Hive類似，DataFrame也支援巢狀資料型別（struct、array和map）。從API易用性的角度上看， DataFrame API提供的是一套高層的關係操作，比函式式的RDD API要更加友好，門檻更低。

DataFrame的底層封裝的是RDD，只不過RDD的泛型是Row型別。

二、載入DataFrame方法

新增依賴

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>2.4.0</version>
        </dependency>

public class JavaExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("JavaExample");
        JavaSparkContext sc = new JavaSparkContext (conf);

        SQLContext sqlContext = new SQLContext(sc);
//        載入json檔案
        Dataset<Row> json = sqlContext.read().format("json").load("C://json");
        Dataset<Row> json1 = sqlContext.read().json("C://json");
        /**
         * sqlContext讀取json檔案載入成DataFrame時，DataFrame的列會按照ASCII碼排序
         * 寫sql查詢出的DataFrame會按照指定欄位顯示列
         * show()預設顯示前20行資料，show(100)顯示100行
         */
        //查詢表內容
//        json.show();
        //查詢表結構
//        json.printSchema();
        //select name,age from xxx where age >18
//        json.select("name","age").where(json.col("age").gt(18)).show();

        /**
         * 將DataFrame註冊成臨時表
         * 注意：t1表這張表既不在記憶體中也不在磁碟中，相當於一個指標指向原始檔，底層操作解析Spark job讀取原始檔
         */
        json.registerTempTable("t1");
        sqlContext.sql("select name,age from t1 where age>18").show();

        //DataFrame轉換成RDD,並獲取第一列資料
        JavaRDD<Row> rdd = json.javaRDD();
        rdd.foreach(new VoidFunction<Row>() {
            public void call(Row row) throws Exception {
                System.out.println(row.get(0));
            }
        });

        sc.stop();
    }
}

讀取json格式的檔案建立DataFrame：

json檔案中的json資料不能巢狀json格式資料。
DataFrame是一個一個Row型別的RDD，df.rdd()/df.javaRdd()。
可以兩種方式讀取json格式的檔案。
df.show()預設顯示前20行資料。
DataFrame原生API可以操作DataFrame（不方便）。
註冊成臨時表時，表中的列預設按ascii順序顯示列。

普通RDD轉換為DataFrame

public class Person implements Serializable{

    private String id;
    private String name;
    private Integer age;

    public String getId() {
        return id;
    }

    public void setId(String id) {
        this.id = id;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public Integer getAge() {
        return age;
    }

    public void setAge(Integer age) {
        this.age = age;
    }

    @Override
    public String toString() {
        return "Person{" +
                "id='" + id + '\'' +
                ", name='" + name + '\'' +
                ", age=" + age +
                '}';
    }
}

//通過反射的方式將非json格式的RDD轉換成DataFrame
public class JavaExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("JavaExample");
        JavaSparkContext sc = new JavaSparkContext (conf);

        SQLContext sqlContext = new SQLContext(sc);
        JavaRDD<String> lineRDD = sc.textFile("C:\\person.txt");
        /**
         * 注意：
         * 1.自定義類Person必須為public
         * 2.RDD轉化為DataFrame會把自定義類欄位名稱按ASCII排序
         * 3.自定義類要實現序列化介面
         */
        JavaRDD<Person> personRDD = lineRDD.map(new Function<String, Person>() {
            public Person call(String s) throws Exception {
                Person p = new Person();
                p.setId(s.split(",")[0]);
                p.setName(s.split(",")[1]);
                p.setAge(Integer.valueOf(s.split(",")[2]));
                return p;
            }
        });

        Dataset<Row> dataFrame = sqlContext.createDataFrame(personRDD, Person.class);
        dataFrame.show();

        //將DataFrame轉換為JavaRDD
        JavaRDD<Row> javaRDD = dataFrame.javaRDD();
        JavaRDD<Person> map = javaRDD.map(new Function<Row, Person>() {
            public Person call(Row row) throws Exception {
                Person p = new Person();
                p.setId((String) row.getAs("id"));
                p.setName((String) row.getAs("name"));
                p.setAge((Integer) row.getAs("age"));
                return p;
            }
        });
        map.foreach(new VoidFunction<Person>() {
            public void call(Person person) throws Exception {
                System.out.println(person);
            }
        });

        sc.stop();
    }
}

//動態建立Schema將非json格式的RDD轉換成DataFrame
public class JavaExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("JavaExample");
        JavaSparkContext sc = new JavaSparkContext (conf);

        SQLContext sqlContext = new SQLContext(sc);
        JavaRDD<String> lineRDD = sc.textFile("C:\\person.txt");

        JavaRDD<Row> rowRDD = lineRDD.map(new Function<String, Row>() {
            public Row call(String s) throws Exception {
                return RowFactory.create(
                        s.split(",")[0],
                        s.split(",")[1],
                        Integer.valueOf(s.split(",")[2])
                );
            }
        });
        /**
         * 動態構建DataFrame中的元資料
         */
        List<StructField> asList = Arrays.asList(
                DataTypes.createStructField("id",DataTypes.StringType,true),
                DataTypes.createStructField("name",DataTypes.StringType,true),
                DataTypes.createStructField("age",DataTypes.IntegerType,true)
        );
        StructType schema = DataTypes.createStructType(asList);
        Dataset<Row> dataFrame = sqlContext.createDataFrame(rowRDD,schema);
        dataFrame.show();

        sc.stop();
    }
}

讀取parquet檔案建立DataFrame

public class JavaExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("JavaExample");
        JavaSparkContext sc = new JavaSparkContext (conf);

        SQLContext sqlContext = new SQLContext(sc);
        JavaRDD<String> jsonRDD = sc.textFile("C:\\json");
        Dataset<Row> df = sqlContext.read().json(jsonRDD);
        /**
         * 將DataFormat儲存成parquet檔案，
         * SaveMode指定儲存檔案時的儲存模式：
         * Overwrite：覆蓋
         * Append：追加
         * ErrorIfExists：如果存在就報錯
         * Ignore：如果存在就忽略
         */
        df.write().mode(SaveMode.Overwrite).parquet("C:\\parquet");

        /**
         * 載入parquet檔案成DataFrame檔案
         */
        Dataset<Row> parquet = sqlContext.read().parquet("C:\\parquet");
        parquet.show();

        sc.stop();
    }
}

讀取JDBC中的資料建立DataFrame(MySql為例)

public class JavaExample {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("JavaExample");
        //配置join或聚合操作shuffle資料時的分割槽數量
        conf.set("spark.sql.shuffle.partitions","1");
        JavaSparkContext sc = new JavaSparkContext (conf);
        SQLContext sqlContext = new SQLContext(sc);

        /**
         * 第一種方法
         */
        Map<String, String> options = new HashMap<String, String>();
        options.put("url","jdbc:mysql://192.168.2.125:3306/mysql");
        options.put("driver","com.mysql.jdbc.Driver");
        options.put("user","root");
        options.put("password","123456");
        options.put("dbtable","t_waybill");

        Dataset<Row> load = sqlContext.read().format("jdbc").options(options).load();
        load.show();

        /**
         * 第二種方法
         */
        DataFrameReader reader = sqlContext.read().format("jdbc");
        reader.option("url","jdbc:mysql://192.168.2.125:3306/mysql");
        reader.option("driver","com.mysql.jdbc.Driver");
        reader.option("user","root");
        reader.option("password","123456");
        reader.option("dbtable","t_waybill");

        Dataset<Row> load1 = reader.load();
        load1.show();

        /**
         * 將DataFrame結果儲存到mysql中
         */
        Properties properties = new Properties();
        properties.setProperty("user","root");
        properties.setProperty("password","123456");
        /**
         * SaveMode：
         * Overwrite：覆蓋
         * Append：追加
         * ErrorIfExists：如果存在就報錯
         * Ignore：如果存在就忽略
         */
        load.write().mode(SaveMode.Overwrite).jdbc("jdbc:mysql://192.168.2.125:3306/mysql","t_waybill",properties);
        sc.stop();
    }
}

spark學習記錄（十、SparkSQL）

一、介紹 SparkSQL支援查詢原生的RDD。 RDD是Spark平臺的核心概念，是Spark能夠高效的處理大資料的各種場景的基礎。能夠在Scala中寫SQL語句。支援簡單的SQL語法檢查，能夠在Scala中寫Hive語句訪問Hive資料，並將結果取回作為RDD使用。 D

spark學習記錄（二、RDD）

一、概念 RDD（Resilient Distributed Dataset）叫做彈性分散式資料集，是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點：自動容錯、位置感知性排程和可伸縮性。RDD允許使用者在執行多個查詢時顯式地將工作

spark學習記錄（十三、SparkStreaming）

一、SparkStreaming簡介 SparkStreaming是流式處理框架，是Spark API的擴充套件，支援可擴充套件、高吞吐量、容錯的實時資料流處理，實時資料的來源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，並且可以使用高階功能的複雜

spark學習記錄（十四、kafka）

一、簡介 kafka是一個高吞吐的分散式訊息佇列系統。特點是生產者消費者模式，先進先出（FIFO）保證順序，自己不丟資料，預設每隔7天清理資料。訊息列隊常見場景：系統之間解耦合、峰值壓力緩衝、非同步通訊。 Kafka架構是由producer（訊息生產者）、consumer（訊息消費者）

spark學習記錄（十二、Spark UDF&UDAF&開窗函式）

一、UDF&UDAF public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.

spark學習記錄（十一、Spark on Hive配置）

新增依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifa

spark學習記錄（八、廣播變數和累加器）

一、廣播變數 public class JavaExample { public static void main(String[] args) { SparkConf conf = new SparkConf(); conf.setMaster("

spark學習記錄（九、MasterHA和Spark shuffle）

一、zookeeper配置MasterHA 1.1修改conf下的spark-env.sh ： export SPARK_DAEMON_JAVA_OPTS="-Dspark-deploy-recoveryMode=ZOOKEEPER -Dspark.deploy.zookee

spark學習記錄（七、二次排序和分組取TopN問題）

1.二次排序例題：將兩列數字按第一列升序，如果第一列相同，則第二列升序排列資料檔案：https://download.csdn.net/download/qq_33283652/10894807 將資料封裝成物件，對物件進行排序，然後取出value public class Se

spark學習記錄（六、基礎知識）

1.術語解釋 2.SparkCore和SparkSQL知識點思維導圖整理 https://download.csdn.net/download/qq_33283652/10890863 3.RDD的寬窄依賴相同的key去同一個分割槽，但一個分割槽可以用不同的key

spark學習記錄（五、Spark基於資源排程管理器的提交模式）

一、Standalone（Spark自帶） 1.1 Standalone-client模式提交命令： ./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.Spar

spark學習記錄（四、運算元（函式））

1.Transformations轉換運算元 Transformations類運算元是一類運算元（函式）叫做轉換運算元，如map,flatMap,reduceByKey等。Transformations運算元是延遲執行，也叫懶載入執行。 filter：過濾符合條件的記錄數，true保留

spark學習記錄（三、spark叢集搭建）

一、安裝spark 1.上傳壓縮包並解壓 2.在conf目錄下配置slaves cp slaves.template slaves //在master機上配置worker節點 hadoop2 hadoop3 3.配置spark-env.sh cp spark-env.sh.t

spark學習記錄（一、scala與java編寫wordCount比較）

新增依賴： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12<

Hadoop學習記錄（三、MapReduce）

1.將一個日誌檔案上傳到hdfs上 2. 編寫mapReduce程式碼 2.1新建一個maven專案，新增依賴 <dependencies> <dependency> <groupId>

Storm學習記錄（一、簡介）

一、簡介 Storm是一個免費並開源的分散式實時計算系統。利用Storm可以很容易做到可靠地處理無限的資料流，像Hadoop批量處理大資料一樣，Storm可以實時處理資料。Storm簡單，可以使用任何程式語言。 Storm有如下特點：程式設計簡單：開發人員只需要關注應用邏輯，而且

Hadoop概念學習系列之Hadoop、Spark學習路線（很值得推薦）（十八）

　　不多說，直接上乾貨！說在前面的話　　此筆，對於僅對於Hadoop和Spark初中學者。高手請忽略！ 1 Java基礎：視訊方面：推薦《畢向東JAVA基礎視訊教程》。學習hadoop不需要過度的深入，java學習到javase，在Java虛

mysql 學習記錄（十七）--水平拆分表、垂直拆分表、中間表

一、理論： 1.垂直拆分表：把主碼某些列放在一個表，把主碼及另外的列放在另一個表中。優點是查詢時可以減少I/O次數，缺點是查詢時需要聯合操作。 2.水平拆分：根據一列或多列的值把資料行放到多個表中。 3.水平拆分表的使用情況： a.表很大，分割後可以降低在查詢時需要讀的資

sql必知必會學習記錄（十）- 分組資料

sql必知必會學習記錄（十）- 分組資料資料分組如果要返回每個供應商提供的產品數目怎麼辦？或者返回只提供單項產品的供應商所提供的產品，或返回提供10個以上產品的供應商怎麼辦，這就是分組顯身手的時候了。分組允許把資料分為多個邏輯組，以便能對每個組進行聚集計算。

Hadoop學習記錄（五、hadoop IO操作）

1.壓縮從標準輸入讀取的資料，然後將其寫到標準輸出通過GzipCodec的StreamCompressor物件對字串“Text”進行壓縮，再使用gunzip從標準輸出中對它進行讀取並解壓縮 public class StreamCompressor { public static

spark學習記錄（十、SparkSQL）

一、介紹

二、載入DataFrame方法

相關推薦