建立DataFrame的幾種方式

阿新 • • 發佈：2018-12-31

1.讀取json格式的檔案建立DataFrame

json檔案如下：

{"name":"Fanbingbing", "score":100}
{"name":"Xuruyun", "score":99}
{"name":"Liangyongqi", "score":74}

Java程式碼：

package demo.java.cn;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

public class DataFrameFromJson
{
    public static void main(String[] args)
    {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("jsonfile");
        SparkContext sc = new SparkContext(conf);
        //建立sqlContext
        SQLContext sqlContext = new SQLContext(sc);
        //讀取json格式的檔案
        DataFrame df = sqlContext.read().format("json").load("star.json");
        df.show();//顯示 DataFrame中的內容,如果顯示多行要指定多少行show(行數)
        df.printSchema();//顯示schema資訊
        //將DataFrame註冊成臨時的一張表，這張表臨時註冊到記憶體中,不會到磁碟
        df.registerTempTable("startable");
        DataFrame sqlDf = sqlContext.sql("select * from startable where score >80");
        sqlDf.show();
        sc.stop();
    }
}

打印出來的結果：

+-----------+-----+
|       name|score|
+-----------+-----+
|Fanbingbing|  100|
|    Xuruyun|   99|
|Liangyongqi|   74|
+-----------+-----+

root
 |-- name: string (nullable = true)
 |-- score: long (nullable = true)

+-----------+-----+
|       name|score|
+-----------+-----+
|Fanbingbing|  100|
|    Xuruyun|   99|
+-----------+-----+

Scala程式碼：

package demo.scala.cn

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object DataFrameFromJson {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("jsonfile")
    val sc=new SparkContext(conf)
    val sqlContext=new SQLContext(sc)
    val df=sqlContext.read.json("star.json")
    df.show() //顯示 DataFrame中的內容,如果顯示多行要指定多少行show(行數)
    df.printSchema() //顯示schema資訊
    df.registerTempTable("startable")
    val sqlDf=sqlContext.sql("select * from startable where score >80")
    sqlDf.show()
    sc.stop()
  }
}

2.非Json格式的檔案建立DataFrame

資料檔案如下：

Fanbingbing,100
Xuruyun,99
Liangyongqi,74

Java程式碼：

package demo.java.cn;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import java.util.Arrays;
import java.util.List;

public class DataFrameFromFile
{
    public static void main(String[] args)
    {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("rddStruct");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        JavaRDD<String> linesRDD = sc.textFile("star.txt");
        JavaRDD<Row> rowRDD = linesRDD.map(new Function<String, Row>()
        {
            private static final long serialVersionUID = 1L;
            public Row call(String s) throws Exception
            {
                String[] split = s.split(",");
                return RowFactory.create(//這裡欄位順序一定要和下邊 StructField對應起來
                        String.valueOf(split[0]),
                        Integer.valueOf(split[1])
                );
            }
        });
        List<StructField> asList = Arrays.asList(
                DataTypes.createStructField("name", DataTypes.StringType, true),
                DataTypes.createStructField("score", DataTypes.IntegerType, true)
        );
        StructType schema = DataTypes.createStructType(asList);
        DataFrame df = sqlContext.createDataFrame(rowRDD, schema);
        df.show();
        //DataFrame再轉為RDD
        JavaRDD<Row> rowRDD2 = df.javaRDD();
        rowRDD2.foreach(new VoidFunction<Row>()
        {
            public void call(Row row) throws Exception
            {
                System.out.print(row.getString(0));
                System.out.println(","+row.getInt(1));
            }
        });
        sc.stop();
    }
}

Scala程式碼：

package demo.scala.cn

import org.apache.spark.sql.{RowFactory, SQLContext}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.{SparkConf, SparkContext}

object DataFrameFromFile {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("rddStruct")
    val sc = new SparkContext(conf)
    val sqlContext=new SQLContext(sc)
    val linesRDD = sc.textFile("star.txt")
    val rowRDD = linesRDD.map { x => {
      val split = x.split(",")
      RowFactory.create(split(0), Integer.valueOf(split(1)))
    }}
    val schema = StructType(List(
      StructField("name", StringType, true),
      StructField("score", IntegerType, true)
    ))
    val df=sqlContext.createDataFrame(rowRDD,schema)
    df.show()
    df.printSchema()
    sc.stop()
  }
}

3.將DataFrame儲存成parquet檔案，儲存成parquet的方式有兩種：

df.write().mode(SaveMode.Overwrite).format("parquet").save("./sparksql/parquet");

df.write().mode(SaveMode.Overwrite).parquet("./sparksql/parquet");

4.讀取parquet檔案建立DataFrame

Java程式碼：

package demo.java.cn;

import org.apache.spark.SparkConf;
import org.apache.spark.SparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

public class DataFrameFromParquet
{
    public static void main(String[] args)
    {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("fromparquet");
        SparkContext sc = new SparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        DataFrame df = sqlContext.read().parquet("./sparksql/parquet");
        df.show();
        sc.stop();
    }
}

Scala程式碼：

package demo.scala.cn

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object DataFrameFromParquet {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("fromparquet")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    val df = sqlContext.read.parquet("./sparksql/parquet")
    df.show()
    sc.stop()
  }
}

5.讀取mysql中的資料建立DataFrame

mysql中的資料如下：

mysql> select * from Star;
+-------------+-------+
| name        | score |
+-------------+-------+
| Fanbingbing |   100 |
| Xuruyun     |    99 |
| Liangyongqi |    74 |
+-------------+-------+
3 rows in set (0.00 sec)

Java程式碼：

package demo.java.cn;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

import java.util.HashMap;
import java.util.Map;

public class DataFrameFromMysql
{
    public static void main(String[] args)
    {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("mysql");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        Map<String, String> options = new HashMap<String, String>();
        options.put("url", "jdbc:mysql://master.cn:3306/db_spark");
        options.put("driver", "com.mysql.jdbc.Driver");
        options.put("user", "root");
        options.put("password", "123456");
        options.put("dbtable", "Star");
        DataFrame df = sqlContext.read().format("jdbc").options(options).load();
        df.show();
        sc.stop();
    }
}

Scala程式碼：

package demo.scala.cn

import java.util
import java.util.Properties

import org.apache.spark.sql.{SQLContext, SaveMode}
import org.apache.spark.{SparkConf, SparkContext}

object DataFrameFromMysql {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("mysql")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    val options = new util.HashMap[String, String]()
    options.put("url", "jdbc:mysql://master.cn:3306/db_spark")
    options.put("driver", "com.mysql.jdbc.Driver")
    options.put("user", "root")
    options.put("password", "123456")
    options.put("dbtable", "Star")
    val df = sqlContext.read.format("jdbc").options(options).load()
    df.show()
    //將DataFrame的資料插入mysql
    val properties = new Properties()
    properties.setProperty("user","root")
    properties.setProperty("password","123456");
    df.write.mode(SaveMode.Append).jdbc("jdbc:mysql://master.cn:3306/db_spark","result",properties)
    sc.stop()
  }
}

深入研究Spring-IoC ：容器建立的幾種方式

1.前言本文為對tiny-spring的學習解讀，程式碼參考自tiny-spring。一個手寫的Spring簡易版框架。前面已經提到了Spring IOC容器的建立大致分為3個步驟。但是這個三個步驟是有一個演進的過程的，Spring容器建立方式前後有6種，從最基本的例項化建立

vue常用建立元件幾種方式總結

最近一週需要使用vue開發一個谷歌擴充套件外掛，但是又不能在vue-cli腳手架中開發，所以只能單獨引入vue.js整個包進行指令碼植入開發。引入vue.js就代表著不能用import、require之類的引入單檔案元件檔案，只能在檔案中開發，或者多個js檔案分先後順序植入開發，然後就出現了一個尷尬

執行緒和程序的關係 ----執行緒建立有幾種方式

程序是一個應用程式在處理機上的一次執行過程，他是一個動態的概念，執行緒是程序的一部分是程式執行的最小單元一個程序中有多個執行緒個人理解：

struts2建立action幾種方式有什麼區別？

當我們在寫action的時候,可以實現Action介面,也可以繼承Actionsupport這個類.到底這兩個有什麼區別呢? Action介面有: public static final java.lang.String SUCCESS = "success"; publ

json建立的幾種方式的示例

JSON（JavaScript Object Notation）一種簡單的資料格式，比xml更輕巧。JSON是JavaScript原生格式，這意味著在JavaScript中處理JSON資料不需要任何特殊的API或工具包。 JSON的規則很簡單：物件是一個無序的“‘名稱/

客觀面試題--8.執行緒的生命週期是什麼?執行緒建立有幾種方式?

1.執行緒的生命週期執行緒是一個動態執行的過程，它也有一個從產生到死亡的過程。(1)生命週期的五種狀態新建（new Thread）當建立Thread類的一個例項（物件）時，此執行緒進入新建狀態（未被啟動）。例如：Thread t1=new Thread();就緒（runna

建立DataFrame的幾種方式

1.讀取json格式的檔案建立DataFrame json檔案如下： {"name":"Fanbingbing", "score":100} {"name":"Xuruyun", "score":99} {"name":"Liangyongqi", "score":74} Java程

Spark SQL初始化和創建DataFrame的幾種方式

hdf per () med 分析 exception vat 都是 tty 一、前述 1、SparkSQL介紹 Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL產生的根本原因是其完全脫離了Hive的限制。

使用Myeclipse2014建立Maven專案有如下幾種方式：

1、建立Maven Java專案　　1.1 選擇新建Maven專案 1.2、選擇建立簡單專案 1.3、填寫專案資訊 1.4、建立成功後項目目錄結構　　1.5、建立後pom.xml檔案內容 1 <project xmlns="http

Java建立物件的幾種方式。

Java建立物件的幾種方式（重要）： (1) 用new語句建立物件，這是最常見的建立物件的方法。 (2) 運用反射手段,呼叫java.lang.Class或者java.lang.reflect.Constructor類的newInstance()例項方法。 (3) 呼叫物件的clone()方法。 (4) 運用

JS建立函式的幾種方式

js中建立函式的三種方式: 第一種（函式宣告）： function sum1(num1,num2){ return num1+num2; } sum1(10,20); 第二種（函式表示式）： var sum2 = function(num1,num2

JavaScript高階程式設計學習筆記——建立物件的幾種方式

建立物件的幾種方式工廠模式 function createPerson(name, age, job){ var o = new Object(); o.name = name; o.age = age; o.job =

js 建立物件的幾種方式總結

第一種建構函式建立 var Person = new Object(); Person.name = 'nike'; Person.age = 29; console.log(Person) 這串程式碼建立了Object 引用型別的一個新例項

javascript建立物件的幾種方式？

javascript建立物件簡單的說,無非就是使用內建物件或各種自定義物件，當然還可以用JSON；但寫法有很多種，也能混合使用。 1、物件字面量的方式 person={firstna

談一談建立React Component的幾種方式

React中有兩種元件：函式元件（Functional Components) 和類元件（Class Components）函式元件 import React from "react"; import Button from "./Button"; let Messag

【流暢的python】03-建立字典的幾種方式

python中建立字典的多種方式 >>> # 1. 用鍵值表的方式建立字典 >>> a = dict(one=1, two=2, three=3) >>> a {'three': 3, 'two': 2, '

hibernate建立SessionFactory的幾種方式,及原因分析?

全網搜尋不到原因分析,如下是我自己總結的,參考的是原始碼介紹! 1. hibernate3.X SessionFactory sessionFactory = new Configuration().configure().buildSessionFactory

Spring建立物件的幾種方式

* 1）、包掃描+元件標註註解（@Controller/@Service/@Repository/@Component）[自己寫的類] * 2）、@Bean[匯入的第三方包裡面的元件] 參考部落格：Spring註解@Conditional-

js-JavaScript常見的建立物件的幾種方式

1、通過Object建構函式或物件字面量建立單個物件　　這些方式有明顯的缺點：使用同一個介面建立很多物件，會產生大量的重複程式碼。為了解決這個問題，出現了工廠模式。 2、工廠模式　　考慮在ES中無法建立類（ES6前），開發人員發明了一種函式，用函式來封裝以特定介面建立物件的細節。（實現起來是在一個函

Java建立陣列的幾種方式

借鑑http://blog.csdn.net/u014199097/article/details/50551731 1、一維陣列的宣告 T[] arrayName; 或 T arrayName[]; 附：推薦使用第一種格式，因為第一種格式具有更好的可讀性，表示T[]是一

建立DataFrame的幾種方式

相關推薦