再談RDD、DataFrame、DataSet關係以及相互轉換（JAVA API）

阿新 • • 發佈：2018-12-12

Spark提供了三種主要的與資料相關的API：

RDD
DataFrame
DataSet

三者圖示

下面詳細介紹下各自的特點：

RDD

主要描述：RDD是Spark提供的最主要的一個抽象概念（Resilient Distributed Dataset），它是一個element的collection，分割槽化的位於叢集的節點中，支援並行處理。

RDD的特性
- 分散式： RDD使用MapReduce運算元來廣泛的適應在叢集中並行分散式的大資料集的處理和產生。並且方便使用者使用高級別的運算元在平行計算中。
- 不可變： RDD是由一個records的collection組成，而且是分割槽的。分割槽是RDD並行化的基礎單元，而且每個分割槽就是對資料的邏輯分割，它是不可變的，它是通過已經存在的分割槽的某些transformations建立得到。這種不可變性方便在計算中做到資料一致性。
- 錯誤容忍：在實際中如果我們丟失了RDD的部分分割槽，可以通過對丟失分割槽關聯性的transformation重新計算得到。而不是在眾多節點中做資料的複製等操作。這個特性是RDD的最大優點，它節省了大量的資料管理、複製等操作，使得計算速度更快。
- 惰性執行：所有的transformation都是惰性的，他們並不是立刻計算出結果，而是隻是記住了各個transformation對資料集的依賴關係。當driver程式需要一個action結果時才開始執行。
- 功能支援： RDD支援兩種型別的運算元：transformation是指從已經存在的資料集中計算得到新的資料集；action是指通過對通過對資料集的計算得到一個結果返回給driver。
- 資料格式：輕鬆且有效支援各種資料，包括結構化的和非結構化的。
- 程式語言： RDD的API支援Scala、Java、Python和R
RDD的限制
- 沒有內建的優化引擎當對結構化的資料進行處理時，RDD沒有使用Spark的高階優化器，比如catalyst優化器和Tungsten執行引擎。
- 處理結構化的資料不像Dataframe或者Dataset，RDD不會主動推測出資料的schema，而是需要使用者在程式碼裡指示。

DataFrame

Spark從1.3版本開始引入Dataframe，它克服了RDD的最主要的挑戰。

主要描述：Dataframe是一個分散式的資料collection，而且將資料按照列名進行組織。在概念上它與關係型的資料庫的表或者R/Python語言中的DataFrame類似。與之一起提供的還有，Spark引入了catalyst優化器，它可以優化查詢。

DataFrame的特性
- 分散式的Row物件的Collection：分散式、列名組織的資料、後臺優化。具體到程式碼裡面，Dataframe就是Dataset<Row>
- 資料處理：處理支援結構或者非結構化的格式（比如Avro, CSV, elastic search, 以及Cassandra）以及不同的檔案系統（HDFS, HIVE tables, MySQL, etc）。它支援非常多的資料來源
- 使用catalyst優化器優化：它對SQL查詢以及DataFrame API都提供優化支援。Dataframe使用catalyst樹transformation框架有四個步驟： 1、Analyzing a logical plan to resolve references 2、Logical plan optimization 3、Physical planning 4、Code generation to compile parts of the query to Java bytecode.
- Hive相容性：使用Spark的SQL可以無修改的支援Hive查詢在已經存在的Hive warehouses。它重用了Hive的前端、MetaStore並且對已經存在的Hive資料、查詢和UDF提供完整的相容性。
- Tungsten： Tungsten提供了一個物理執行後端，管理記憶體動態產生expression evaluation的位元組碼
- 程式語言： Dataframe API支援Scala、Java、Python和R

DataFrame的限制

沒有編譯階段的型別檢查：不能在編譯時刻對安全性做出檢查，而且限制了使用者對於未知結構的資料進行操作。比如下面程式碼在編譯時沒有錯誤，但是在執行時會出現異常：

case class Person(name : String , age : Int) 
val dataframe = sqlContect.read.json("people.json") 
dataframe.filter("salary > 10000").show 
=> throws Exception : cannot resolve 'salary' given input age , name

不能保留類物件的結構：一旦把一個類結構的物件轉成了Dataframe，就不能轉回去了。下面這個栗子就是指出了：

case class Person(name : String , age : Int)
val personRDD = sc.makeRDD(Seq(Person("A",10),Person("B",20)))
val personDF = sqlContect.createDataframe(personRDD)
personDF.rdd // returns RDD[Row] , does not returns RDD[Person]

DataSet

主要描述：Dataset API是對DataFrame的一個擴充套件，使得可以支援型別安全的檢查，並且對類結構的物件支援程式介面。它是強型別的，不可變collection，並對映成一個相關的schema。 Dataset API的核心是一個被稱為Encoder的概念。它是負責對JVM的物件以及表格化的表達（tabular representation）之間的相互轉化。表格化的表達在儲存時使用了Spark內建的Tungsten二進位制形式，允許對序列化資料操作並改進了記憶體使用。在Spark 1.6版本之後，支援自動化生成Encoder，可以對廣泛的primitive型別（比如String，Integer，Long等）、Scala的case class以及Java Bean自動生成對應的Encoder。

DataSet的特性
- 支援RDD和Dataframe的優點：包括RDD的型別安全檢查，Dataframe的關係型模型，查詢優化，Tungsten執行，排序和shuffling。
- Encoder：通過使用Encoder，使用者可以輕鬆轉換JVM物件到一個Dataset，允許使用者在結構化和非結構化的資料操作。
- 程式語言： Scala和Java
- 型別安全檢查：提供編譯階段的安全型別檢查。比如下面這個栗子：
```
case class Person(name : String , age : Int)
val personRDD = sc.makeRDD(Seq(Person("A",10),Person("B",20)))
val personDF = sqlContect.createDataframe(personRDD)
val ds:Dataset[Person] = personDF.as[Person]
ds.filter(p => p.age > 25)
ds.filter(p => p.salary > 25)
 // error : value salary is not a member of person
ds.rdd // returns RDD[Person]
```
- 相互轉換： Dataset可以讓使用者輕鬆從RDD和Dataframe轉換到Dataset不需要額外太多程式碼。
DataSet的限制
- 需要把型別轉成String： Querying the data from datasets currently requires us to specify the fields in the class as a string. Once we have queried the data, we are forced to cast column to the required data type. On the other hand, if we use map operation on Datasets, it will not use Catalyst optimizer. 比如：
```
ds.select(col("name").as[String], $"age".as[Int]).collect()
```

Java API中三種資料格式的相互轉換

首先構造一個數據集，是由Person類的結構組成的，然後在此之上看這三個API例項的構造以及相互轉換

資料建立

Person類的定義

資料建立

直接構建出 JavaRDD<Person>

JavaRDD<Person> personJavaRDD = jsc.parallelize(personList);
System.out.println("1. 直接構建出 JavaRDD<Person>");
personJavaRDD.foreach(element -> System.out.println(element.toString()));

Print結果：

直接構建出 JavaRDD<Person> Person: name = Andy, age = 32 Person: name = Michael, age = 23 Person: name = Justin, age = 19

直接構建出 Dataset<Person>

      Encoder<Person> personEncoder = Encoders.bean(Person.class);
      Dataset<Person> personDS = spark.createDataset(personList, personEncoder);
      System.out.println("2. 直接構建出 Dataset<Person>");
      personDS.show();
      personDS.printSchema();

Print結果：

直接構建出 Dataset<Person> +---+-------+ |age| name| +---+-------+ | 32| Andy| | 23|Michael| | 19| Justin| +---+-------+ root |-- age: integer (nullable = false) |-- name: string (nullable = true)

直接構建出 Dataset<Row>
```
      Dataset<Row> personDF = spark.createDataFrame(personList, Person.class);
      System.out.println("3. 直接構建出 Dataset<Row>");
      personDF.show();
      personDF.printSchema();
```
Print結果：
1. 直接構建出 Dataset<Row> +---+-------+ |age| name| +---+-------+ | 32| Andy| | 23|Michael| | 19| Justin| +---+-------+ root |-- age: integer (nullable = false) |-- name: string (nullable = true)
JavaRDD<Person> -> Dataset<Person>
```
      personDS = spark.createDataset(personJavaRDD.rdd(), personEncoder);
      System.out.println("1->2 JavaRDD<Person> -> Dataset<Person>");
      personDS.show();
      personDS.printSchema();
```
Print結果：

1->2 JavaRDD<Person> -> Dataset<Person> +---+-------+ |age| name| +---+-------+ | 32| Andy| | 23|Michael| | 19| Justin| +---+-------+ root |-- age: integer (nullable = true) |-- name: string (nullable = true)
JavaRDD<Person> -> Dataset<Row>
```
      personDF = spark.createDataFrame(personJavaRDD, Person.class);
      System.out.println("1->3 JavaRDD<Person> -> Dataset<Row>");
      personDF.show();
      personDF.printSchema();
```
Print結果：

1->3 JavaRDD<Person> -> Dataset<Row> +---+-------+ |age| name| +---+-------+ | 32| Andy| | 23|Michael| | 19| Justin| +---+-------+ root |-- age: integer (nullable = false) |-- name: string (nullable = true)

補充從JavaRDD<Row>到Dataset<Row>

      JavaRDD<Row> personRowRdd = personJavaRDD.map(person -> RowFactory.create(person.age, person.name));
      List<StructField> fieldList = new ArrayList<>();
      fieldList.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
      fieldList.add(DataTypes.createStructField("name", DataTypes.StringType, false));
      StructType rowAgeNameSchema = DataTypes.createStructType(fieldList);
      personDF = spark.createDataFrame(personRowRdd, rowAgeNameSchema);
      System.out.println("\n\n\n補充，由JavaRDD<Row> -> Dataset<Row>");
      personDF.show();
      personDF.printSchema();

主要就是使用RowFactory把Row中的每一項寫好後，通過spark的createDataFrame來建立。其中對於Row的解讀包含在了自建的StructType中。

Dataset<Person> -> JavaRDD<Person>

      personJavaRDD = personDS.toJavaRDD();
      System.out.println("2->1 Dataset<Person> -> JavaRDD<Person>");
      personJavaRDD.foreach(element -> System.out.println(element.toString()));

Print結果：

2->1 Dataset<Person> -> JavaRDD<Person> Person: name = Justin, age = 19 Person: name = Andy, age = 32 Person: name = Michael, age = 23

Dataset<Row> -> JavaRDD<Person>

      personJavaRDD = personDF.toJavaRDD().map(row -> {
          String name = row.getAs("name");
          int age = row.getAs("age");
          return new Person(name, age);
      });
      System.out.println("3->1 Dataset<Row> -> JavaRDD<Person>");
      personJavaRDD.foreach(element -> System.out.println(element.toString()));

Print結果：

3->1 Dataset<Row> -> JavaRDD<Person> Person: name = Justin, age = 19 Person: name = Michael, age = 23 Person: name = Andy, age = 32

Dataset<Person> -> Dataset<Row>

      List<StructField> fieldList = new ArrayList<>();
      fieldList.add(DataTypes.createStructField("name", DataTypes.StringType, false));
      fieldList.add(DataTypes.createStructField("age", DataTypes.IntegerType, false));
      StructType rowSchema = DataTypes.createStructType(fieldList);
      ExpressionEncoder<Row> rowEncoder = RowEncoder.apply(rowSchema);
      Dataset<Row> personDF_fromDS = personDS.map(
              (MapFunction<Person, Row>) person -> {
                  List<Object> objectList = new ArrayList<>();
                  objectList.add(person.name);
                  objectList.add(person.age);
                  return RowFactory.create(objectList.toArray());
              },
              rowEncoder
      );
      System.out.println("2->3 Dataset<Person> -> Dataset<Row>");
      personDF_fromDS.show();
      personDF_fromDS.printSchema();

Print結果：

2->3 Dataset<Person> -> Dataset<Row> +---+-------+ |age| name| +---+-------+ | 32| Andy| | 23|Michael | 19| Justin| +---+-------+ root |-- age: integer (nullable = false) |-- name: string (nullable = true)

Dataset<Row> -> Dataset<Person>

      personDS = personDF.map(new MapFunction<Row, Person>() {
          @Override
          public Person call(Row value) throws Exception {
              return new Person(value.getAs("name"), value.getAs("age"));
          }
      }, personEncoder);
      System.out.println("3->2 Dataset<Row> -> Dataset<Person>");
      personDS.show();
      personDS.printSchema();

Print結果：

3->2 Dataset<Row> -> Dataset<Person> +---+-------+ |age| name| +---+-------+ | 32| Andy| | 23|Michael| | 19| Justin| +---+-------+ root |-- age: integer (nullable = true) |-- name: string (nullable = true)

總結：其實RDD的Map和Dataset的Map只有一點不同，就是Dataset的Map要指定一個Encoder的引數。

需要用Encoder類給出

作者：shohokuooo 連結：https://www.jianshu.com/p/71003b152a84 來源：簡書簡書著作權歸作者所有，任何形式的轉載都請聯絡作者獲得授權並註明出處。

再談RDD、DataFrame、DataSet關係以及相互轉換（JAVA API）

Spark提供了三種主要的與資料相關的API： RDD DataFrame DataSet 三者圖示下面詳細介紹下各自的特點： RDD 主要描述：RDD是Spark提供的最主要的一個抽象概念（Resilient Distributed Dataset）

二叉樹的前序、中序、後序遍歷的相互求法（JAVA）

今天做前端的筆試題，第一個選擇題就是已知前序和中序，求後序，突然發現自己資料結構的基礎全忘了，所以上網查了查，自己寫了個程式： 1.已知前序和中序，求後序： package nowcode; public class AfterOder {public static voi

CString、wchar和char型別的相互轉換（轉載）

1.標頭檔案中要定義巨集; #define UNICODE #define _UNICODE 2.char轉換成wchar const char *pFilePathName = "c://aa.dll"; int nLen

Apache Spark 2.0三種API的傳說：RDD、DataFrame和Dataset

sensor json數據 query 答案內存 table 引擎 library spark Apache Spark吸引廣大社區開發者的一個重要原因是：Apache Spark提供極其簡單、易用的APIs，支持跨多種語言(比如：Scala、Java、Python和R

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分鐘搞定大數據》

implicit 操作數 frame 大數據函數 for 臨時變量 ade 1. 三者共性： 1、RDD、DataFrame、Dataset全都是spark平臺下的分布式彈性數據集，為處理超大型數據提供便利 2、三者都有惰性機制，執行trainform操作時不會立即執

一篇文章搞懂DataSet、DataFrame、RDD

1. 三者共性： 1、RDD、DataFrame、Dataset全都是spark平臺下的分散式彈性資料集，為處理超大型資料提供便利 2、三者都有惰性機制，執行trainform操作時不會立即執行，遇到Action才會執行 3、三者都會根據spark的記憶體情況自動快取運算，這樣即使資

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分鐘搞定大資料》

1. 三者共性： 1、RDD、DataFrame、Dataset全都是spark平臺下的分散式彈性資料集，為處理超大型資料提供便利 2、三者都有惰性機制，執行trainform操作時不會立即執行，遇到Action才會執行 3、三者都會根據spark的記憶體情況自動快取運算，這樣即使資料量很大，也不用擔心會

Spark RDD、DataFrame和DataSet的區別

RDD 優點: 編譯時型別安全編譯時就能檢查出型別錯誤面向物件的程式設計風格直接通過類名點的方式來操作資料缺點: 序列化和反序列化的效能開銷無論是叢集間的通訊, 還是IO操作都需要對物件的結構和資料進行序列化和反序列化. G

Spark中的RDD、DataFrame、Dataset對比

1 RDD RDD是Spark提供的最重要的抽象的概念，彈性的分散式資料集，它是一種有容錯機制的特殊集合，可以分佈在叢集的節點上，以函式式編操作集合的方式，進行各種並行操作。Spark的RDD內建了各種函式操作，舉個例子，我們編寫wordcount案例，如果使

Spark RDD、DataFrame、DataSet區別和聯絡

左側的RDD[Person]雖然以Person為型別引數，但Spark框架本身不瞭解Person類的內部結構。而右側的DataFrame卻提供了詳細的結構資訊，使得Spark SQL可以清楚地知道該資料集中包含哪些列，每列的名稱和型別各是什麼。DataFrame多了資料的結構資訊，即schema。RDD是分散

RDD、DataFrame、DataSet互轉

如果需要RDD與DS或者DF之間操作，那麼都需要引入 import spark.implicits._ 【spark不是包名，而是sparkSession物件的名稱】1、RDD 《-》 DataFrame 1、RDD -》 DataFrame （確定Schema）

談談RDD、DataFrame、Dataset的區別和各自的優勢

在spark中，RDD、DataFrame、Dataset是最常用的資料型別，本博文給出筆者在使用的過程中體會到的區別和各自的優勢共性：1、RDD、DataFrame、Dataset全都是spark平臺下的分散式彈性資料集，為處理超大型資料提供便利2、三者都有惰性機制，在進行

RDD、DataFrame和Dataset的區別

RDD、DataFrame和Dataset是容易產生混淆的概念，必須對其相互之間對比，才可以知道其中異同。 RDD和DataFrame RDD-DataFrame 上圖直觀地體現了DataFrame和RDD的區別。左側的RDD[Person]雖然以Person為型別

RDD、DataFrame、Dataset介紹

rdd 優點: 編譯時型別安全編譯時就能檢查出型別錯誤面向物件的程式設計風格直接通過類名點的方式來操作資料缺點: 序列化和反序列化的效能開銷無論是叢集間的通訊, 還是IO操作都需要對物件的結構和資料進行序列化和反序列化. GC的效能開銷頻繁的建立和銷燬物

再談vc傳送鍵盤、組合鍵訊息

關於向Windows視窗傳送Alt組合鍵的問題,這個真是經典問題啊,在網上找了一下,問的人N多,方法差不多, 但就是沒有很好解決問題。之前找到一個能正確傳送的code:(Alt+A)PostMessage(hWnd,WM_SYSKEYDOWN,VK_MENU,0);PostMessage(hWnd,WM_S

淺談Websocket、Ajax輪詢和長連接（long pull）

服務器推 .ajax get 版本其中 img request 結果服務 1.什麽是Websocket 　　Websocket是HTML5中提出的新的協議，註意，這裏是協議，可以實現客戶端與服務器端的通信，實現服務器的推送功能。 2.Websocket和HTTP協議

JSON、JSONObject、JSONArray、javabean之間的關係、獲取值以及相互轉換

PS:如果只想看方法直接向後滑動。 JSON、JSONObject、JSONArray都是FastJson框架中的東西，JSON協議使用方便，越來越流行,JSON的處理器有很多,這裡先介紹一下FastJson,FastJson是阿里的開源框架,被不少企業使用,是一個極其優秀

再談C++中的has-a關係（通過複合塑模出has-a 明智而審慎地使用Private繼承）

今天就再談談通過複合、私有繼承來實現has-a關係。由於翻譯差異，我們姑且認為“包含”和“複合”是一個概念！一、使用包含實現has-a關係這種關係的實現無非就是一個類是另外一個類的成員而已。valarray類有標頭檔案valarray支援，用於處理數值。下面我們實

EF6學習筆記四：一對多、多對多、一對一關係配置（Fluent API）

要專業系統地學習EF前往《你必須掌握的Entity Framework 6.x與Core 2.0》這本書的作者（汪鵬，Jeffcky）的部落格：https://www.cnblogs.com/CreateMyself/ 現在就來到了重中之重的配置了：一對

BigData進階--細說RDD，DataFrame，Dataset的區別

在spark中有重要的元件SparkContext和SQLContext，在讀取資料檔案時我們可以通過這兩個元件進行不同形式的讀取，比如： val conf = new SparkConf().setMaster("local").setAppName

再談RDD、DataFrame、DataSet關係以及相互轉換（JAVA API）

RDD

DataFrame

DataSet

Java API中三種資料格式的相互轉換

相關推薦