1. 程式人生 > >datasSet學習

datasSet學習

1、dataset官方定義:

A Dataset is a strongly typed collection of domain-specific objects that can be transformed in parallel using functional or relational operations.

Each Dataset also has an untyped view called a DataFrame, which is a Dataset of Row.

翻譯:

Dataset是特定域物件中的強型別集合,它可以使用函式或者相關操作並行地進行轉換等操作。

每個Dataset都有一個稱為DataFrame的非型別化的檢視,這個檢視是行的資料集

 

2、RDD也是可以並行化的操作,DataSet和RDD主要的區別是:DataSet是特定域的物件集合;然而RDD是任何物件的集合。DataSet的API總是強型別的;而且可以利用這些模式進行優化,然而RDD卻不行。

 

3、 datafrmae -> dataSet : df.as(String)

dataset -> dataframe :dst.toDF()

  • 建立一個ds
 val data = spark.read.text("dataSet/userSet.txt").as[String]
val personDS = Seq(("Max", 33), ("Adam", 32), ("Muller", 62)).toDS
personDS.show
withNames = personDS.toDF("name", "age").as[(String, Int)]
withNames.show

閱讀的相關部落格:

關於DataSet和DataFrame

RDD、DataFrame和DataSet的區別

我們為什麼選擇parquet