spark之DataFrame、DataSet、RDD的區別

阿新 • • 發佈：2019-01-11

RDD(彈性分散式資料集)

RDD是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合，RDD是Spark Core的底層核心，Spark則是這個抽象方法的實現

DataFrame

這裡寫圖片描述
上圖直觀地體現了DataFrame和RDD的區別。
左側的RDD[Person]雖然以Person為型別引數，但Spark框架本身不瞭解 Person類的內部結構。
而右側的DataFrame卻提供了詳細的結構資訊，使得Spark SQL可以清楚地知道該資料集中包含哪些列，每列的名稱和型別各是什麼。DataFrame多了資料的結構資訊，即schema。這樣看起來就像一張表了，DataFrame還配套了新的操作資料的方法，DataFrame API（如df.select())和SQL(select id, name from xx_table where …)

DataSet

DataSet是分散式的資料集合。DataSet是在Spark1.6中新增的新的介面。它集中了RDD的優點（強型別和可以用強大lambda函式）以及Spark SQL優化的執行引擎。DataSet可以通過JVM的物件進行構建，可以用函式式的轉換（map/flatmap/filter）進行多種操作
DataSet（dataset中每行資料是個Object）包含了DataFrame的功能，Spark2.0中兩者統一，DataFrame表示為DataSet[Row]，即DataSet的子集

spark之DataFrame、DataSet、RDD的區別

RDD(彈性分散式資料集)

DataFrame

DataSet

spark之DataFrame、DataSet、RDD的區別

Spark RDD、DataSet、DataFrame--區別（個人理解）

Spark之偽分散式搭建、偽分散式Hadoop、Hive安裝

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

【ADO.NET基礎知識】SqlConnection、command、DataSet 、DataTable、dataAdapter

XML格式與DataTable、DataSet、DataView格式的轉換

Spark的Dataframe（Dataset）轉Json

spark之DataFrame分析日誌檔案

Spark RDD、DataFrame和DataSet的區別

Spark RDD、DataFrame、DataSet區別和聯絡

Apache Spark 2.0三種API的傳說：RDD、DataFrame和Dataset

Spark中的RDD、DataFrame、Dataset對比

談談RDD、DataFrame、Dataset的區別和各自的優勢

RDD、DataFrame和Dataset的區別

Spark DataSet 、DataFrame 一些使用示例

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分鐘搞定大數據》

一篇文章搞懂DataSet、DataFrame、RDD

一篇文章搞懂DataSet、DataFrame、RDD-《每日五分鐘搞定大資料》

再談RDD、DataFrame、DataSet關係以及相互轉換（JAVA API）

RDD、DataFrame、DataSet互轉

spark之DataFrame、DataSet、RDD的區別

RDD(彈性分散式資料集)

DataFrame

DataSet

相關推薦