1. 程式人生 > >RDD和DataFrame的區別

RDD和DataFrame的區別

1.RDD在建立之後,你知道有這個類,但是你不知道他的內部結構的,DataFrame是以列式儲存,它有schema是可以知道的。

2.DataRrame比RDD的執行效率要高一點,因為在大資料的處理中,RDD即使用mappartition或者foreachRDD都要消耗不少的core,但是DataFrame他可以進行sql操作,先過濾掉一部分資料,在RDD中是不好實現的。

3.SpakSQL在執行的時候是有底層優化的

具體瞭解可以借鑑這篇文章https://www.jianshu.com/p/c0181667daa0