1. 程式人生 > >Spark介紹(六)SparkR

Spark介紹(六)SparkR

一、SparkR簡介

SparkR是一個R語言包,它提供了輕量級的方式使得可以在R語言中使用Apache Spark。在Spark 1.4中,SparkR實現了分散式的data frame,支援類似查詢、過濾以及聚合的操作(類似於R中的data framesdplyr),但是這個可以操作大規模的資料集

                                    

DataFrame

是資料組織成一個帶有列名稱的分散式資料集,R語言中的data frame類似,需先配置SparkContextSQLContext

sc<-sparkR.init() 
sqlContext<-sparkRSQL.init(sc)

構造DataFrame的方式有很多

1通過本地data frame構造,createDataFrame(sqlConetx,data frame)

2通過Data Sources構造:JSONParquet檔案等;

3通過Hive tables構造,建立HiveContext