1. 程式人生 > >spark入門系列教程三——spark sql(一)

spark入門系列教程三——spark sql(一)

Spark SQL是用於結構化資料處理的Spark模組,可以通過sql、dataset、dataframe與spark sql進行互動。更多理論性知識請移步官網http://spark.apache.org/docs/2.3.1/sql-programming-guide.html

在spark 2.0以前,多使用SqlContext進行開發,2.0以後,推薦使用SparkSession,本文將以SqlContext寫一個簡單的例子,在後面的博文中,會寫spark session相關的博文,並會詳細說明二者之間的差別。

接著上一篇的工程,繼續開發學習。

1.準備

1.1新增maven依賴

在pom檔案中新增如下依賴:

1.2準備資料

新建一個txt檔案,加入以下資料

如果有hdfs叢集,可以將資料push到hdfs叢集

 

 

2.編碼

 新建scala object SparkSqlDemo1,加入如下程式碼:

 

執行結果:

完整程式碼已上傳至github  https://github.com/wuyueming985/sparkdemos

感謝閱讀!