1. 程式人生 > >CDH 5.12.0 中使用 spark 2.4.2

CDH 5.12.0 中使用 spark 2.4.2

data 支持 source dir 復制 con 方式 dataframe 進行

CDH 5.12.0 默認spark使用1.6.0,雖然spark 1.6.0支持DataFrame,但顯得有點版本過舊。需要在cdh 5.12中使用spark 2.X版本,網上搜索了一圈,基本都是都是通過parcels方式進行安裝,官方也推薦這種方式。本人比較懶,所以就想Apache spark原生版本是否直接支持CDH呢?經過測試完美支持。簡單記錄一下步驟:

1、下載原生apache spark 2.4.2版本,直接解壓即可。

技術分享圖片

2、設置環境變量HADOOP_CONF_DIR和YARN_CONF_DIR,建議在/etc/profile.d/目錄下創建文件,如spark.sh。source /etc/profile.d/spark.sh直接生效。

技術分享圖片

3、為了支持對hive進行讀寫,復制hive-site.xml到conf目錄。cd /etc/hive/conf/hive-site.xml /usr/local/spark-2.4.2/conf/。

4、驗證是否成功執行。

技術分享圖片

CDH 5.12.0 中使用 spark 2.4.2