1. 程式人生 > >idea_pyspark 環境配置

idea_pyspark 環境配置

depend ast 添加 ins count eat image 插件 port

1、配置好Hadoop和spark

2、配置好Pytho3.5

3、安裝py4j

  pip3 install py4j

4、idea 中添加Python插件

file->setting->editor->plugins

技術分享

右邊搜索框中 搜索Python,下載插件

技術分享

5、下載完後,重啟軟件,建立Python項目,導入pyspark的包文件

技術分享

導入步驟:file->project Structure->modules->右邊欄中點dependencies->點添加->將"spark/python" 添加進去

6、test:

from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession         .builder         .master("local")         .appName("PythonWordCount")         .getOrCreate()
    data = spark.read.csv("/lab/data/2/02singleentry.csv")
    data.show(10)

    spark.stop()

 

7、目前觀察不能讀取本地的數據,只能讀取HDFS上的數據

idea_pyspark 環境配置