1. 程式人生 > >Windows10+Pycharm+Pyspark環境安裝單機版spark

Windows10+Pycharm+Pyspark環境安裝單機版spark

首先請確保你已經配置好Java1.7以上環境

然後將其解壓至C盤根目錄:【本人使用的是spark-2.2.0-bin-hadoop2.7

步驟二:安裝python環境【建議python3.5版本】,當然也可以直接安裝Anaconda,然後使用自帶或者建立python環境。

以及pycharm,這裡有很多教程就不再贅述。

步驟三:

        1.開啟pycharm-(左上角)file---settings--Project Interpreter--選擇你的python環境

        2.開啟解壓後的spark檔案---python---lib:C:\spark-2.2.0-bin-hadoop2.7\python\lib   你會看到有兩個壓縮檔案

      

       將其 貼上 複製 解壓  到你所選python環境的Lib\site-packages中 比如:C:\Python35\Lib\site-packages

然後可在pycharm建立py檔案嘗試輸入import pyspark 若不報錯則證明操作成功【另外也可以直接pip install pyspark==版本號】。下面是檢驗搭建是否

成功的例子程式碼:請務必看完後再嘗試執行

from pyspark import *
import os
 
if __name__ == '__main__':
    # Windows的Spark安裝目錄
    os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7'
    # Create SparkConf
    conf = SparkConf() \
        .setAppName("WordCount") \
        .setMaster("local") \
        # Create SparkContext
    sc = SparkContext(conf=conf)
    # 從本地模擬資料
    datas = ["you,jump", "i,jump"]
    # Create RDD
    rdd = sc.parallelize(datas)
    print(rdd.count())  # 2
    print(rdd.first())  # you,jum
 
    # WordCount
    wordcount = rdd.flatMap(lambda line: line.split(",")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    for wc in wordcount.collect():
        print(wc[0] + "   " + str(wc[1]))
# you   1
# jump   2
# i   1

當然,要想成功執行還需要一些操作:
    '#你需要指定#Windows的Spark安裝目錄:os.environ['SPARK_HOME'] = 'C:\spark-2.2.0-bin-hadoop2.7‘

  另外你也可以以下圖示指定SPARK_HOME

 

點選OK即可。

下面可嘗試執行以下程式碼【如果報錯:

Exception: Java gateway process exited before sending the driver its port number

在錯誤之前若出現'cmd' + 一堆亂碼可能是因為Windows10系統環境變數沒有指定系統目錄

嘗試如下操作:

結束!!!!!!