1. 程式人生 > >【pySpark教程】Introduction & 預備工作(一)

【pySpark教程】Introduction & 預備工作(一)

windows 下安裝 Python Spark 虛擬環境

在本系列課程中,我們會學習如下內容:

  1. Data Management
    • Semi-Structed Data
    • Structured Data
    • 實驗二:使用 Spark 分析網路伺服器日誌
  2. 資料分析與機器學習
    • 資料處理
    • 資料分析
    • 機器學習
    • 實驗三:文字分析與實體解析
    • 實驗四:Spark 機器學習介紹

為了滿足大家的需求,我們的軟體開發環境是使用Virtual Machine(VM虛擬機器)。你只需要按照兩個軟體包: VirtualBox and Vagrant,然後再下載安裝制定的VM映象就可了。本文將手把手指導你下載安裝這些軟體。

Note: 你所需要下載的所有東西不會超過1GB.

Hardware and Software Prerequisites

執行這些軟體,你 的機器需要達到最低配置。

MINIMUM HARDWARE REQUIREMENTS

  • Free disk space: 3.5 GB
  • RAM memory: 2.5 GB (4+ GB preferred)
  • Processor: Any recent Intel or AMD multicore processor should be sufficient.

SUPPORTED OPERATING SYSTEMS

  • 64-bit (preferred) Windows 7 or later
  • 64-bit (preferred) Mac OS X 10.9.5 or later
  • 64-bit (preferred) Linux (CentOS 6 or later, or Ubuntu 14.04 or later)
  • 32-bit Windows 7 or later
  • 32-bit Linux (CentOS 6 or later, or Ubuntu 14.04 or later)

Installing the Required Software Packages

你需要安裝以下兩個軟體包:

  • Vagrant automatic VM configuration

這兩個安裝都是傻瓜式的,一般不會出問題。萬一在安裝Vagrant的時候出現了錯誤提示: Installation Directory must be on a local hard drive. 這其實是許可權的問題,你只要用管理員許可權去安裝就行了。

映象安裝

  1. 首先建立一個資料夾(例如: c:\users\marco\myvagrant)
  2. 下載這個檔案 到剛剛的資料夾下,並解壓。
  3. 從解壓資料夾中,拷貝Vagrantfile到你建立的資料夾中。
  4. 開啟命令列cmd,切換目錄到你建立的資料夾下,執行命令:
    vagrant up –provider=virtualbox

使用虛擬機器的一些基本指令

  1. 啟動一個VM,通過DOS 命令列指令:vagrant up
  2. 停止一個VM,通過如下命令:vagrant halt
  3. 如果你要刪除VM,使用:vagrant destroy
  4. 一旦一個VM處於執行中,那麼可以通過瀏覽器:”http://localhost:8001/” 來訪問IPython notebook。

Running Your First Notebook

通過執行你的第一個notebook,來測試你的環境是否安裝完整。

  1. 如果你還沒有執行VM,那麼先開一個,通過上述的命令
  2. 在Jupyter網頁中,選擇上傳按鈕,上傳之前下載的檔案中的 “lab0_student.ipynb”,這是Spark iPython notebook file
  3. 點選檢視即可。

此處輸入圖片的描述

到此,預備工作就完成了!