【pySpark教程】Introduction & 預備工作(一)
阿新 • • 發佈:2019-01-08
windows 下安裝 Python Spark 虛擬環境
在本系列課程中,我們會學習如下內容:
- Data Management
- Semi-Structed Data
- Structured Data
- 實驗二:使用 Spark 分析網路伺服器日誌
- 資料分析與機器學習
- 資料處理
- 資料分析
- 機器學習
- 實驗三:文字分析與實體解析
- 實驗四:Spark 機器學習介紹
為了滿足大家的需求,我們的軟體開發環境是使用Virtual Machine(VM虛擬機器)。你只需要按照兩個軟體包: VirtualBox and Vagrant,然後再下載安裝制定的VM映象就可了。本文將手把手指導你下載安裝這些軟體。
Note: 你所需要下載的所有東西不會超過1GB.
Hardware and Software Prerequisites
執行這些軟體,你 的機器需要達到最低配置。
MINIMUM HARDWARE REQUIREMENTS
- Free disk space: 3.5 GB
- RAM memory: 2.5 GB (4+ GB preferred)
- Processor: Any recent Intel or AMD multicore processor should be sufficient.
SUPPORTED OPERATING SYSTEMS
- 64-bit (preferred) Windows 7 or later
- 64-bit (preferred) Mac OS X 10.9.5 or later
- 64-bit (preferred) Linux (CentOS 6 or later, or Ubuntu 14.04 or later)
- 32-bit Windows 7 or later
- 32-bit Linux (CentOS 6 or later, or Ubuntu 14.04 or later)
Installing the Required Software Packages
你需要安裝以下兩個軟體包:
- Vagrant automatic VM configuration
這兩個安裝都是傻瓜式的,一般不會出問題。萬一在安裝Vagrant的時候出現了錯誤提示: Installation Directory must be on a local hard drive. 這其實是許可權的問題,你只要用管理員許可權去安裝就行了。
映象安裝
- 首先建立一個資料夾(例如: c:\users\marco\myvagrant)
- 下載這個檔案 到剛剛的資料夾下,並解壓。
- 從解壓資料夾中,拷貝Vagrantfile到你建立的資料夾中。
- 開啟命令列cmd,切換目錄到你建立的資料夾下,執行命令:
vagrant up –provider=virtualbox
使用虛擬機器的一些基本指令
- 啟動一個VM,通過DOS 命令列指令:
vagrant up
- 停止一個VM,通過如下命令:
vagrant halt
- 如果你要刪除VM,使用:
vagrant destroy
- 一旦一個VM處於執行中,那麼可以通過瀏覽器:”http://localhost:8001/” 來訪問IPython notebook。
Running Your First Notebook
通過執行你的第一個notebook,來測試你的環境是否安裝完整。
- 如果你還沒有執行VM,那麼先開一個,通過上述的命令
- 在Jupyter網頁中,選擇上傳按鈕,上傳之前下載的檔案中的 “lab0_student.ipynb”,這是Spark iPython notebook file
- 點選檢視即可。
到此,預備工作就完成了!