1. 程式人生 > >Spark之python版機器學習演算法--ipython notebook配置及測試

Spark之python版機器學習演算法--ipython notebook配置及測試

先說明一下我的環境配置:

作業系統:ubuntu14.04 64bit
spark2.0.0
hadoop 2.7.1
scala-2.11.8
python 2.7.6
java1.7.0

1. 安裝 ipython notebook

安裝步驟:

1安裝pip工具

sudo apt-get install python-pip

2 安裝ipython

sudo apt-get install ipython

3 安裝ipython notebook

sudo apt-get install ipython-notebook

4 啟動ipython notebook

ipython notebook

2. 其他python環境配置

1.為了方便畫圖安裝matplotlib庫

sudo apt-get install python-matplotlib

2.安裝numpy庫

sudo apt-get install python-numpy

3.安裝scipy庫

sudo apt-get install python-scipy
sudo apt-get install python-nose

3. pyspark呼叫ipython notebook

當spark配置成功後,直接呼叫pyspark即可開啟spark的python介面。
為了使用ipython notebook,需要如下配置。

1. 方法1

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook' ./bin/pyspark

2 方法2
修改~/.bashrc檔案,新增以下內容:

export PYSPARK_DRIVER_PYTHON=ipython 
export PYSPARK_DRIVER_PYTHON_OPTS=”notebook” (去處此引數,可呼叫 ipython)

然後source ~/.bashrc,就可以通過啟動 pyspark 來啟動 IPython Notebook 了.

4. 環境測試

MovieLens 100k資料集

unzip ml-100k.zip

具體每個檔案下,每一列的意義可參見 README.

這裡寫圖片描述

接著用matplotlib的hist函式來建立一個直方圖,以分析使用者年齡的分佈情況:

import matplotlib.pyplot as plt
ages = user_fields.map(lambda x: int(x[1])).collect()
plt.hist(ages, bins=20, color='lightblue', normed=True)
fig = matplotlib.pyplot.gcf()
fig.set_size_inches(16, 10)
plt.show() #顯示影象

這裡寫圖片描述

相關推薦

Sparkpython機器學習演算法--ipython notebook配置測試

先說明一下我的環境配置: 作業系統:ubuntu14.04 64bit spark2.0.0 hadoop 2.7.1 scala-2.11.8 python 2.7.6 java1.7.0 1. 安裝 ipytho

數學推導+純Python實現機器學習演算法:邏輯迴歸

自本系列第一講推出以來,得到了不少同學的反響和贊成,也有同學留言說最好能把數學推導部分寫的詳細點,筆者只能說盡力,因為打公式實在是太浪費時間了。。本節要和大家一起學習的是邏輯(logistic)迴歸模型,繼續按照手推公式+純 Python 的寫作套路。 邏輯迴歸本質上跟邏輯這個詞不是很搭邊,叫這個名字完

機器學習演算法Python實踐邏輯迴歸(Logistic Regression)(二)

#!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np from numpy import * import matplotlib.pyplot as plt #處理資料函式 def loadDataSet():

Python開始機器學習(10:聚類演算法K均值)

我們之前接觸的所有機器學習演算法都有一個共同特點,那就是分類器會接受2個向量:一個是訓練樣本的特徵向量X,一個是樣本實際所屬的型別向量Y。由於訓練資料必須指定其真實分類結果,因此這種機器學習統稱為有監督學習。然而有時候,我們只有訓練樣本的特徵,而對其型別一無所知。這種情況,我

機器學習演算法 邏輯迴歸以及python實現

下面分為兩個部分: 1. 邏輯迴歸的相關原理說明 2. 通過python程式碼來實現一個梯度下降求解邏輯迴歸過程 邏輯迴歸(Logistic Regression) 首先需要說明,邏輯迴歸屬於分類演算法。分類問題和迴歸問題的區別在於,分類問題的輸出是離散

步步學習python實戰機器學習1-kNN (K-NearestNeighbors)演算法(a)

我最近才開始接觸機器學習,我大學數學學的幾乎忘了,最近才接觸python。所以我以一個完全初學者角度來學習機器學習。 我主要用的書籍就是machine learning in action (機器學習實戰)這本書。我主要是用文中已有的程式碼來講解機器學習。 同時對程式碼進行

Coursera Ng機器學習課練習一python

      ipython notebook 好用, 方便學習, python 比 mathlab/octave 用途廣, 所以不如用 python 來試試。       honor code 不許公開程式碼, 但我是用 python 實現的, 畢竟不是填空題的作業, 無法

常見面試機器學習演算法思想簡單梳理(進階

//2015年5月1日 //參考http://blog.jobbole.com/74438/ 實際上在面試過程中,懂這些演算法的基本思想和大概流程是遠遠不夠的,那些面試官往往問的都是一些公司內部業務中的課題,往往要求你不僅要懂得這些演算法的理論過程,而且要非常熟悉怎樣使用

二,機器學習演算法邏輯迴歸(python實現)

邏輯迴歸(Logistic Regression)是目前流行最廣泛的演算法之一。 1. 何為邏輯迴歸:        邏輯迴歸主要思想是根據現有的訓練集(資料)進行分類,判斷這些資料屬於哪一個類別,通

Python機器學習模型結構(生成學習演算法二)

多項式事件模型(multinomial event model) 回顧 上述文章討論了基於樸素貝葉斯的文字分類,即多變數伯努利事件模型(multi-variate Bernoulli event model) 本章繼續討論多項式事件模型(multi

機器學習演算法K-means-spark

1 聚類 簡單回顧一下: 首先,隨機在點群中選取K個點,作為劃分聚落的種子點; 然後,求點群中所有的點到這K個點的距離; 接下來,將離種子點近的點都移動到種子點附近; 最後,不斷重複第二和第三步,直到沒有點需要移動了。 以上只是一個概念的解釋,我想這

機器學習演算法Python實踐(七)邏輯迴歸(Logistic Regression)

Logistic regression (邏輯迴歸)是當前業界比較常用的機器學習方法,用於估計某種事物的可能性。比如某使用者購買某商品的可能性,某病人患有某種疾病的可能性,以及某廣告被使用者點選的可能性等。(注意這裡是:“可能性”,而非數學上的“概率”,logisitc迴

Python實現機器學習迴歸分析

前言 機器學習常用來解決相關分析和迴歸分析的問題,有時候大家會混淆兩者之間的差異,這裡通過對比分析來說明兩者的區別和聯絡,最後會以呼叫sklearn包中LinearRegression方法進行簡單線性迴歸分析為例,說明如何使用python進行資料分析。 一、相關分析和迴

機器學習路--機器學習演算法一覽,應用建議與解決思路

作者:寒小陽 時間:2016年1月。 出處:http://www.lai18.com/content/2440126.html 宣告:版權所有,轉載請聯絡作者並註明出處 1.引言提起筆來寫這篇部落格,突然有點愧疚和尷尬。愧疚的是,工作雜事多,加之懶癌嚴重,導致這個系列一直沒有更新,向關注該系列的同學們

機器學習演算法實現解析——liblbfgsL-BFGS演算法

在博文“優化演算法——擬牛頓法之L-BFGS演算法”中,已經對L-BFGS的演算法原理做了詳細的介紹,本文主要就開原始碼liblbfgs重新回顧L-BFGS的演算法原理以及具體的實現過程,在L-BFGS演算法中包含了處理L1正則的OWL-QN演算法,對於OWL-QN演算法的詳細原理,可以參見

系統學習機器學習總結(二)--機器學習演算法比較

轉自:https://blog.csdn.net/bryan__/article/details/52026214 其實這篇文章真正出處來自:csuldw 本文主要回顧下幾個常用演算法的適應場景及其優缺點! 機器學習演算法太多了,分類、迴歸、聚類、推薦、影象識別領域等等,要想找到一個合適演算

機器學習演算法實現】主成分分析 PCA ——基於python+numpy

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

機器學習演算法實現】logistic迴歸 基於Python和Numpy函式庫

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

機器學習演算法實現】kNN演算法 手寫識別——基於Python和NumPy函式庫

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

機器學習演算法的基本原理-附Python和R語言程式碼

轉自:https://www.ziiai.com/blog/706 原文:https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/ 一般來說,有3種類型的機器學習演算法 1.監督學習