Spark之python版機器學習演算法--ipython notebook配置及測試

阿新 • • 發佈：2019-01-11

先說明一下我的環境配置：

作業系統：ubuntu14.04 64bit
spark2.0.0
hadoop 2.7.1
scala-2.11.8
python 2.7.6
java1.7.0

1. 安裝 ipython notebook

安裝步驟：

1安裝pip工具

sudo apt-get install python-pip

2 安裝ipython

sudo apt-get install ipython

3 安裝ipython notebook

sudo apt-get install ipython-notebook

4 啟動ipython notebook

ipython notebook

2. 其他python環境配置

1.為了方便畫圖安裝matplotlib庫

sudo apt-get install python-matplotlib

2.安裝numpy庫

sudo apt-get install python-numpy

3.安裝scipy庫

sudo apt-get install python-scipy
sudo apt-get install python-nose

3. pyspark呼叫ipython notebook

當spark配置成功後，直接呼叫pyspark即可開啟spark的python介面。
為了使用ipython notebook，需要如下配置。

1. 方法1

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook' ./bin/pyspark

2 方法2
修改~/.bashrc檔案，新增以下內容：

export PYSPARK_DRIVER_PYTHON=ipython 
export PYSPARK_DRIVER_PYTHON_OPTS=”notebook” （去處此引數，可呼叫 ipython）

然後source ~/.bashrc，就可以通過啟動 pyspark 來啟動 IPython Notebook 了.

4. 環境測試

MovieLens 100k資料集

unzip ml-100k.zip

具體每個檔案下，每一列的意義可參見 README.

這裡寫圖片描述

接著用matplotlib的hist函式來建立一個直方圖，以分析使用者年齡的分佈情況:

import matplotlib.pyplot as plt
ages = user_fields.map(lambda x: int(x[1])).collect()
plt.hist(ages, bins=20, color='lightblue', normed=True)
fig = matplotlib.pyplot.gcf()
fig.set_size_inches(16, 10)
plt.show() #顯示影象

這裡寫圖片描述

Spark之python版機器學習演算法--ipython notebook配置及測試

先說明一下我的環境配置：作業系統：ubuntu14.04 64bit spark2.0.0 hadoop 2.7.1 scala-2.11.8 python 2.7.6 java1.7.0 1. 安裝 ipytho

數學推導+純Python實現機器學習演算法：邏輯迴歸

自本系列第一講推出以來，得到了不少同學的反響和贊成，也有同學留言說最好能把數學推導部分寫的詳細點，筆者只能說盡力，因為打公式實在是太浪費時間了。。本節要和大家一起學習的是邏輯（logistic）迴歸模型，繼續按照手推公式+純 Python 的寫作套路。邏輯迴歸本質上跟邏輯這個詞不是很搭邊，叫這個名字完

機器學習演算法與Python實踐之邏輯迴歸（Logistic Regression）（二）

#!/usr/bin/python # -*- coding:utf-8 -*- import numpy as np from numpy import * import matplotlib.pyplot as plt #處理資料函式 def loadDataSet():

用Python開始機器學習（10：聚類演算法之K均值）

我們之前接觸的所有機器學習演算法都有一個共同特點，那就是分類器會接受2個向量：一個是訓練樣本的特徵向量X，一個是樣本實際所屬的型別向量Y。由於訓練資料必須指定其真實分類結果，因此這種機器學習統稱為有監督學習。然而有時候，我們只有訓練樣本的特徵，而對其型別一無所知。這種情況，我

機器學習演算法之邏輯迴歸以及python實現

下面分為兩個部分： 1. 邏輯迴歸的相關原理說明 2. 通過python程式碼來實現一個梯度下降求解邏輯迴歸過程邏輯迴歸(Logistic Regression) 首先需要說明，邏輯迴歸屬於分類演算法。分類問題和迴歸問題的區別在於，分類問題的輸出是離散

步步學習之用python實戰機器學習1－kNN （K-NearestNeighbors）演算法（a）

我最近才開始接觸機器學習，我大學數學學的幾乎忘了，最近才接觸python。所以我以一個完全初學者角度來學習機器學習。我主要用的書籍就是machine learning in action （機器學習實戰）這本書。我主要是用文中已有的程式碼來講解機器學習。同時對程式碼進行

Coursera Ng機器學習課練習一之python版

ipython notebook 好用，方便學習， python 比 mathlab/octave 用途廣，所以不如用 python 來試試。 honor code 不許公開程式碼，但我是用 python 實現的，畢竟不是填空題的作業，無法

常見面試之機器學習演算法思想簡單梳理（進階版）

//2015年5月1日 //參考http://blog.jobbole.com/74438/ 實際上在面試過程中，懂這些演算法的基本思想和大概流程是遠遠不夠的，那些面試官往往問的都是一些公司內部業務中的課題，往往要求你不僅要懂得這些演算法的理論過程，而且要非常熟悉怎樣使用

二，機器學習演算法之邏輯迴歸（python實現）

邏輯迴歸（Logistic Regression）是目前流行最廣泛的演算法之一。 1. 何為邏輯迴歸：邏輯迴歸主要思想是根據現有的訓練集(資料)進行分類，判斷這些資料屬於哪一個類別，通

Python與機器學習之模型結構(生成學習演算法二)

多項式事件模型(multinomial event model) 回顧上述文章討論了基於樸素貝葉斯的文字分類，即多變數伯努利事件模型(multi-variate Bernoulli event model) 本章繼續討論多項式事件模型(multi

機器學習演算法之K-means-spark

1 聚類簡單回顧一下：首先，隨機在點群中選取K個點，作為劃分聚落的種子點；然後，求點群中所有的點到這K個點的距離；接下來，將離種子點近的點都移動到種子點附近；最後，不斷重複第二和第三步，直到沒有點需要移動了。以上只是一個概念的解釋，我想這

機器學習演算法與Python實踐之（七）邏輯迴歸（Logistic Regression）

Logistic regression （邏輯迴歸）是當前業界比較常用的機器學習方法，用於估計某種事物的可能性。比如某使用者購買某商品的可能性，某病人患有某種疾病的可能性，以及某廣告被使用者點選的可能性等。（注意這裡是：“可能性”，而非數學上的“概率”，logisitc迴

Python實現機器學習之迴歸分析

前言機器學習常用來解決相關分析和迴歸分析的問題，有時候大家會混淆兩者之間的差異，這裡通過對比分析來說明兩者的區別和聯絡，最後會以呼叫sklearn包中LinearRegression方法進行簡單線性迴歸分析為例，說明如何使用python進行資料分析。一、相關分析和迴

機器學習之路--機器學習演算法一覽，應用建議與解決思路

機器學習演算法實現解析——liblbfgs之L-BFGS演算法

在博文“優化演算法——擬牛頓法之L-BFGS演算法”中，已經對L-BFGS的演算法原理做了詳細的介紹，本文主要就開原始碼liblbfgs重新回顧L-BFGS的演算法原理以及具體的實現過程，在L-BFGS演算法中包含了處理L1正則的OWL-QN演算法，對於OWL-QN演算法的詳細原理，可以參見

系統學習機器學習之總結（二）--機器學習演算法比較

轉自：https://blog.csdn.net/bryan__/article/details/52026214 其實這篇文章真正出處來自：csuldw 本文主要回顧下幾個常用演算法的適應場景及其優缺點！機器學習演算法太多了，分類、迴歸、聚類、推薦、影象識別領域等等，要想找到一個合適演算

【機器學習演算法實現】主成分分析 PCA ——基於python+numpy

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【機器學習演算法實現】logistic迴歸基於Python和Numpy函式庫

【機器學習演算法實現】kNN演算法手寫識別——基於Python和NumPy函式庫

機器學習演算法的基本原理-附Python和R語言程式碼

轉自：https://www.ziiai.com/blog/706 原文：https://www.analyticsvidhya.com/blog/2017/09/common-machine-learning-algorithms/ 一般來說，有3種類型的機器學習演算法 1.監督學習

Spark之python版機器學習演算法--ipython notebook配置及測試

1. 安裝 ipython notebook

2. 其他python環境配置

3. pyspark呼叫ipython notebook

4. 環境測試

MovieLens 100k資料集

相關推薦