《Spark機器學習》筆記——基於MovieLens資料集使用Spark進行電影資料分析

阿新 • • 發佈：2019-01-03

1、資料集下載

https://grouplens.org/datasets/movielens

2、資料集下檔案格式

u.user使用者屬性檔案

包含user.id使用者ID gender性別 occupation職業 ZIP code郵編等屬性，每個屬性之間用|分割

u.item電影元資料

包含movie.id電影ID title電影標題 release date電影上映日期 IMDB link 電影分類向量等屬性，每個屬性之間用|分割

u.data使用者對電影的評級

包含user.id使用者ID movie.id電影ID rating評分(從1-5) timestamp時間戳等屬性，

每個屬性之間用製表符\t分割

3、使用者資料分析

使用jupyter notebook進入編輯器

from pyspark import SparkContext
#匯入Spark上下文
sc = SparkContext("local","movielens")
#初始化Spark上下文，指定master為local，即本地執行，應用名稱為movielens
user_data = sc.textFile("file:///home/chenjie/ml-100k/u.user")
#載入本地movielens檔案中的使用者資訊檔案，file://開頭，後接本地檔案路徑；也可上傳至HDFS,hdfs://192.168.1.101:9000/ml-100k/u.user
user_data.first()
#輸出第一行

#u'1|24|M|technician|85711'
#使用者資訊檔案包含	使用者ID|年齡|性別|職業|郵編

user_fields = user_data.map(lambda line: line.split("|"))
#將使用者資訊檔案的每一行以|為分隔符【分開】
num_users = user_fields.map(lambda fields: fields[0]).count()
#將使用者資訊檔案的使用者ID列取出，並且【計算總數】，得到使用者數目
num_genders = user_fields.map(lambda fields: fields[2]).distinct().count()
#將使用者資訊檔案的性別列取出，並進行【去重】，並且計算總數，得到性別數目
num_occupations = user_fields.map(lambda fields: fields[3]).distinct().count()
#將使用者資訊檔案的職業列取出，並進行去重，並且計算總數，得到職業數目
num_zipcodes = user_fields.map(lambda fields: fields[4]).distinct().count()
print "Users: %d, genders: %d, occupations: %d, ZIP codes: %d" % (num_users, num_genders, num_occupations, num_zipcodes)
#輸出上述資訊
#Users: 943, genders: 2, occupations: 21, ZIP codes: 795

ages = user_fields.map(lambda x : int(x[1])).collect()
#將使用者資訊檔案的年齡列取出
import matplotlib.pyplot
#匯入pyplot庫
matplotlib.pyplot.hist(ages,bins=20,color='lightblue',normed=True)
#畫直方圖，引數列表如下

"""
matplotlib.pyplot.hist(x, bins=None, range=None, normed=False, weights=None, cumulative=False, bottom=None, histtype=’bar’, align=’mid’, orientation=’vertical’, rwidth=None, log=False, color=None, label=None, stacked=False, hold=None, data=None, **kwargs)

Parameters:
x : (n,) array or sequence of (n,) arrays(可以是一個array也可以是多個array)
integer or array_like or ‘auto’, optional(可以是整型來設定箱子的寬度,也可以是array,指定每個箱子的寬度)
range : tuple or None, optional(設定顯示的範圍,範圍之外的將被捨棄)
normed : boolean, optional(?)
weights : (n, ) array_like or None, optional(?)
cumulative : boolean, optional(?)
bottom : array_like, scalar, or None(?)
histtype : {‘bar’, ‘barstacked’, ‘step’, ‘stepfilled’}, optional(選擇展示的型別,預設為bar)
align : {‘left’, ‘mid’, ‘right’}, optional(對齊方式)
orientation : {‘horizontal’, ‘vertical’}, optional(箱子方向)
log : boolean, optional(log刻度)
color : color or array_like of colors or None, optional(顏色設定)
label : string or None, optional(刻度標籤)
stacked : boolean, optional(?)

return
n : array or list of arrays(箱子的值)
bins : array(箱子的邊界)
patches : list or list of lists
"""

fig = matplotlib.pyplot.gcf()
#得到一個當前畫圖的引用
fig.set_size_inches(16,10)

"""
fig.set_size_inches(w,h,forward=False)
atplotlib 包中提供的函式，用於設定圖形的尺寸，單位為英寸。1英寸等於 2.54 cm。
引數forward = True表示自動更新畫布大小。
"""
matplotlib.pyplot.show()
#顯示

使用者的年齡段分佈圖

下面進行使用者職業分佈圖，可以使用map+reduce，也可以使用countByValue函式

count_by_occupation = user_fields.map(lambda fields: (fields[3], 1)).reduceByKey(lambda x, y : x+y).collect()
#統計每個職業的總數
import numpy as np
x_axis1 =  np.array([c[0] for c in count_by_occupation])
#將python陣列轉為numpy陣列
y_axis1 = np.array([c[1] for c in count_by_occupation])
x_axis1 = x_axis1[np.argsort(y_axis1)]
y_axis1 = y_axis1[np.argsort(y_axis1)]
#argsort以數量升序從各陣列中選取元素
pos = np.arange(len(x_axis1))
#np.arange(5)返回 array([0,1,2,3,4])
width = 1.0
ax = matplotlib.pyplot.axes()
#向圖中新增一個軸
ax.set_xticks(pos + (width / 2))
ax.set_xticklabels(x_axis1)
#要修改X軸的刻度，最簡單的辦法是使用set_xticks和set_xticklabels。前者告訴matplotlib要將刻度放在資料範圍中的哪些位置，預設情況下，這些位置也就是刻度標籤。但我們可以通過#set_xticklabels將任何其他的值用作標籤
matplotlib.pyplot.bar(pos,y_axis1,width,color='green' )
matplotlib.pyplot.xticks(rotation=30)
fig = matplotlib.pyplot.gcf()
fig.set_size_inches(16,10)
matplotlib.pyplot.show()

count_by_occupation2 = user_fields.map(lambda fields: (fields[3], 1)).countByValue()
print "Map-reduce approach:"
print dict(count_by_occupation2)
print ""

"""
Map-reduce approach:
{(u'homemaker', 1): 7, (u'marketing', 1): 26, (u'healthcare', 1): 16, (u'administrator', 1): 79, (u'doctor', 1): 7, (u'writer', 1): 45, (u'salesman', 1): 12, (u'librarian', 1): 51, (u'other', 1): 105, (u'lawyer', 1): 12, (u'engineer', 1): 67, (u'programmer', 1): 66, (u'entertainment', 1): 18, (u'artist', 1): 28, (u'none', 1): 9, (u'executive', 1): 32, (u'educator', 1): 95, (u'technician', 1): 27, (u'student', 1): 196, (u'scientist', 1): 31, (u'retired', 1): 14}
"""

print "countByValue approach:"
print dict(count_by_occupation)
print ""
"""
countByValue approach:
{u'administrator': 79, u'executive': 32, u'retired': 14, u'doctor': 7, u'entertainment': 18, u'marketing': 26, u'writer': 45, u'none': 9, u'healthcare': 16, u'scientist': 31, u'homemaker': 7, u'student': 196, u'educator': 95, u'technician': 27, u'librarian': 51, u'programmer': 66, u'artist': 28, u'salesman': 12, u'other': 105, u'lawyer': 12, u'engineer': 67}
"""

使用者的職業分佈圖

下面進行電影年齡分析

注意到電影資料中有些資料不歸整，需要進行解析處理，如缺失年份的情況下將其設定為1900，然後後續處理中過濾掉這些資料

movie_data = sc.textFile("file:///home/chenjie/ml-100k/u.item")
print movie_data.first()

#1|Toy Story (1995)|01-Jan-1995||http://us.imdb.com/M/title-exact?Toy%20Story%20(1995)|0|0|0|1|1|1|0|0|0|0|0|0|0|0|0|0|0|0|0

num_movies = movie_data.count()
print "Movie: %d" % num_movies

#Movie: 1682

def conver_year(x):
    try:
        return int(x[-4:])
    except :
        return 1900
    #若資料缺失年份則將其設為1900。在後續處理中會過濾掉這類資料

movie_fields = movie_data.map(lambda lines: lines.split("|"))
years = movie_fields.map(lambda fields: fields[2]).map(lambda x : conver_year(x))
years_filtered = years.filter(lambda x : x != 1900)


movie_ages = years_filtered.map(lambda yr: 2017-yr).countByValue()
values = movie_ages.values()
bins = movie_ages.keys()
matplotlib.pyplot.hist(values, bins=bins, color='green', normed=True)
fig = matplotlib.pyplot.gcf()
fig.set_size_inches(16,10)
matplotlib.pyplot.show()

電影的年齡分佈

5、評級資料分析

自己實現統計功能或者使用states函式

rating_data = sc.textFile("file:///home/chenjie/ml-100k/u.data")
print rating_data.first()
num_ratings = rating_data.count()
print "評分:%d條" % num_ratings

#196	242	3	881250949
#評分:100000條

rating_data_fields = rating_data.map(lambda line : line.split("\t"))
ratings = rating_data_fields.map(lambda fields : int(fields[2]))
max_rating = ratings.reduce(lambda x, y : max (x,y))
min_rating = ratings.reduce(lambda x,y : min(x,y))
mean_rating = ratings.reduce(lambda x,y : x+y) / num_ratings 

ating_data = sc.textFile("file:///home/chenjie/ml-100k/u.data")
print rating_data.first()
num_ratings = rating_data.count()
print "評分:%d條" % num_ratings

#196	242	3	881250949
#評分:100000條

rating_data_fields = rating_data.map(lambda line : line.split("\t"))
ratings = rating_data_fields.map(lambda fields : int(fields[2]))
max_rating = ratings.reduce(lambda x, y : max (x,y))
min_rating = ratings.reduce(lambda x,y : min(x,y))
mean_rating = ratings.reduce(lambda x,y : x+y) / num_ratings 
median_rating  = np.median(ratings.collect())

user_data = sc.textFile("file:///home/chenjie/ml-100k/u.user")
user_fields = user_data.map(lambda line: line.split("|"))
num_users = user_fields.map(lambda fields: fields[0]).count()
ratings_per_user = num_ratings /  num_users
movie_data = sc.textFile("file:///home/chenjie/ml-100k/u.item")
num_movies = movie_data.count()
ratings_per_movie = num_ratings / num_movies
print max_rating
print min_rating
print mean_rating
print median_rating
print ratings_per_user
print ratings_per_movie

ratings.stats()
#Spark自帶統計函式

count_by_rating = ratings.countByValue()
x_axis = np.array(count_by_rating.values())
y_axis = np.array([float(c) for c in count_by_rating.values()])
y_axis_normed = y_axis / y_axis.sum()
pos = np.arange(len(x_axis))
width = 1.0
import matplotlib.pyplot as plt
plt.bar(pos, y_axis_normed, width, color='green')
plt.xticks(rotation=30)
fig = plt.gcf()
fig.set_size_inches(16, 10)
plt.show()

電影評級分佈

rating_data = sc.textFile("file:///home/chenjie/ml-100k/u.data")
print rating_data.first()
rating_data_fields = rating_data.map(lambda line : line.split("\t"))
print rating_data_fields.first()
user_ratings_grouped = rating_data_fields.map(lambda fields : ( int (fields[0]), int(fields[2]) ) ).groupByKey()
user_ratings_buuser = user_ratings_grouped.map(lambda (k,v) : (k, len(v)))
user_ratings_buuser.take(5)
user_ratings_buuser_local = user_ratings_buuser.map(lambda (k,v) : v).collect()
import matplotlib.pyplot as plt
plt.hist(user_ratings_buuser_local, bins=200, color='green', normed=True)
fig = plt.gcf()
fig.set_size_inches(16,10)
plt.show()

各使用者的電影評級分佈圖

機器學習筆記 perceptron（感知機）在ex4Data資料集上的實現

慣例的ML課堂作業，第四個也是最後一個線性分類模型，感知機。感知機是一個非常簡單的線性分類模型，簡單來說就是一個神經元，其啟用函式是門限函式，有n個輸入和一個輸出，和神經元結構十分相似。感知機的損失函式是看作是分類錯的所有樣本的輸出值的和 hw的輸出就是

Bobo老師機器學習筆記第七課-使用PCA對MNIST資料集進行降噪

問題1：什麼是MNIST資料集？ MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST). 訓練集 (training set) 由來自 250 個不同人手寫的數字構成

spark機器學習筆記：（二）用Spark Python進行資料處理和特徵提取

下面用“|”字元來分隔各行資料。這將生成一個RDD,其中每一個記錄對應一個Python列表,各列表由使用者ID(user ID)、年齡(age)、性別(gender)、職業(occupation)和郵編(ZIP code)五個屬性構成。4之後再統計使用者、性別、職業和郵編的數目。這可通過如下程式碼

spark機器學習筆記：（三）用Spark Python構建推薦系統

輸出結果： [[Rating(user=789, product=1012, rating=4.0), Rating(user=789, product=127, rating=5.0), Rating(user=789, product=475, rating=5.0), Rating(us

spark機器學習筆記：（六）用Spark Python構建迴歸模型

博主簡介：風雪夜歸子（英文名：Allen），機器學習演算法攻城獅，喜愛鑽研Meachine Learning的黑科技，對Deep Learning和Artificial Intelligence充滿興趣，經常關注Kaggle資料探勘競賽平臺，對資料、Machi

機器學習筆記——基於奇異值分解（SVD）的影象壓縮（PIL）

此指令碼的作用是圖片壓縮（清晰度尚可的情況下，可達到8倍以上的壓縮比），是SVD的一個應用實踐，涉及PIL、numpy庫。（python中處理圖片的庫比較多，比如PIL、OpenCV、matplot

spark機器學習筆記：（四）用Spark Python構建分類模型（上）

因此,當 wTx的估計值大於等於閾值0時,SVM對資料點標記為1,否則標記為0(其中閾值是SVM可以自適應的模型引數)。 SVM的損失函式被稱為合頁損失,定義為:

《Spark機器學習》筆記——基於MovieLens資料集使用Spark進行電影資料分析

1、資料集下載https://grouplens.org/datasets/movielens2、資料集下檔案格式u.user使用者屬性檔案包含user.id使用者ID gender性別 occupation職業 ZIP code郵編等屬性，每個屬性之間用|分

Andrew Ng 機器學習筆記 15 ：大資料集梯度下降

隨機梯度下降隨機梯度下降原理小批量梯度下降小批量梯度下降vs隨機梯度下降隨機梯度下降的收

Tensorflow學習筆記-基於LeNet5結構的ORL資料集人臉識別

參考文獻: 《基於卷積神經網路的人臉識別研究》李春利，柳振東，惠康華文章中基於經典的網路LeNet-5的結構，提出了一種適用於ORL資料集的CNN結構，在該資料集上取得了較高的識別率。本文是在參考此論文的基礎上，使用tensorflow實現了文中相關

機器學習Tensorflow基於MNIST資料集識別自己的手寫數字（讀取和測試自己的模型）

更新：以下為原博：廢話不多說，先上效果圖整體來看，效果是非常不錯的，模型的訓練，參照官方程式碼mnist_deep.py，準確率是高達99.2% 那麼，我是怎麼實現的呢？一.讀懂卷積神經網路程式碼（至少得把程式跑通）首先參照Tensorfl

Spark 機器學習實踐：Iris資料集的分類

今天試用了一下Spark的機器學習，體驗如下：第一步，匯入資料我們使用Iris資料集，做一個分類，首先要把csv檔案匯入。這裡用到了spark的csv包，不明白為什麼這麼常見的功能不是內建的，還需要額外載入。 --packages com.databricks:spar

（參評）機器學習筆記——鳶尾花資料集（KNN、決策樹、樸素貝葉斯分析）

最開始選取鳶尾花資料集來了解決策樹模型時，筆者是按照學習報告的形式來寫得，在這裡將以原形式上傳。格式較為繁複，希望讀者可以耐心看完，謝謝大家。目錄 6.總結 7.問題 1、問題描述 iris是鳶尾植物，這裡儲存了其萼片和花瓣的長寬，共4個屬性，鳶尾

機器學習筆記3-拆分資料集和訓練集

拆分資料集和訓練集 from sklearn import cross_validation # for version 0.17 # For version 0.18 # from sklearn

Bobo老師機器學習筆記-資料歸一化

實現演算法： def normalizate_max_min(X): """ 利用最大和最小化方式進行歸一化，過一化的資料集中在【0， 1】 :param X: :return: """ np.asarray(X, dty

掌握Spark機器學習庫大資料開發技能更進一步

掌握Spark機器學習庫大資料開發技能更進一步第1章初識機器學習在本章中將帶領大家概要了解什麼是機器學習、機器學習在當前有哪些典型應用、機器學習的核心思想、常用的框架有哪些，該如何進行選型等相關問題。 1-1 導學 1-2 機器學習概述 1-

機器學習筆記第1課：機器學習中的資料

資料在機器學習中起著重要的作用。在談論資料時，理解和使用正確的術語非常重要。你如何看待資料？想想電子表格吧，有列、行和單元格。從統計視角而言，機器學習的任務是在假設函式( f )的上下文中構建資料。這些假設函式由機器學習演算法通過學習建立。給定一些輸入變數( Input )，該函式回答

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

機器學習筆記（十九）：TensorFlow實戰十一（多執行緒輸入資料）

1 - 引言為了加速模型訓練的時間，TensorFlow提供了一套多執行緒處理輸入資料的框架。下面我們來詳細的介紹如何使用多執行緒來加速我們的模型訓練速度 2 - 佇列與多執行緒在TensorFlow中，佇列和變數類似，我們可以修改它們的狀態。下面給出一個示例來展示如

機器學習筆記（十八）：TensorFlow實戰十（影象資料處理）

1 - 引言之前我們介紹了通過卷積神經網路可以給影象識別技術帶來突破性的進展，現在我們從影象的預處理這個角度來繼續提升我們影象識別的準確率。輸入的預處理需要使用TFRecord格式來同一不同的原始資料格式，並且更加有效的管理不同的屬性。並且TensorFlow支援影象處理函式，

《Spark機器學習》筆記——基於MovieLens資料集使用Spark進行電影資料分析

1、資料集下載

2、資料集下檔案格式

3、使用者資料分析

5、評級資料分析

相關推薦