1. 程式人生 > >機器學習(6) MovieLens資料集

機器學習(6) MovieLens資料集

MovieLens資料集是一個關於電影評分的資料集,裡面包含了從IMDB, The Movie DataBase上面得到的使用者對電影的評分資訊,詳細請看下面的介紹。
介紹:
links.csv:
檔案裡面的內容是幫助你如何通過網站id在對應網站上找到對應的電影連結的。資料格式如下: 
movieId, imdbId, tmdbId 
movieId:表示這部電影在movielens上的id,可以通過連結https://movielens.org/movies/(movieId)來得到。 
imdbId:表示這部電影在imdb上的id,可以通過連結http://www.imdb.com/title/(imdbId)/ 
來得到。 
tmdbId:表示這部電影在themoviedb上的id,可以通過連結http://www.imdb.com/title/(tmdbId)/ 
來得到。

movies.csv:
movieId, title, genres 
檔案裡包含了一部電影的id和標題,以及該電影的類別。資料格式如下: 
movieId, title, genres 
movieId:每部電影的id 
title:電影的標題 
genres:電影的類別(詳細分類見readme.txt)

ratings.csv:
檔案裡面的內容包含了每一個使用者對於每一部電影的評分。資料格式如下: 
userId, movieId, rating, timestamp 
userId: 每個使用者的id 
movieId: 每部電影的id 
rating: 使用者評分,是5星制,按半顆星的規模遞增(0.5 stars - 5 stars) 
timestamp: 自1970年1月1日零點後到使用者提交評價的時間的秒數 
資料排序的順序按照userId,movieId排列的。

tags.csv:
檔案裡面的內容包含了每一個使用者對於每一個電影的分類。資料格式如下: 
userId, movieId, tag, timestamp 
userId: 每個使用者的id 
movieId: 每部電影的id 
tag: 使用者對電影的標籤化評價 
timestamp: 自1970年1月1日零點後到使用者提交評價的時間的秒數 
資料排序的順序按照userId,movieId排列的。

README.txt
下載連結:
官網地址: https://grouplens.org/datasets/movielens/ 
ml-latest-small(1MB): http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 
ml-latest(234.2MB): http://files.grouplens.org/datasets/movielens/ml-latest.zip

讀取方法
利用Python的csv模組進行讀取操作。

import csv
with open(file_url, 'r') as f:
     data = csv.reader(f)
     for i in data:
         print(i)
--------------------- 

原文地址:https://blog.csdn.net/GZHermit/article/details/74231557