利用 Python 分析 MovieLens 1M 数据集(二)

简介: 利用 Python 分析 MovieLens 1M 数据集(二)

3 ratings.csv

image.png

文件里面的内容包含了每一个用户对于每一部电影的评分。

3.1 数据格式

image.png

  • userId: 每个用户的id
  • movieId: 每部电影的id
  • rating: 用户评分,是5星制,按半颗星的规模递增(0.5 stars - 5 stars)
  • timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数


数据排序的顺序按照userId,movieId排列的。

4 tags.csv

image.png

文件里面的内容包含了每一个用户对于每一个电影的分类

4.1 数据格式

image.png

  • userId: 每个用户的id
  • movieId: 每部电影的id
  • tag: 用户对电影的标签化评价
  • timestamp: 自1970年1月1日零点后到用户提交评价的时间的秒数


数据排序的顺序按照userId,movieId排列的。

摘要

=======


该数据集(ml-latest-small)描述了电影推荐服务[MovieLens](http://movielens.org)的5星评级和自由文本标记活动。它包含9742部电影的100836个评级和3683个标签应用程序。这些数据由610位用户在1996年3月29日到2018年9月24日之间创建。该数据集于2018年9月26日生成。


随机选择用户以包含在内。所有选定的用户评分至少20部电影。不包括人口统计信息。每个用户都由一个id表示,并且不提供其他信息。


数据包含在links.csv,movies.csv,ratings.csv和tags.csv文件中。有关所有这些文件的内容和用法的更多详细信息如下。


这是一个发展的数据集。因此,它可能会随着时间的推移而发生变化,并不是共享研究结果的适当数据集。

引文

========

要确认在出版物中使用数据集,请引用以下文件:

F. Maxwell Harper和Joseph A. Konstan。 2015.MovieLens数据集:历史和背景。 ACM交互式智能系统交易(TiiS)5,4:19:1-19:19。 https://doi.org/10.1145/2827872

文件的内容和使用

========================

格式化和编码

数据集文件以[逗号分隔值]文件写入,并带有单个标题行。包含逗号(,)的列使用双引号(```)进行转义。这些文件编码为UTF-8。如果电影标题或标签值中的重音字符(例如Misérables,Les(1995))显示不正确,确保读取数据的任何程序(如文本编辑器,终端或脚本)都配置为UTF-8。

用户ID

MovieLens用户随机选择包含。他们的ID已经匿名化了。用户ID在ratings.csvtags.csv之间是一致的(即,相同的id指的是两个文件中的同一用户)。

电影Ids

数据集中仅包含至少具有一个评级或标记的电影。这些电影ID与MovieLens网站上使用的电影ID一致(例如,id1对应于URL https://movielens.org/movies/1)。电影ID在ratings.csv,tags.csv,movies.csv和links.csv之间是一致的.

image.png

目录
相关文章
|
20天前
|
Python
【python】爬楼梯—递归分析(超级详细)
【python】爬楼梯—递归分析(超级详细)
|
1月前
|
索引 Python
如何在Python中,Pandas库实现对数据的时间序列分析?
Pandas在Python中提供强大的时间序列分析功能,包括:1) 使用`pd.date_range()`创建时间序列;2) 通过`pd.DataFrame()`将时间序列转为DataFrame;3) `set_index()`设定时间列作为索引;4) `resample()`实现数据重采样(如按月、季度);5) `rolling()`进行移动窗口计算,如计算移动平均;6) 使用`seasonal_decompose()`进行季节性调整。这些工具适用于各种时间序列分析场景。
33 0
|
11天前
|
机器学习/深度学习 人工智能 算法
图像处理与分析:Python中的计算机视觉应用
【4月更文挑战第12天】Python在计算机视觉领域广泛应用,得益于其丰富的库(如OpenCV、Pillow、Scikit-image)和跨平台特性。图像处理基本流程包括获取、预处理、特征提取、分类识别及重建生成。示例代码展示了面部和物体检测,以及使用GAN进行图像生成。
|
16小时前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
15 1
|
5天前
|
vr&ar Python
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列4
Python 用ARIMA、GARCH模型预测分析股票市场收益率时间序列
27 0
|
5天前
|
机器学习/深度学习 算法 数据可视化
python用支持向量机回归(SVR)模型分析用电量预测电力消费
python用支持向量机回归(SVR)模型分析用电量预测电力消费
27 7
|
机器学习/深度学习 算法 Python
Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
16 0
|
5天前
|
算法 数据可视化 Python
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例
11 0
|
6天前
|
机器学习/深度学习 数据采集 数据可视化
Python数据处理与分析
【4月更文挑战第13天】Python在数据处理与分析中扮演重要角色,常用库包括Pandas(数据处理)、NumPy(数值计算)、Matplotlib和Seaborn(数据可视化)、SciPy(科学计算)、StatsModels(统计建模)及Scikit-learn(机器学习)。数据处理流程涉及数据加载、清洗、探索、特征工程、模型选择、评估与优化,以及结果展示。选择哪个库取决于具体需求和数据类型。
15 1
|
6天前
|
数据采集 NoSQL 搜索推荐
五一假期畅游指南:Python技术构建的热门景点分析系统解读
五一假期畅游指南:Python技术构建的热门景点分析系统解读