preprocess_data.py代码解释

简介: 循环遍历每个用户,对于每个用户,提取其对电影的评分。创建一个与所有电影数量相同的评分数组,将相应的评分放置在数组的正确位置。如果该用户没有评分电影,则跳过该用户。返回所有用户的评分数组列表。
import pandas as pd
import numpy as np
import gc
import os
from pathlib import Path
p = Path(__file__).parents[1]
ROOT_DIR=os.path.abspath(os.path.join(p, '..', 'data/raw/'))
def convert(data, num_users, num_movies):
    ''' Making a User-Movie-Matrix'''
    new_data=[]
    for id_user in range(1, num_users+1):
        id_movie=data[:,1][data[:,0]==id_user]
        id_rating=data[:,2][data[:,0]==id_user]
        ratings=np.zeros(num_movies, dtype=np.uint32)
        ratings[id_movie-1]=id_rating
        if sum(ratings)==0:
            continue
        new_data.append(ratings)
        del id_movie
        del id_rating
        del ratings
    return new_data
def get_dataset_1M():
    ''' For each train.dat and test.dat making a User-Movie-Matrix'''
    gc.enable()
    training_set=pd.read_csv(ROOT_DIR+'/ml-1m/train.dat', sep='::', header=None, engine='python', encoding='latin-1')
    training_set=np.array(training_set, dtype=np.uint32)
    test_set=pd.read_csv(ROOT_DIR+'/ml-1m/test.dat', sep='::', header=None, engine='python', encoding='latin-1')
    test_set=np.array(test_set, dtype=np.uint32)
    num_users=int(max(max(training_set[:,0]), max(test_set[:,0])))
    num_movies=int(max(max(training_set[:,1]), max(test_set[:,1])))
    training_set=convert(training_set,num_users, num_movies)
    test_set=convert(test_set,num_users, num_movies)
    return training_set, test_set
def _get_dataset():
    return get_dataset_1M()


该代码实现了一个函数get_dataset_1M(),它用于读取一个基于MovieLens 1M数据集的训练集和测试集,并将它们转换为用户-电影评分矩阵。具体来说,代码执行以下操作:


  1. 读取基于MovieLens 1M数据集的训练集和测试集,其路径为ROOT_DIR+'/ml-1m/train.dat'ROOT_DIR+'/ml-1m/test.dat'
  2. 将训练集和测试集分别存储为numpy数组类型,使用数据类型np.uint32
  3. 计算用户和电影的数量,通过查找最大的用户ID和电影ID来实现。
  4. 使用convert()函数将训练集和测试集转换为用户-电影评分矩阵,其中convert()函数实现了

  5. 以下操作:
  1. 循环遍历每个用户,对于每个用户,提取其对电影的评分。
  2. 创建一个与所有电影数量相同的评分数组,将相应的评分放置在数组的正确位置。
  3. 如果该用户没有评分电影,则跳过该用户。
  4. 返回所有用户的评分数组列表。
  1. 返回训练集和测试集的用户-电影评分矩阵。

另外,还定义了一个函数_get_dataset(),其作用是返回get_dataset_1M()函数的结果。


代码中的gc.enable()是Python中的垃圾回收机制,可以在代码运行时自动释放内存。p = Path(__file__).parents[1]获取当前脚本的上一级目录,然后使用该路径来构造ROOT_DIR,该变量是用来存储MovieLens 1M数据集的路径。


函数convert()实现了将训练集和测试集转换为用户-电影评分矩阵的过程。具体来说,该函数先循环遍历所有的用户,对于每个用户,提取其对电影的评分。然后,创建一个与所有电影数量相同的评分数组,将相应的评分放置在数组的正确位置。如果该用户没有评分电影,则跳过该用户。最后,将所有用户的评分数组列表返回。


函数_get_dataset()返回get_dataset_1M()函数的结果,这意味着它将返回MovieLens 1M数据集的用户-电影评分矩阵。


get_dataset_1M()函数实现了从文件中读取MovieLens 1M数据集,将其转换为用户-电影评分矩阵,并返回训练集和测试集。具体来说,该函数使用pandas库中的read_csv函数读取训练集和测试集文件,并将其存储在名为training_settest_setDataFrame中。然后,这两个数据集被转换为numpy数组,以便进行进一步处理。


在获取训练集和测试集后,该函数确定用户和电影的数量,以便在后续处理中创建适当大小的评分矩阵。使用convert()函数将训练集和测试集转换为用户-电影评分矩阵。最后,训练集和测试集被返回,以便可以使用它们进行模型训练和测试。


该代码提供了构建输入管道、读取和处理MovieLens 1M数据集的功能,这是推荐系统模型开发中非常重要的基础步骤。

相关文章
|
3天前
|
人工智能 自然语言处理 Shell
深度评测 | 仅用3分钟,百炼调用满血版 Deepseek-r1 API,百万Token免费用,简直不要太爽。
仅用3分钟,百炼调用满血版Deepseek-r1 API,享受百万免费Token。阿里云提供零门槛、快速部署的解决方案,支持云控制台和Cloud Shell两种方式,操作简便。Deepseek-r1满血版在推理能力上表现出色,尤其擅长数学、代码和自然语言处理任务,使用过程中无卡顿,体验丝滑。结合Chatbox工具,用户可轻松掌控模型,提升工作效率。阿里云大模型服务平台百炼不仅速度快,还确保数据安全,值得信赖。
157353 24
深度评测 | 仅用3分钟,百炼调用满血版 Deepseek-r1 API,百万Token免费用,简直不要太爽。
|
5天前
|
人工智能 API 网络安全
用DeepSeek,就在阿里云!四种方式助您快速使用 DeepSeek-R1 满血版!更有内部实战指导!
DeepSeek自发布以来,凭借卓越的技术性能和开源策略迅速吸引了全球关注。DeepSeek-R1作为系列中的佼佼者,在多个基准测试中超越现有顶尖模型,展现了强大的推理能力。然而,由于其爆火及受到黑客攻击,官网使用受限,影响用户体验。为解决这一问题,阿里云提供了多种解决方案。
16996 37
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
|
5天前
|
并行计算 PyTorch 算法框架/工具
本地部署DeepSeek模型
要在本地部署DeepSeek模型,需准备Linux(推荐Ubuntu 20.04+)或兼容的Windows/macOS环境,配备NVIDIA GPU(建议RTX 3060+)。安装Python 3.8+、PyTorch/TensorFlow等依赖,并通过官方渠道下载模型文件。配置模型后,编写推理脚本进行测试,可选使用FastAPI服务化部署或Docker容器化。注意资源监控和许可协议。
1310 8
|
13天前
|
人工智能 搜索推荐 Docker
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
DeepSeek R1 + LobeChat + Ollama:快速本地部署模型,创建个性化 AI 助手
3416 117
手把手教你使用 Ollama 和 LobeChat 快速本地部署 DeepSeek R1 模型,创建个性化 AI 助手
|
8天前
|
人工智能 自然语言处理 API
DeepSeek全尺寸模型上线阿里云百炼!
阿里云百炼平台近日上线了DeepSeek-V3、DeepSeek-R1及其蒸馏版本等六款全尺寸AI模型,参数量达671B,提供高达100万免费tokens。这些模型在数学、代码、自然语言推理等任务上表现出色,支持灵活调用和经济高效的解决方案,助力开发者和企业加速创新与数字化转型。示例代码展示了如何通过API使用DeepSeek-R1模型进行推理,用户可轻松获取思考过程和最终答案。
|
5天前
|
人工智能 自然语言处理 程序员
如何在通义灵码里用上DeepSeek-V3 和 DeepSeek-R1 满血版671B模型?
除了 AI 程序员的重磅上线外,近期通义灵码能力再升级全新上线模型选择功能,目前已经支持 Qwen2.5、DeepSeek-V3 和 R1系列模型,用户可以在 VSCode 和 JetBrains 里搜索并下载最新通义灵码插件,在输入框里选择模型,即可轻松切换模型。
934 14
|
12天前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
1938 9
阿里云PAI部署DeepSeek及调用
|
9天前
|
人工智能 数据可视化 Linux
【保姆级教程】3步搞定DeepSeek本地部署
DeepSeek在2025年春节期间突然爆火出圈。在目前DeepSeek的网站中,极不稳定,总是服务器繁忙,这时候本地部署就可以有效规避问题。本文以最浅显易懂的方式带读者一起完成DeepSeek-r1大模型的本地部署。
|
12天前
|
缓存 自然语言处理 安全
快速调用 Deepseek API!【超详细教程】
Deepseek 强大的功能,在本教程中,将指导您如何获取 DeepSeek API 密钥,并演示如何使用该密钥调用 DeepSeek API 以进行调试。

热门文章

最新文章