深度学习的协同过滤的推荐算法-毕设神器-阿里云开发者社区

深度学习的协同过滤的推荐算法-毕设神器

2024-10-16 84

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 深度学习的协同过滤的推荐算法-毕设神器

在当今的电子商务和娱乐平台中，个性化推荐系统已经成为了一种不可或缺的功能。本文将介绍如何使用Python实现协同过滤推荐算法，以便为用户提供个性化的商品推荐。

数据准备

我将使用一个包含用户ID、商品ID和评分的CSV文件作为我的数据源。我将会介绍如何加载和预处理这些数据，以便于用于训练和测试我的推荐模型。

模型训练

我将使用Surprise库来构建和训练协同过滤推荐模型。将详细介绍数据加载、参数调优、模型训练和评估等步骤，以确保我的模型能够在真实数据上取得良好的表现。

模型保存

一旦我训练好了模型，需要将其保存到文件中，以便之后的使用。我将展示如何将训练好的模型保存到磁盘中，并将模型的评估结果保存为JSON文件。

模型使用

最后，将展示如何加载保存的模型，并使用它为特定用户生成推荐。我将展示如何将训练好的模型应用到实际的推荐系统中。

下面是一个更为复杂的训练模块示例：

import os
import pandas as pd
from surprise import Dataset, Reader
from surprise import KNNWithMeans, SVD, NMF
from surprise import dump
from surprise.model_selection import cross_validate, GridSearchCV
from surprise.accuracy import rmse, mae
import json
import logging
# 设置日志记录
logging.basicConfig(level=logging.INFO, filename='training.log', filemode='w',
                    format='%(name)s - %(levelname)s - %(message)s')
# 数据预处理
def data_preprocessing(df):
    # 这里可以添加任何数据预处理步骤，例如:
    # 1. 删除重复项
    # 2. 处理缺失值
    # 3. 归一化或标准化
    # 4. 数据转换
    # 为了示例，我们只是简单地返回原始DataFrame
    return df
# 载入数据
def load_data(file_path):
    df = pd.read_csv(file_path)
    df = data_preprocessing(df)
    reader = Reader(line_format='user item rating', sep=',', skip_lines=1)
    data = Dataset.load_from_df(df[['user_id', 'item_id', 'rating']], reader)
    return data
# 参数调优
def tune_parameters(data, algo_class, param_grid, cv=3):
    gs = GridSearchCV(algo_class, param_grid, measures=['rmse', 'mae'], cv=cv)
    gs.fit(data)
    return gs.best_params['rmse'], gs.best_estimator['rmse']
# 训练模型
def train_model(data, algo):
    trainset = data.build_full_trainset()
    algo.fit(trainset)
    return algo
# 评估模型
def evaluate_model(algo, data):
    results = cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)
    logging.info(results)
    return results
# 保存模型和评估结果
def save_model_and_results(model, results, model_filename, results_filename):
    dump.dump(model_filename, algo=model)
    with open(results_filename, 'w') as f:
        json.dump(results, f)
# 主程序
def main():
    file_path = 'ratings.csv'  # 这里填写你的CSV文件路径
    model_filename = 'collaborative_filtering_model.pickle'  # 模型保存文件名
    results_filename = 'model_results.json'  # 保存模型评估结果的文件名
    data = load_data(file_path)
    # 定义多个算法及其参数网格进行调优
    algorithms = {
        'KNNWithMeans': {
            'algo': KNNWithMeans,
            'params': {
                'k': [10, 20, 30],
                'sim_options': {'name': ['cosine', 'pearson'], 'user_based': [True, False]}
            }
        },
        'SVD': {
            'algo': SVD,
            'params': {
                'n_factors': [50, 100, 150],
                'n_epochs': [20, 30],
                'lr_all': [0.005, 0.01],
                'reg_all': [0.02, 0.1]
            }
        },
        'NMF': {
            'algo': NMF,
            'params': {
                'n_factors': [15, 20, 25],
                'n_epochs': [50, 100],
            }
        }
    }
    # 保存最佳模型的信息
    best_model_info = {}
    # 对每个算法进行参数调优
    for algo_name, algo_data in algorithms.items():
        logging.info(f"开始参数调优: {algo_name}")
        best_params, best_algo = tune_parameters(data, algo_data['algo'], algo_data['params'])
        logging.info(f"最佳参数：{best_params}")
        logging.info(f"开始训练模型: {algo_name}")
        model = train_model(data, best_algo)
        
        logging.info(f"开始评估模型: {algo_name}")
        results = evaluate_model(model, data)
        # 如果当前模型是最优模型，则保存
        if not best_model_info or best_model_info['best_score'] > results['test_rmse'].mean():
            best_model_info = {
                'algorithm': algo_name,
                'best_score': results['test_rmse'].mean(),
                'best_params': best_params,
                'best_estimator': best_algo
            }
    # 保存最佳模型和评估结果
    save_model_and_results(
        best_model_info['best_estimator'],
        best_model_info,
        model_filename,
        results_filename
    )
    logging.info(f"模型已训练并保存为: {model_filename}")
    logging.info(f"模型评估结果已保存为: {results_filename}")
if __name__ == "__main__":
    main()

我对三种不同的推荐算法进行了参数调优，并选择了其中最佳的模型。我们还将模型的评估结果和最佳参数配置保存到了JSON文件中，并通过日志文件记录了整个训练过程的详细信息。

这个实现方式不仅增加了代码的行数和复杂性，还提供了更多的灵活性和可维护性，可以很容易地扩展到其他推荐算法和参数搜索空间。此外，通过日志记录，我们可以更好地监控模型训练过程，以便于调试和性能分析。

深度学习的协同过滤的推荐算法-毕设神器

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

深度学习的协同过滤的推荐算法-毕设神器

热门文章

最新文章

相关课程

相关电子书

相关实验场景