推荐算法的Python实现——MF(矩阵分解) 基于TensorFlow

简介: 推荐算法的Python实现——MF(矩阵分解) 基于TensorFlow

1. 数据集


本博客用Movielens-1m数据集的ratings.dat作为推荐数据来训练MF推荐模型。第一列是用户id(user_id)、第二列是物品id(item_id)、第三列是用户对物品的评分(score)、第四列是时间戳(timestamp)。


在Movielens-1m数据集中,注意ratings.dat是用::作为分隔符的。。


2. 代码


import numpy as np
import pandas as pd
import os
from tensorflow import keras # tensorflow == 2.X
import warnings
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'
warnings.filterwarnings('ignore')
# 进行推荐
def recommend(user_id, uel, mel, N):
    movies = uel[user_id-1] @ mel.T # -1是因为预处理后的用户id从0开始
    mids = np.argpartition(movies, -N)[-N:]
    return mids
if __name__ == "__main__":
    # ------ 读入数据 ------ #
    dataset = pd.read_csv("./ratings.dat", sep="::", names=["user_id", "item_id", "rating", "timestamp"])
    # 数据预处理,下标从0开始,去除缺失值使得值连续
    dataset.user_id = dataset.user_id.astype('category').cat.codes.values
    dataset.item_id = dataset.item_id.astype('category').cat.codes.values
    # 获取用户和项目列表
    user_arr = dataset.user_id.unique()
    movies_arr = dataset.item_id.unique()
    # 获取用户和项目数量
    n_users, n_movies = len(user_arr), len(movies_arr)  # 6040 3706
    n_latent_factors = 20
    # ------ 设置Keras参数 ------ #
    # 设置项目参数
    movie_input = keras.layers.Input(shape=[1], name='Item')
    movie_embedding = keras.layers.Embedding(n_movies + 1, n_latent_factors, name='Movie-Embedding')(movie_input)
    movie_vec = keras.layers.Flatten(name='FlattenMovies')(movie_embedding)
    # 设置用户参数
    user_input = keras.layers.Input(shape=[1], name='User')
    user_embedding = keras.layers.Embedding(n_users + 1, n_latent_factors, name='User-Embedding')(user_input)
    user_vec = keras.layers.Flatten(name='FlattenUsers')(user_embedding)
    # 计算项目向量与用户张量的点乘
    prod = keras.layers.dot([movie_vec, user_vec], axes=1, name='DotProduct')
    # 创建用户-项目模型
    model = keras.Model([user_input, movie_input], prod)
    # 设置模型优化器、损失函数、测量指标
    model.compile(optimizer='adam', loss='mean_squared_error', metrics=['mae', 'mse'])
    # ------ 训练模型 ------ #
    # 训练用户-项目模型
    # verbose=0:不输出日志;verbose=1:输出每一个step的训练进度及日志;verbose=2:输出每个epochs的日志
    model.fit([dataset.user_id, dataset.item_id], dataset.rating, epochs=10, verbose=1)
    # 获得用户和项目的嵌入矩阵
    user_embedding_learnt = model.get_layer(name='User-Embedding').get_weights()[0]
    movie_embedding_learnt = model.get_layer(name='Movie-Embedding').get_weights()[0]
    # ------ 进行推荐 ------ #
    # 给用户1推荐top10
    user = 1
    topN = recommend(user_id=user, uel=user_embedding_learnt, mel=movie_embedding_learnt, N=10)
    temp_topN = topN.tolist()
    print("------ user ------")
    print(user)
    print("------ temp_topN ------")
    print(temp_topN)
    # 给所有用户推荐Top10
    # topN_list = {}  # 存储为每一个用户推荐的列表
    # for each_user in tqdm(user_arr, total=len(user_arr)):
    #     print("------ user ------")
    #     print(each_user)
    #     topN = recommend(user_id=each_user, uel=user_embedding_learnt, mel=movie_embedding_learnt, N=len(movie_embedding_learnt))
    #     topN_list[str(each_user)] = [i+1 for i in topN.tolist()]
    #     print("------ temp_topN ------")
    #     print(topN_list[-1])


对用户1(user_id=1)产生一次推荐的输出结果(示例):


Epoch 1/2
31257/31257 [==============================] - 223s 7ms/step - loss: 0.1862 - mae: 0.3020 - mse: 0.1862
Epoch 2/2
31257/31257 [==============================] - 202s 6ms/step - loss: 0.1042 - mae: 0.2151 - mse: 0.1042
------ user ------
1
------ temp_topN ------
[579, 1618, 2131, 576, 309, 892, 513, 1563, 106, 346]


相关文章
|
4天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
21 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
4天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
19 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
4天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
20 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
8天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
利用Python和TensorFlow构建简单神经网络进行图像分类
利用Python和TensorFlow构建简单神经网络进行图像分类
27 3
|
8天前
|
算法 Python
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果;贪心算法在每一步选择局部最优解,追求全局最优;动态规划通过保存子问题的解,避免重复计算,确保全局最优。这三种算法各具特色,适用于不同类型的问题,合理选择能显著提升编程效率。
25 2
|
17天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
18 3
|
21天前
|
并行计算 算法 IDE
【灵码助力Cuda算法分析】分析共享内存的矩阵乘法优化
本文介绍了如何利用通义灵码在Visual Studio 2022中对基于CUDA的共享内存矩阵乘法优化代码进行深入分析。文章从整体程序结构入手,逐步深入到线程调度、矩阵分块、循环展开等关键细节,最后通过带入具体值的方式进一步解析复杂循环逻辑,展示了通义灵码在辅助理解和优化CUDA编程中的强大功能。
|
20天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
65 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
25天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
2月前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
108 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别

热门文章

最新文章