推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案

简介: 推荐系统遇上深度学习(四)--多值离散特征的embedding解决方案

1、背景

在本系列第三篇文章中,在处理DeepFM数据时,由于每一个离散特征只有一个取值,因此我们在处理的过程中,将原始数据处理成了两个文件,一个记录特征的索引,一个记录了特征的值,而每一列,则代表一个离散特征。

但假如,我们某一个离散特征有多个取值呢?举个例子来说,每个人喜欢的NBA球队,有的人可能喜欢火箭和湖人,有的人可能只喜欢勇士,也有的人喜欢骑士、绿军、猛龙等一大堆。对于这种特征,我们本文将其称为多值离散特征。

根据DeepFM的思想,我们需要将每一个field的特征转换为定长的embedding,即使有多个取值,也是要变换成定长的embedding。

那么,一种思路来了,比如一个用户喜欢两个球队,这个field的特征可能是[1,1,0,0,0,0,0.....0],那么我们使用两次embedding lookup,再取个平均不就好了嘛。

嗯,这的确也许可能是一种思路吧,在tensorflow中,其实有一个函数能够实现我们上述的思路,那就是tf.nn.embedding_lookup_sparse。别着急,我们一步一步来实现多值离散特征的embedding处理过程。

2、解决方案

输入数据

假设我们有三条数据,每条数据代表一个user所喜欢的nba球员,比如有登哥,炮哥,杜老四,慕斯等等:

csv = [
  "1,harden|james|curry",
  "2,wrestbrook|harden|durant",
  "3,|paul|towns",
]

我们建立一个所有球员的集合:

TAG_SET = ["harden", "james", "curry", "durant", "paul","towns","wrestbrook"]

数据处理

这里我们需要一个得到一个SparseTensor,即多为稀疏矩阵的一种表示方式,我们只记录非0值所在的位置和值。

比如说,下面就是我们对上面数据处理过后的一个SparseTensor,indices是数组中非0元素的下标,values跟indices一一对应,表示该下标位置的值,最后一个表示的是数组的大小。

image

处理得到SparseTensor的完整代码如下:

def sparse_from_csv(csv):
  ids, post_tags_str = tf.decode_csv(csv, [[-1], [""]])
  table = tf.contrib.lookup.index_table_from_tensor(
      mapping=TAG_SET, default_value=-1) ## 这里构造了个查找表 ##
  split_tags = tf.string_split(post_tags_str, "|")
  return tf.SparseTensor(
      indices=split_tags.indices,
      values=table.lookup(split_tags.values), ## 这里给出了不同值通过表查到的index ##
      dense_shape=split_tags.dense_shape)

定义embedding变量

定义我们的embedding的大小为3:

TAG_EMBEDDING_DIM = 3
embedding_params = tf.Variable(tf.truncated_normal([len(TAG_SET), TAG_EMBEDDING_DIM]))

得到embedding值

将我们刚才得到的SparseTensor,传入到`js
tf.nn.embedding_lookup_sparse中,我们就可以得到多值离散特征的embedding值。

tags = sparse_from_csv(csv)
embedded_tags = tf.nn.embedding_lookup_sparse(embedding_params, sp_ids=tags, sp_weights=None)

sp_ids就是我们刚刚得到的SparseTensor,而sp_weights=None代表的每一个取值的权重,如果是None的话,所有权重都是1,也就是相当于取了平均。如果不是None的话,我们需要同样传入一个SparseTensor,代表不同球员的喜欢权重。大家感兴趣可以自己去尝试。

测试输出

最后我们来看看得到的效果:

with tf.Session() as s:
  s.run([tf.global_variables_initializer(), tf.tables_initializer()])
  print(s.run([embedded_tags]))

这只是一种解决方案,大家可以去探索更多的方法哟。

原文发布时间为:2018-07-23
本文作者:文文
本文来自云栖社区合作伙伴“ Python爱好者社区”,了解相关信息可以关注“ Python爱好者社区

相关文章
|
5月前
|
机器学习/深度学习 数据采集 缓存
打造智能音乐推荐系统:基于深度学习的个性化音乐推荐实现
本文介绍了如何基于深度学习构建个性化的音乐推荐系统。首先,通过收集和预处理用户行为及音乐特征数据,确保数据质量。接着,设计了神经协同过滤模型(NCF),利用多层神经网络捕捉用户与音乐间的非线性关系。在模型训练阶段,采用二元交叉熵损失函数和Adam优化器,并通过批量加载、正负样本生成等技巧提升训练效率。最后,实现了个性化推荐策略,包括基于隐式偏好、混合推荐和探索机制,并通过AUC、Precision@K等指标验证了模型性能的显著提升。系统部署方面,使用缓存、API服务和实时反馈优化在线推荐效果。
530 15
|
11月前
|
机器学习/深度学习 数据采集 搜索推荐
Python基于深度学习算法实现图书推荐系统项目实战
Python基于深度学习算法实现图书推荐系统项目实战
|
7月前
|
机器学习/深度学习 传感器 算法
行人闯红灯检测:基于计算机视觉与深度学习的智能交通解决方案
随着智能交通系统的发展,传统的人工交通违法判断已难以满足需求。本文介绍了一种基于计算机视觉与深度学习的行人闯红灯自动检测系统,涵盖信号灯状态检测、行人检测与跟踪、行为分析及违规判定与报警四大模块,旨在提升交通管理效率与安全性。
|
7月前
|
机器学习/深度学习 监控 算法
车辆违停检测:基于计算机视觉与深度学习的自动化解决方案
随着智能交通技术的发展,传统人工交通执法方式已难以满足现代城市需求,尤其是在违法停车监控与处罚方面。本文介绍了一种基于计算机视觉和深度学习的车辆违停检测系统,该系统能自动监测、识别并报警违法停车行为,大幅提高交通管理效率,降低人力成本。通过使用YOLO算法进行车辆检测,结合区域分析判断车辆是否处于禁停区,实现了从车辆识别到违停判定的全流程自动化。此系统不仅提升了交通管理的智能化水平,也为维护城市交通秩序提供了技术支持。
|
7月前
|
机器学习/深度学习 数据采集 搜索推荐
使用Python实现智能食品推荐系统的深度学习模型
使用Python实现智能食品推荐系统的深度学习模型
392 2
|
7月前
|
机器学习/深度学习 人工智能 算法
数据挖掘/深度学习-高校实训解决方案
云原生一站式机器学习/深度学习/大模型AI平台,支持sso登录,多租户,大数据平台对接,notebook在线开发,拖拉拽任务流pipeline编排,多机多卡分布式训练,超参搜索,推理服务VGPU,边缘计算,serverless,标注平台,自动化标注,数据集管理,大模型微调,vllm大模型推理,llmops,私有知识库,AI模型应用商店,支持模型一键开发/推理/微调,支持国产cpu/gpu/npu芯片,支持RDMA,支持pytorch/tf/mxnet/deepspeed/paddle/colossalai/horovod/spark/ray/volcano分布式,私有化部署。
164 0
|
8月前
|
机器学习/深度学习 搜索推荐 TensorFlow
使用Python实现智能电子商务推荐系统:深度学习模型详解
使用Python实现智能电子商务推荐系统:深度学习模型详解
510 4
|
8月前
|
机器学习/深度学习 编解码 计算机视觉
深度学习笔记(十一):各种特征金字塔合集
这篇文章详细介绍了特征金字塔网络(FPN)及其变体PAN和BiFPN在深度学习目标检测中的应用,包括它们的结构、特点和代码实现。
1195 0
|
10月前
|
机器学习/深度学习 自然语言处理 搜索推荐
理解并应用深度学习在推荐系统中的应用
【8月更文挑战第12天】深度学习在推荐系统中的应用为个性化推荐带来了新的前沿。通过自动学习复杂的特征表示和建模复杂的用户与物品关系,深度学习模型能够更准确地理解用户兴趣和需求,从而实现更精准的推荐。未来,随着深度学习技术的不断发展和完善,相信推荐系统将在满足用户需求和保护用户隐私方面取得更大的进步。同时,我们也期待更多的创新应用和实践案例出现,推动推荐系统领域的持续发展。
|
12月前
|
机器学习/深度学习 搜索推荐 算法
基于深度学习神经网络协同过滤模型(NCF)的图书推荐系统
登录注册 热门图书 图书分类 图书推荐 借阅图书 购物图书 个人中心 可视化大屏 后台管理
13239 2
基于深度学习神经网络协同过滤模型(NCF)的图书推荐系统

热门文章

最新文章