推荐引擎-如何配置数据|学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习推荐引擎-如何配置数据

开发者学堂课程【阿里云推荐引擎使用教程推荐引擎-如何配置数据】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/409/detail/5257


推荐引擎-如何配置数据


内容介绍:

一、数据配置引导

二、配置数据

三、数据质量


一、数据配置引导

首先进入推荐引擎的业务列表,在其中创建一个业务,如“视频推荐业务”;新建业务完成后,点击该业务的名称,此时系统就会弹出到一个引导页。

跟随引导,我们可以为该业务配置数据。点击“添加数据”,进入数据配置页面。

该页面中共分为两个模块,主页面中显示了“数据表类型”,其中包括“用户表”“物品表”“行为表”等几项数据;页面最上方的“数据质量”则是对为该业务配置的数据的质量进行评估。


二、配置数据

1、数据表类型

“数据表类型”是整个推荐引擎所制订的推荐数据格式的规范,在该数据格式规范之下,我们可以对其下的各个数据进行配置。在数据格规范中,可以看到推荐引擎的基础数据模型为“用户类数据”“物品类数据”“行为类数据”,即推荐引擎的数据至少包括用户、物品和行为3种数据,这3类数据为必填项。

image.png

(1)用户类数据

“用户类数据”中包含两张表,分别为用户信息表和用户属性维度表”,前者是以user 的 ID 为主界,包含用户各类 KY 信息及 KY 信息属性在内的信息表,后者指的是对用户信息表中如果提供 KVKV 等字段信息时,这些字段应有的数据格式。如给定字段为“性别”,其值为有0和1,在属性维度表中为单值枚举类型。

(2)物品类数据

“物品类数据”中包含三张表,分别为物品信息表、物品属性维度表和可推荐物品表。其中物品信息表中包括物品的 ID、分类等字段信息,物品属性维度表是对物品信息表中KVKV字段信息值类型的说明,而可推荐物品表实际上是物品信息表的子集。

在某些情况下,可能会对所有的物品库进行推荐,而更多情况下,物品库是一个全量,二其中真正能推荐给消费者的仅是这个全量中的一个子集,此时即可为消费者提供一个“可推荐物品表”。

在可推荐物品表中,除去 item ID 之外,还有一些 item info 的信息,也就是一些额外的字段,可推荐物品表中如果存在这些额外的字段,推荐引擎在为推荐 ID 返回结果信息时,就会将可推荐物品表中这些 item info 信息也推荐给推荐 ID,业务系统即无需根据ID再查询额外的信息。

(3)行为类数据

“行为类数据”中包含用户行为表,主要描述的是“谁在哪个具体时间对哪个物品进行了何种操作”的信息。

2、数据上传

以上的数据可以通过阿里云的数据集成工具上传到 OOPS MaxCompute 的数据表中;也可以通过推荐引擎提供的日志上传API将用户、物品和行为信息上传,若通过该种方式上传信息,推荐引擎的默认设置为15分钟将所上传的信息导入到MaxCompute 的数据表中,同时该种方式上传会自动伴随推荐引擎的实时修正功能。如,用户不想二次接收已浏览过的物品信息,通过日志 API 上传的已经浏览过的物品信息即可不被二次推荐,单该值用于实时行为,它的数据会每过15分钟导入到数据表中一次。

回到“数据”页面,点击“用户表”,右侧就回出现关于“用户表数据”的配置选项,其中包含两项,第一项显示为 dev_maxcompute,为该业务在 MaxCompute 中的配置资源;然后点击第二项进行配置,如配置为 rpv3_text_user_meta,配置好之后,勾选下方的“使用实时行为日志上传 API 上传数据”,点击“保存”。

此时,即可看到左侧的“用户表”数据已经配置完成。其中“表信息”列针对的是上传的原始表,“数据源”是在业务配置表中配置的 maxcompute 数据源,“数据表”表示推荐引擎会将上传的原始数据表经过数据同步的方式将数据导入到该列的数据表中,真正将会被在后续的算法计算中的数据表即是该表。


三、数据质量

数据质量的高低决定推荐效果的上限,如果数据质量不高,即使算法很强,也无法明显提高推荐效果。

当我们将数据和算法配置好之后,点击“评估”,即可得到数据质量的评分,该评分在0~100之间,若分数太低,系统还会给出相应的建议,根据建议即可修改配置数据。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL 分布式计算 算法
推荐引擎RecEng基本操作演示|学习笔记
快速学习推荐引擎RecEng基本操作演示
199 0
推荐引擎RecEng基本操作演示|学习笔记
|
存储 缓存 人工智能
推荐引擎产品RecEng介绍|学习笔记
快速学习推荐引擎产品RecEng介绍
609 0
推荐引擎产品RecEng介绍|学习笔记
|
搜索推荐 算法 开发者
推荐引擎的算法原理|学习笔记
快速学习推荐引擎的算法原理
222 0
推荐引擎的算法原理|学习笔记
|
机器学习/深度学习 自然语言处理 算法
推荐引擎—算法策略讲解1|学习笔记
快速学习推荐引擎—算法策略讲解1
推荐引擎—算法策略讲解1|学习笔记
|
存储 分布式计算 算法
推荐引擎-如何创建推荐业务|学习笔记
快速学习推荐引擎-如何创建推荐业务|学习笔记
推荐引擎-如何创建推荐业务|学习笔记
|
算法 搜索推荐 测试技术
推荐引擎——如何创建测试场景|学习笔记
快速学习推荐引擎——如何创建测试场景
推荐引擎——如何创建测试场景|学习笔记
|
分布式计算 算法 搜索推荐
推荐引擎-如何添加云资源|学习笔记
快速学习推荐引擎-如何添加云资源
推荐引擎-如何添加云资源|学习笔记
|
数据采集 自然语言处理 算法
推荐引擎—算法策略讲解2|学习笔记
快速学习推荐引擎—算法策略讲解2
|
算法 测试技术 BI
推荐引擎-如何进行场景上线|学习笔记
快速学习推荐引擎-如何进行场景上线
|
存储 SQL 机器学习/深度学习
用户画像标签体系——从零开始搭建实时用户画像(三)
用户画像标签体系——从零开始搭建实时用户画像(三)
2732 0
用户画像标签体系——从零开始搭建实时用户画像(三)