开发者学堂课程【阿里云推荐引擎使用教程:推荐引擎-如何配置数据】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/409/detail/5257
推荐引擎-如何配置数据
内容介绍:
一、数据配置引导
二、配置数据
三、数据质量
一、数据配置引导
首先进入推荐引擎的业务列表,在其中创建一个业务,如“视频推荐业务”;新建业务完成后,点击该业务的名称,此时系统就会弹出到一个引导页。
跟随引导,我们可以为该业务配置数据。点击“添加数据”,进入数据配置页面。
该页面中共分为两个模块,主页面中显示了“数据表类型”,其中包括“用户表”“物品表”“行为表”等几项数据;页面最上方的“数据质量”则是对为该业务配置的数据的质量进行评估。
二、配置数据
1、数据表类型
“数据表类型”是整个推荐引擎所制订的推荐数据格式的规范,在该数据格式规范之下,我们可以对其下的各个数据进行配置。在数据格规范中,可以看到推荐引擎的基础数据模型为“用户类数据”“物品类数据”“行为类数据”,即推荐引擎的数据至少包括用户、物品和行为3种数据,这3类数据为必填项。
(1)用户类数据
“用户类数据”中包含两张表,分别为用户信息表和用户属性维度表”,前者是以user 的 ID 为主界,包含用户各类 KY 信息及 KY 信息属性在内的信息表,后者指的是对用户信息表中如果提供 KVKV 等字段信息时,这些字段应有的数据格式。如给定字段为“性别”,其值为有0和1,在属性维度表中为单值枚举类型。
(2)物品类数据
“物品类数据”中包含三张表,分别为物品信息表、物品属性维度表和可推荐物品表。其中物品信息表中包括物品的 ID、分类等字段信息,物品属性维度表是对物品信息表中KVKV字段信息值类型的说明,而可推荐物品表实际上是物品信息表的子集。
在某些情况下,可能会对所有的物品库进行推荐,而更多情况下,物品库是一个全量,二其中真正能推荐给消费者的仅是这个全量中的一个子集,此时即可为消费者提供一个“可推荐物品表”。
在可推荐物品表中,除去 item ID 之外,还有一些 item info 的信息,也就是一些额外的字段,可推荐物品表中如果存在这些额外的字段,推荐引擎在为推荐 ID 返回结果信息时,就会将可推荐物品表中这些 item info 信息也推荐给推荐 ID,业务系统即无需根据ID再查询额外的信息。
(3)行为类数据
“行为类数据”中包含用户行为表,主要描述的是“谁在哪个具体时间对哪个物品进行了何种操作”的信息。
2、数据上传
以上的数据可以通过阿里云的数据集成工具上传到 OOPS MaxCompute 的数据表中;也可以通过推荐引擎提供的日志上传API将用户、物品和行为信息上传,若通过该种方式上传信息,推荐引擎的默认设置为15分钟将所上传的信息导入到MaxCompute 的数据表中,同时该种方式上传会自动伴随推荐引擎的实时修正功能。如,用户不想二次接收已浏览过的物品信息,通过日志 API 上传的已经浏览过的物品信息即可不被二次推荐,单该值用于实时行为,它的数据会每过15分钟导入到数据表中一次。
回到“数据”页面,点击“用户表”,右侧就回出现关于“用户表数据”的配置选项,其中包含两项,第一项显示为 dev_maxcompute,为该业务在 MaxCompute 中的配置资源;然后点击第二项进行配置,如配置为 rpv3_text_user_meta,配置好之后,勾选下方的“使用实时行为日志上传 API 上传数据”,点击“保存”。
此时,即可看到左侧的“用户表”数据已经配置完成。其中“表信息”列针对的是上传的原始表,“数据源”是在业务配置表中配置的 maxcompute 数据源,“数据表”表示推荐引擎会将上传的原始数据表经过数据同步的方式将数据导入到该列的数据表中,真正将会被在后续的算法计算中的数据表即是该表。
三、数据质量
数据质量的高低决定推荐效果的上限,如果数据质量不高,即使算法很强,也无法明显提高推荐效果。
当我们将数据和算法配置好之后,点击“评估”,即可得到数据质量的评分,该评分在0~100之间,若分数太低,系统还会给出相应的建议,根据建议即可修改配置数据。