PAI-Designer中的EasyRec组件和预制推荐模板介绍

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: EasyRec是一个配置化的企业级推荐算法框架(https://github.com/alibaba/EasyRec),是阿里云PAI平台自研的适用于推荐广告、搜索场景的深度学习算法库,它实现了多种业界常用的模型,包括DSSM、MIND召回模型,DeepFM、多塔、DIN排序模型,还有ESMM、DBMTL、MMoE等多目标排序模型。本文介绍EasyRec的PAI-Designer组件和预制模板。


EasyRec是一个配置化的企业级推荐算法框架(https://github.com/alibaba/EasyRec),是阿里云PAI平台自研的适用于推荐广告、搜索场景的深度学习算法库,它实现了多种业界常用的模型,包括DSSM、MIND召回模型,DeepFM、多塔、DIN排序模型,还有ESMM、DBMTL、MMoE等多目标排序模型。用户也可以基于EasyRec进行自定义算法的开发。另外,EasyRec 兼容MaxCompute、OSS、HDFS 等多种输入,支持多种类型的特征,损失函数、优化器以及评估指标,支持大规模的并行训练。使用EasyRec只需要简单的配置config文件,就可以通过命令行调用的方式,实现训练、评估、导出、推理等功能,不需要进行代码的开发,就可以帮助用户搭建推推荐/广告/搜索算法。配置文件还可以描述输入的数据字段、特征工程、embedding过程、以及模型类型和模型网络结构,可以帮助您在 PAI 平台上快速训练推荐算法模型、验证模型效果及部署。

推荐算法的流程比较复杂,而使用EasyRec又需要了解各种概念、配置文件的含义。为了降低EasyRec的使用门槛,让依赖的参数更加直观,我们在PAI-Designer中提供了一系列组件,让您能够更加容易的完成特征工程、召回和排序模型的训练评估任务。具体的组件如下:

image.png

EasyRec模型训练该组件实现的EasyRec模型训练的功能,包含召回、单目标和多目标排序模型。文档

EasyRec模型预测该组件实现EasyRec离线预测(predict)功能,包括排序模型推荐打分、召回模型推理user或item侧的向量。文档
向量模型拆分该组件使用split_model_pai.py脚本,实现向量召回模型拆分的功能。文档

时间窗口MR脚本在普通的MaxCompute MR(MapReduce)组件上增加了多日期循环执行功能,用于并行执行某段时间内天级别MR任务。例如在推荐算法定制场景中,并行执行过去30天的EasyRecFGMapper任务。文档

时间窗口SQL脚本:在普通的SQL组件基础上增加了多日期循环执行功能,用于并行执行某段时间内天级别SQL任务。例如在推荐场景中,并行执行过去7天的行为数据特征提取SQL补数据任务。文档


了解EasyRec组件的单个功能可能还不够,因为推荐任务都会比较复杂,特征工程、训练召回或排序模型通常包括多个子任务,如多天补数、训练、评估、导出模型等。为了让大家更容易理解这些任务之间的依赖关系,我们整理了典型的推荐算法任务,如特征工程、(etrec召回)协同过滤召回、排序、向量召回,提供完整可运行的预制模板,可以方便大家参考使用。每个模板都是可以运行的,还可以参考其中的配置参数,如运行天数、ps和cluster中cpu和内存的参数设置、排序模型中特征的feature_type、dimension、hash_bucket_size、learning_rate等。

注意:特征工程用到的数据集是脚本生成的,并非是真实数据集。数据只为演示整个流程,因此不必关注最终的模型评估数值。

我们新加的预制模板在PAI-Designer的“预制模板->推荐”模板中。


image.png

以下四个预制模板的具体说明文档:

image.png

在向量召回的模板中,包括了模型训练、模型拆分为user和item侧的模型、模型的评估、向量预测输出等。

image.png

在排序模型的模板中,我们演示了IdFeature、TagFeature的使用,以及deepfm模型和参数的配置。其中“更新EasyRec配置文件”是在前面已经统计特征的取值个数、连续值分箱的基础上,自动更新EasyRec的config文件;而模型训练是以DeepFM作为案例,可根据需要替换成业务需要的排序模型。更多的排序模型见:https://easyrec.readthedocs.io/en/latest/models/rank.html

image.png

image.png

参考文献:

1、EasyRec技术文档:https://easyrec.readthedocs.io/en/latest/intro.html






相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
机器学习/深度学习 算法
现代深度学习框架构建问题之tinyDL中机器学习的通用组件与深度学习如何解决
现代深度学习框架构建问题之tinyDL中机器学习的通用组件与深度学习如何解决
120 2
|
6月前
|
机器学习/深度学习 消息中间件 人工智能
人工智能平台PAI使用问题之EasyRec训练的步骤是怎样的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI操作报错合集之在ODPS的xxx_dev项目空间调用easyrec训练,需要访问yyy项目空间的OSS,出现报错,是什么导致的
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
8月前
|
机器学习/深度学习 人工智能 NoSQL
人工智能平台PAI产品使用合集之机器学习PAI EasyRec训练时,怎么去除没有意义的辅助任务的模型,用于部署
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
8月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI 操作报错合集之在本地构建easyrec docker镜像时遇到了无法连接docker服务如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
8月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
8月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI产品使用合集之机器学习PAI EasyRec中的eval_config的使用方法是什么
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 人工智能 分布式计算
PAI视觉算法组件-图像分类Quick Start
PAI Designer(Studio 2.0)是基于云原生架构Pipeline Service(PAIFlow)的可视化建模工具, 提供可视化的机器学习开发环境,实现低门槛开发人工智能服务。同时,系统提供丰富且成熟的机器学习算法,覆盖商品推荐、金融风控及广告预测等场景,支持基于MaxCompute、PAI-DLC、Flink等计算资源进行大规模分布式运算,可以满足您不同方向的业务需求。本文将结合智能标注简单演示机器学习平台进行图像分类的一个展示,以供参考。
266 0
PAI视觉算法组件-图像分类Quick Start
|
机器学习/深度学习
机器学习PaddlePaddle项目训练代码模板
机器学习PaddlePaddle项目训练代码模板
260 0
|
机器学习/深度学习 数据采集 JSON
机器学习项目模板:ML项目的6个基本步骤
机器学习项目模板:ML项目的6个基本步骤
265 0

相关产品

  • 人工智能平台 PAI
  • 下一篇
    开通oss服务