圣诞礼遇!【推荐解决方案四部曲】请查收——第二部:基于对象特征的推荐

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 本次实验选用的是PAI-Studio作为实验平台,仅通过拖拽组件就可以快速实现一套基于对象特征的推荐系统。

首先看下整个业务流程图,这是一个基于对象特征的推荐场景的通用流程:

image.png

·首先把数据导入Maxcompute,有监督的结构化数据

·接着做特征工程,在特征工程环节主要做一些数据的预处理以及特征的衍生,特征衍生的作用是扩充数据维度,使得数据能更大限度的表示业务特点

·接着把数据通过拆分分成两份,一份通过分类算法生成二分类模型,另一份数据对模型效果进行测试

·最后通过评估组件得到模型效果

一、业务场景描述

通过一份真实的电商数据的4、5月份做模型训练生成预测模型,通过6月份的购物数据对预测模型进行评估最终选择最优的模型部署为在线http服务供业务方调用。

本次实验选用的是PAI-Studio作为实验平台,仅通过拖拽组件就可以快速实现一套基于对象特征的推荐系统。本实验的数据和完整业务流程已经内置在了PAI首页模板,开箱即用:

image.png

二、数据集介绍

数据源:本数据源为天池大赛提供数据,数据按时间分为两份,分别是7月份之前的购买行为数据和7月份之后的。

具体字段如下:

image.png

数据截图:

image.png

三、数据探索流程

本次实验选用的是PAI-Studio作为实验平台,仅通过拖拽组件就可以快速实现一套基于协同过滤的推荐系统,并且支持自动调参以及模型一键部署的服务。

实验流程图:

image.png

1、特征工程

在特征工程的流程中是把最原始的只有4个字段的数据通过特种工程的方法进行数据维度的扩充。在推荐场景中有两个方面特征,一方面是所推荐的对象的特征,另一方面是被推荐对象的特征。

在商品推荐这个案例中:

·被推荐对象为商品(item),扩充的维度为每个item被购买量、每个item被点击量、每个item被点击购买率(购买量除以点击率)

·推荐对象为用户(user),扩充的维度为每个user总的购买量、总的点击量、总的点击购买率(点击数除以购买率,可以得出每点击多少次购买一个产品,可以用来描述用户购物的果断性)

最终数据由原始的4个字段变成了10个字段:

image.png

image.png

2、模型训练

现在已经构建了一个大宽表,有了做完特征工程的结构化数据,现在就可以训练模型了。这个案例中选用了逻辑回归算法,在做模型训练过程中有一个痛点就是如何找到合适的参数,对于逻辑回归参数(如下图)而言,如何调整以下几个参数,使得模型训练能达到最好的效果是一个非常有挑战的任务。

image.png

为了解决繁琐的调参工作带来的劳动量问题,PAI产品内置了AutoML引擎帮助调参,在页面上打开AutoML,只要设置下需要调参的算法的参数范围以及评估标准,后台引擎即可在最小的资源消耗下找到最合理的参数,可详见阅读原文:

image.png

3、模型评估

模型评估模块是用预留的一部分未参与模型训练的数据评估模型质量,通常推荐场景都是二分类实验,可以使用混淆矩阵和二分类评估组件去评估结果。

·二分类评估:打开组件选择“图表”,会展示下图ROC曲线,其中蓝色区域的面积为AUC值,面积越大表示模型质量越高

image.png

·混淆矩阵:通过混淆矩阵可以确定具体的预测准确率、召回率、F1-Score等指标

image.png

4、模型在线部署

模型生成后,如果效果也达到预期,可以使用PAI-EAS将模型一键部署为在线服务,通过http访问。点击画布上的“部署”按钮,选择“模型在线部署”功能,选择需要部署的模型。

image.png

后续流程可以参考在线预测文档:

https://help.aliyun.com/document_detail/92917.html

部署成在线服务之后,模型服务可以通过http请求访问,这样就可以做到模型跟用户自身的业务结合,完成PAI模型训练和业务应用的打通。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
14天前
|
JSON 自然语言处理 安全
看爬b站《工作细胞》一万条评论看伙伴们在讨论什么_工作细胞评论
看爬b站《工作细胞》一万条评论看伙伴们在讨论什么_工作细胞评论
|
19天前
|
编译器 C++
C++编程之美:探索初始化之源、静态之恒、友情之桥与匿名之韵
C++编程之美:探索初始化之源、静态之恒、友情之桥与匿名之韵
28 0
|
监控 数据可视化 BI
数据营销三部曲(第二部)
数据营销已不再仅意味着企业内部的一个岗位或一个团队,它还催生了一个被称之为 MarTech(营销科技)的新的科技领域和细分市场,以及专业的 MarTech 公司。
132 0
数据营销三部曲(第二部)
|
JavaScript
小明特别喜欢打扑克牌,除了喜欢斗地主和德州扑克之外,还喜欢一种叫桥牌的游戏,桥牌的具体规则相当复杂,有叫牌、打牌和计分三个阶段,还有不断变化的局况,局况可能影响叫牌打牌策略。但是小明暂时不关心这一些,
小明特别喜欢打扑克牌,除了喜欢斗地主和德州扑克之外,还喜欢一种叫桥牌的游戏,桥牌的具体规则相当复杂,有叫牌、打牌和计分三个阶段,还有不断变化的局况,局况可能影响叫牌打牌策略。但是小明暂时不关心这一些,
290 0
小明特别喜欢打扑克牌,除了喜欢斗地主和德州扑克之外,还喜欢一种叫桥牌的游戏,桥牌的具体规则相当复杂,有叫牌、打牌和计分三个阶段,还有不断变化的局况,局况可能影响叫牌打牌策略。但是小明暂时不关心这一些,
|
数据采集 机器学习/深度学习 JSON
Python技术知识获取数据并进行可视化(以火锅店为例 六一到了 快带对象去吃火锅吧)
Python技术知识获取数据并进行可视化(以火锅店为例 六一到了 快带对象去吃火锅吧)
182 0
|
编解码 计算机视觉 Python
|
计算机视觉 Python
|
算法 机器人 atlas
逆天机器人 Atlas 再升级:能在乱石中行走,以后送快递交给它就行了
还记得波士顿动力系列(Boston Dynamics)机器人各种花式虐待的视频,其通过各种暴力推倒、拳打脚踢的动作以测试机器人的各种平衡能力以及多地形适应能力。 波士顿动力推出的各种四脚机器人,诸如:Big Dog、Spot、Cheetah 等产品的平衡能力其实已经非常好,基本上能能各种复杂地形轻松自如的行走,当然其平衡能力好的其中一个原因就是采用四脚站立,能更好的支撑身体。
144 0
逆天机器人 Atlas 再升级:能在乱石中行走,以后送快递交给它就行了
|
机器学习/深度学习 人工智能 算法
你也可以拥有「宋慧乔妆」,美图MakeupGan妆容迁移算法开启个性化妆容时代
不仅完美地迁移眼影、眉毛、口红等基础妆容,而且能很好地处理美瞳、睫毛、卧蚕等细腻细节,美图影像实验室(MTlab)自主研发的这个全新妆容迁移算法可以令爱美的你尝试各种类型和风格的模特妆容,最终找到适合自己的完美妆容。
234 0
你也可以拥有「宋慧乔妆」,美图MakeupGan妆容迁移算法开启个性化妆容时代