圣诞礼遇!【推荐解决方案四部曲】请查收——第二部:基于对象特征的推荐

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 本次实验选用的是PAI-Studio作为实验平台,仅通过拖拽组件就可以快速实现一套基于对象特征的推荐系统。

首先看下整个业务流程图,这是一个基于对象特征的推荐场景的通用流程:

image.png

·首先把数据导入Maxcompute,有监督的结构化数据

·接着做特征工程,在特征工程环节主要做一些数据的预处理以及特征的衍生,特征衍生的作用是扩充数据维度,使得数据能更大限度的表示业务特点

·接着把数据通过拆分分成两份,一份通过分类算法生成二分类模型,另一份数据对模型效果进行测试

·最后通过评估组件得到模型效果

一、业务场景描述

通过一份真实的电商数据的4、5月份做模型训练生成预测模型,通过6月份的购物数据对预测模型进行评估最终选择最优的模型部署为在线http服务供业务方调用。

本次实验选用的是PAI-Studio作为实验平台,仅通过拖拽组件就可以快速实现一套基于对象特征的推荐系统。本实验的数据和完整业务流程已经内置在了PAI首页模板,开箱即用:

image.png

二、数据集介绍

数据源:本数据源为天池大赛提供数据,数据按时间分为两份,分别是7月份之前的购买行为数据和7月份之后的。

具体字段如下:

image.png

数据截图:

image.png

三、数据探索流程

本次实验选用的是PAI-Studio作为实验平台,仅通过拖拽组件就可以快速实现一套基于协同过滤的推荐系统,并且支持自动调参以及模型一键部署的服务。

实验流程图:

image.png

1、特征工程

在特征工程的流程中是把最原始的只有4个字段的数据通过特种工程的方法进行数据维度的扩充。在推荐场景中有两个方面特征,一方面是所推荐的对象的特征,另一方面是被推荐对象的特征。

在商品推荐这个案例中:

·被推荐对象为商品(item),扩充的维度为每个item被购买量、每个item被点击量、每个item被点击购买率(购买量除以点击率)

·推荐对象为用户(user),扩充的维度为每个user总的购买量、总的点击量、总的点击购买率(点击数除以购买率,可以得出每点击多少次购买一个产品,可以用来描述用户购物的果断性)

最终数据由原始的4个字段变成了10个字段:

image.png

image.png

2、模型训练

现在已经构建了一个大宽表,有了做完特征工程的结构化数据,现在就可以训练模型了。这个案例中选用了逻辑回归算法,在做模型训练过程中有一个痛点就是如何找到合适的参数,对于逻辑回归参数(如下图)而言,如何调整以下几个参数,使得模型训练能达到最好的效果是一个非常有挑战的任务。

image.png

为了解决繁琐的调参工作带来的劳动量问题,PAI产品内置了AutoML引擎帮助调参,在页面上打开AutoML,只要设置下需要调参的算法的参数范围以及评估标准,后台引擎即可在最小的资源消耗下找到最合理的参数,可详见阅读原文:

image.png

3、模型评估

模型评估模块是用预留的一部分未参与模型训练的数据评估模型质量,通常推荐场景都是二分类实验,可以使用混淆矩阵和二分类评估组件去评估结果。

·二分类评估:打开组件选择“图表”,会展示下图ROC曲线,其中蓝色区域的面积为AUC值,面积越大表示模型质量越高

image.png

·混淆矩阵:通过混淆矩阵可以确定具体的预测准确率、召回率、F1-Score等指标

image.png

4、模型在线部署

模型生成后,如果效果也达到预期,可以使用PAI-EAS将模型一键部署为在线服务,通过http访问。点击画布上的“部署”按钮,选择“模型在线部署”功能,选择需要部署的模型。

image.png

后续流程可以参考在线预测文档:

https://help.aliyun.com/document_detail/92917.html

部署成在线服务之后,模型服务可以通过http请求访问,这样就可以做到模型跟用户自身的业务结合,完成PAI模型训练和业务应用的打通。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
算法 数据挖掘
群体遗传学研究荐读丨应知应会(下)
群体遗传学研究荐读丨应知应会(下)
|
算法 Python
群体遗传学研究荐读丨应知应会(上)
群体遗传学研究荐读丨应知应会
|
监控 数据可视化 BI
数据营销三部曲(第二部)
数据营销已不再仅意味着企业内部的一个岗位或一个团队,它还催生了一个被称之为 MarTech(营销科技)的新的科技领域和细分市场,以及专业的 MarTech 公司。
164 0
数据营销三部曲(第二部)
|
SQL Shell API
热饭的测开成果盘点第二十四期:diy数据构造平台
不多bb,直接上图。 该平台可让同事自行去设计 数据构造功能。包括sql/api/shell等等。 由我带着心鹏君开发完成。设计巧妙,可爱。 自行设计页面输入,描述等。
热饭的测开成果盘点第二十四期:diy数据构造平台
|
机器学习/深度学习 存储 算法
借助电子标签,这款机器人能帮你找到藏在脏衣服下的钥匙!MIT研发,成功率96%
借助电子标签,这款机器人能帮你找到藏在脏衣服下的钥匙!MIT研发,成功率96%
144 0
借助电子标签,这款机器人能帮你找到藏在脏衣服下的钥匙!MIT研发,成功率96%
|
机器学习/深度学习 TensorFlow 算法框架/工具
【玩转数据系列十五】机器学习PAI为你自动写歌词,妈妈再也不用担心我的freestyle了(提供数据、代码)
背景 最近互联网上出现一个热词就是“freestyle”,源于一个比拼rap的综艺节目。在节目中需要大量考验选手的freestyle能力,freestyle指的是rapper即兴的根据一段主题讲一串rap。
20755 2
|
小程序 搜索推荐 机器人
如何用工具让拉新效果最大化?闪修侠说挑选权益有讲究!| C位小程序访谈
人们可能一年才会修一次手机,但一旦身处于这个场景,就是强刚需。闪修侠做的就是手机上门维修这门低频的生意。用户可以在闪修侠支付宝小程序内找到更换手机电池、更换屏幕、升级内存等多种服务。传统的手机维修服务存在报价不透明、偷换用户配件、用户找不到线下维修点等痛点,闪修侠通过线上下单、上门服务的模式解决了问题。
2914 0
如何用工具让拉新效果最大化?闪修侠说挑选权益有讲究!| C位小程序访谈
|
机器人 供应链 人工智能
擎朗李通:跨过服务机器人应用之殇,产业链是深坑 |【 远望实战派】
伴随海底捞智慧餐厅的亮相,最近擎朗机器人热刷了很多人的朋友圈。到底服务机器人是一个店家用来营销的噱头,还是真已到了替代人工的应用临界,我们这一期与擎朗机器人创始人李通聊聊服务机器人如何才能跨过应用之殇。
446 0
|
搜索推荐 算法
今日份【推荐解决方案四部曲】请查收——第一部:基于协同过滤算法推荐
数据挖掘的一个经典案例就是尿布与啤酒的例子。尿布与啤酒看似毫不相关的两种产品,但是当超市将两种产品放到相邻货架销售的时候,会大大提高两者销量。
880 0
|
存储 数据中心 安全