开发者学堂课程【场景实践 - 机器学习PAI实现精细化营销:阿里云机器学习平台 PAI 介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/521/detail/7047
阿里云机器学习平台PAI介绍
内容介绍:
一、机器学习 PAI 简介
二、机器学习 PAI 特点
三、机器学习 PAI 的算法
四、机器学习 PAI 应用场景
五、机器学习 PAI 应用流程
六、一个完整的机器学习流程
一、机器学习 PAI 简介
阿里云机器学习平台 PAI 是构建在阿里云 MaxCompute 计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平台。
它最大的特点就是降低存储和计算成本,否则用自己单独的机器去进行一些计算,是非常麻烦的,而且在大量数据的基础上如果不采取分布式的处理,单机的处理是很难达到数据处理能力。第二个特点就是降低了技术门槛,对于一些数学算法并不是很精通的,机械学习PAI已经降低了技术门槛,方便大家去应用,以上是最重要的两个特点。
二、机器学习 PAI 特点
1.基于 MaxCompute、GPU 集群,支持 MR、MPI、SQL、BSP、SPARK 等计算类型
2.内置阿里、蚂蚁多年沉淀的分布式算法,将成熟的算法封装起来,支持百亿级数据量训练,处理能力是比较强的。
3.WEB 界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程
他的平台架构最底层是基础设施,上面是开放框架,第三层是模型与算法,最上层是业务应用层,不管应用哪一层,以及自己开发模型或者是直接使用他的模型都可以。
三、机器学习 PAI 的算法
PAI提供最丰富的算法︰包含特征工程、数据预处理、统计分析、机器学习
深度学习框架、预测与评估这一整套的机器学习算法组件,共100余种。
本次精细化营销涉及到的数据预处理、数据的特征分析还有聚类算法,这里面都是由组件来支撑的。
四、机器学习 PAI 应用场景
营销类场景∶商品推荐、用户群体画像、广告精准投放,例如登录天猫、淘宝首页的猜你喜欢
金融类场景∶贷款发放预测、金融风险控制、股票走势预测、黄金价格预测
SNS关系挖掘︰微博粉丝领袖分析、社交关系链分析
文本类场景∶新闻分类、关键词提起、文章摘要、文本内容分析
非结构化数据处理场景︰图片分类、图片文本内容提取 OCR
其它各类预测场景︰降雨预测、足球比赛结果预测
不同的类有不同的数据组件支撑
五、机器学习 PAI 应用流程
在首先明确任务、目标、数据情况的前提下才能确定使用那些组件,使用哪些算法,使用哪几步流程,并不是每一个机器学习都是使用完整的处理流程或者说是各个流程都涉及到,这是不一定的,可能数据非常完整不需要预处理,只是需要一个算法。也可能有的算法就不需要再去评估,直接可以运用到生产中,它不是必须的,是根据特定的任务和场景来决定的。
1)数据预处理
2)选择特征
3)选择模型进行数据训练
4)模型评估
5)模型发布(再学习训练)
六、一个完整的机器学习流程
1.开通数据
实名认证账号
登陆控制台
进入机器学习
使用阿里的服务,首先就是要拥有一个实名认证的账号,通过账号注册完以后,登录控制台登录到机器学习,选择所设计的实验项目,如果没有项目可以新建项目,因为项目是max compute最基本的管理组件之一,是数据应用的最基本的单元,而 pAI 还是构建在 max compute 之上,所以确定项目空间来实现。
2.导入数据
- 新建/倒入数据源
- 上传本地数据
- 编辑数据集
选择租户及工作空间,新建实验;
通过“源/目标”菜单下的 OSS 组件、 MySQL 组件配置数据源
通过“数据源”组件创建表上传本地数据,因为 max compute 是以表的形式从创建数据的,PAI 构建在它之上也是以表来处理数据的。
通过“读数据表”组件读取实验数据,相当于把数据导入到 PAI,可以进行实验。
3.数据预处理
- 数据去噪
- 维度填充
- 类型转换
对选定的数据源进行预处理,判断进行实验进行模拟训练的数据是否是纯净的、不需要加工的数据,如果需要加工则需要进行数据的预处理。数据预处理包括数据采样与过滤和数据合并两类组件以及类型转换、归一、标准化等组件。
选择合适的组件,配置参数信息(如图随机采样组件)将采用组件直接拉入到工作区域进行转换,配置转换的参数。
4.特征工程
- 特征变换
- 特征评估
- 特征选择
- 特征生成
特征工程功能组件包括特征变换、特征重要性评估、特征选择、特征形成四类组件。
选择合适的组件,根据具体的业务场景配置参数信息、字段信息(如图特征异常平滑组件)
5.训练和预测
- 选择模型
- 配置参数
- 数据处理
- 预测结果
训练和预测组件就是机器学习、深度学习相关的算法处理组件,如客户细分一般采用聚类和分类组件。
选择合适的组件,配置参数信息、字段信息;
预测组件是专门用于模型预测的组件,两个输入:训练模型和预测数据;输出为预测结果;有的样本数据是需要一分为二的,一个是用于训练用的,一个是用于验证的,作为预测结果。
这些组件不一定都需要使用,根据具体的业务来进行选择
6.评估
- 选择模型
- 配置参数
- 查验结果
训练完成后的模型需要进行评估,检验是否满足要求。
评估组件为上步的预测输出进行评估(如图示例)
评估完成后可以进行发布在线预测部署或离线调度
满足要求后进行模型最后的部署。