阿里云机器学习平台PAI介绍|学习笔记

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习阿里云机器学习平台PAI介绍

开发者学堂课程【场景实践 - 机器学习PAI实现精细化营销阿里云机器学习平台 PAI 介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/521/detail/7047


阿里云机器学习平台PAI介绍


内容介绍:

一、机器学习 PAI 简介

二、机器学习 PAI 特点

三、机器学习 PAI 的算法

四、机器学习 PAI 应用场景

五、机器学习 PAI 应用流程

六、一个完整的机器学习流程


一、机器学习 PAI 简介

阿里云机器学习平台 PAI 是构建在阿里云 MaxCompute 计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平

image.png

它最大的特点就是降低存储和计算成本,否则用自己单独的机器去进行一些计算,是非常麻烦的,而且在大量数据的基础上如果不采取分布式的处理,单机的处理是很难达到数据处理能力。第二个特点就是降低了技术门槛,对于一些数学算法并不是很精通的,机械学习PAI已经降低了技术门槛,方便大家去应用,以上是最重要的两个特点。


二、机器学习 PAI 特点

1.基于 MaxCompute、GPU 集群,支持 MR、MPI、SQL、BSP、SPARK 等计算类型

2.内置阿里、蚂蚁多年沉淀的分布式算法,将成熟的算法封装起来,支持百亿级数据量训练,处理能力是比较强的。

3.WEB 界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程

image.png

他的平台架构最底层是基础设施,上面是开放框架,第三层是模型与算法,最上层是业务应用层,不管应用哪一层,以及自己开发模型或者是直接使用他的模型都可以。


三、机器学习 PAI 的算法

PAI提供最丰富的算法︰包含特征工程、数据预处理、统计分析、机器学习

深度学习框架、预测与评估这一整套的机器学习算法组件,共100余种。

image.png

本次精细化营销涉及到的数据预处理、数据的特征分析还有聚类算法,这里面都是由组件来支撑的。


四、机器学习 PAI 应用场景

营销类场景∶商品推荐、用户群体画像、广告精准投放,例如登录天猫、淘宝首页的猜你喜欢

金融类场景∶贷款发放预测、金融风险控制、股票走势预测、黄金价格预测

SNS关系挖掘︰微博粉丝领袖分析、社交关系链分析

文本类场景∶新闻分类、关键词提起、文章摘要、文本内容分析

非结构化数据处理场景︰图片分类、图片文本内容提取 OCR

其它各类预测场景︰降雨预测、足球比赛结果预测

不同的类有不同的数据组件支撑


五、机器学习 PAI 应用流程

在首先明确任务、目标、数据情况的前提下才能确定使用那些组件,使用哪些算法,使用哪几步流程,并不是每一个机器学习都是使用完整的处理流程或者说是各个流程都涉及到,这是不一定的,可能数据非常完整不需要预处理,只是需要一个算法。也可能有的算法就不需要再去评估,直接可以运用到生产中,它不是必须的,是根据特定的任务和场景来决定的。

1)数据预处理

2)选择特征

3)选择模型进行数据训练

4)模型评估

5)模型发布(再学习训练)

image.png


六、一个完整的机器学习流程

1.开通数据

实名认证账号

登陆控制台

进入机器学习

使用阿里的服务,首先就是要拥有一个实名认证的账号,通过账号注册完以后,登录控制台登录到机器学习,选择所设计的实验项目,如果没有项目可以新建项目,因为项目是max compute最基本的管理组件之一,是数据应用的最基本的单元,而 pAI 还是构建在 max compute 之上,所以确定项目空间来实现。

image.png

2.导入数据

  • 新建/倒入数据源
  • 上传本地数据
  • 编辑数据集

选择租户及工作空间,新建实验;

通过“源/目标”菜单下的 OSS 组件、 MySQL 组件配置数据源

通过“数据源”组件创建表上传本地数据,因为 max compute 是以表的形式从创建数据的,PAI 构建在它之上也是以表来处理数据的。

通过“读数据表”组件读取实验数据,相当于把数据导入到 PAI,可以进行实验。

image.png

3.数据预处理

  • 数据去噪
  • 维度填充
  • 类型转换

对选定的数据源进行预处理,判断进行实验进行模拟训练的数据是否是纯净的、不需要加工的数据,如果需要加工则需要进行数据的预处理。数据预处理包括数据采样与过滤和数据合并两类组件以及类型转换、归一、标准化等组件。

选择合适的组件,配置参数信息(如图随机采样组件)将采用组件直接拉入到工作区域进行转换,配置转换的参数。

image.png

4.特征工程

  • 特征变换
  • 特征评估
  • 特征选择
  • 特征生成

特征工程功能组件包括特征变换、特征重要性评估、特征选择、特征形成四类组件。

选择合适的组件,根据具体的业务场景配置参数信息、字段信息(如图特征异常平滑组件)

image.png

5.训练和预测

  • 选择模型
  • 配置参数
  • 数据处理
  • 预测结果

训练和预测组件就是机器学习、深度学习相关的算法处理组件,如客户细分一般采用聚类和分类组件。

选择合适的组件,配置参数信息、字段信息;

预测组件是专门用于模型预测的组件,两个输入:训练模型和预测数据;输出为预测结果;有的样本数据是需要一分为二的,一个是用于训练用的,一个是用于验证的,作为预测结果。

image.png

这些组件不一定都需要使用,根据具体的业务来进行选择

6.评估

  • 选择模型
  • 配置参数
  • 查验结果

训练完成后的模型需要进行评估,检验是否满足要求。

评估组件为上步的预测输出进行评估(如图示例)

评估完成后可以进行发布在线预测部署或离线调度

image.png

满足要求后进行模型最后的部署。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
9月前
|
人工智能 自然语言处理 安全
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
|
5月前
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
230 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
5月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
1101 12
|
8月前
|
API 开发工具 Python
阿里云PAI部署DeepSeek及调用
本文介绍如何在阿里云PAI EAS上部署DeepSeek模型,涵盖7B模型的部署、SDK和API调用。7B模型只需一张A10显卡,部署时间约10分钟。文章详细展示了模型信息查看、在线调试及通过OpenAI SDK和Python Requests进行调用的步骤,并附有测试结果和参考文档链接。
3491 11
阿里云PAI部署DeepSeek及调用
|
8月前
|
机器学习/深度学习 人工智能 开发者
DeepSeek安装部署指南,基于阿里云PAI零代码,小白也能轻松搞定!
阿里云PAI平台支持零代码一键部署DeepSeek-V3和DeepSeek-R1大模型,用户可轻松实现从训练到部署再到推理的全流程。通过PAI Model Gallery,开发者只需简单几步即可完成模型部署,享受高效便捷的AI开发体验。具体步骤包括:开通PAI服务、进入控制台选择模型、一键部署并获取调用信息。整个过程简单快捷,极大降低了使用门槛。
1829 43
|
6月前
|
人工智能 自然语言处理 运维
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
|
7月前
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
8月前
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
361 15