阿里云机器学习平台PAI介绍|学习笔记

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习阿里云机器学习平台PAI介绍

开发者学堂课程【场景实践 - 机器学习PAI实现精细化营销阿里云机器学习平台 PAI 介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/521/detail/7047


阿里云机器学习平台PAI介绍


内容介绍:

一、机器学习 PAI 简介

二、机器学习 PAI 特点

三、机器学习 PAI 的算法

四、机器学习 PAI 应用场景

五、机器学习 PAI 应用流程

六、一个完整的机器学习流程


一、机器学习 PAI 简介

阿里云机器学习平台 PAI 是构建在阿里云 MaxCompute 计算平台之上,集数据处理、建模、离线预测、在线预测为一体的机器学习平

image.png

它最大的特点就是降低存储和计算成本,否则用自己单独的机器去进行一些计算,是非常麻烦的,而且在大量数据的基础上如果不采取分布式的处理,单机的处理是很难达到数据处理能力。第二个特点就是降低了技术门槛,对于一些数学算法并不是很精通的,机械学习PAI已经降低了技术门槛,方便大家去应用,以上是最重要的两个特点。


二、机器学习 PAI 特点

1.基于 MaxCompute、GPU 集群,支持 MR、MPI、SQL、BSP、SPARK 等计算类型

2.内置阿里、蚂蚁多年沉淀的分布式算法,将成熟的算法封装起来,支持百亿级数据量训练,处理能力是比较强的。

3.WEB 界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程

image.png

他的平台架构最底层是基础设施,上面是开放框架,第三层是模型与算法,最上层是业务应用层,不管应用哪一层,以及自己开发模型或者是直接使用他的模型都可以。


三、机器学习 PAI 的算法

PAI提供最丰富的算法︰包含特征工程、数据预处理、统计分析、机器学习

深度学习框架、预测与评估这一整套的机器学习算法组件,共100余种。

image.png

本次精细化营销涉及到的数据预处理、数据的特征分析还有聚类算法,这里面都是由组件来支撑的。


四、机器学习 PAI 应用场景

营销类场景∶商品推荐、用户群体画像、广告精准投放,例如登录天猫、淘宝首页的猜你喜欢

金融类场景∶贷款发放预测、金融风险控制、股票走势预测、黄金价格预测

SNS关系挖掘︰微博粉丝领袖分析、社交关系链分析

文本类场景∶新闻分类、关键词提起、文章摘要、文本内容分析

非结构化数据处理场景︰图片分类、图片文本内容提取 OCR

其它各类预测场景︰降雨预测、足球比赛结果预测

不同的类有不同的数据组件支撑


五、机器学习 PAI 应用流程

在首先明确任务、目标、数据情况的前提下才能确定使用那些组件,使用哪些算法,使用哪几步流程,并不是每一个机器学习都是使用完整的处理流程或者说是各个流程都涉及到,这是不一定的,可能数据非常完整不需要预处理,只是需要一个算法。也可能有的算法就不需要再去评估,直接可以运用到生产中,它不是必须的,是根据特定的任务和场景来决定的。

1)数据预处理

2)选择特征

3)选择模型进行数据训练

4)模型评估

5)模型发布(再学习训练)

image.png


六、一个完整的机器学习流程

1.开通数据

实名认证账号

登陆控制台

进入机器学习

使用阿里的服务,首先就是要拥有一个实名认证的账号,通过账号注册完以后,登录控制台登录到机器学习,选择所设计的实验项目,如果没有项目可以新建项目,因为项目是max compute最基本的管理组件之一,是数据应用的最基本的单元,而 pAI 还是构建在 max compute 之上,所以确定项目空间来实现。

image.png

2.导入数据

  • 新建/倒入数据源
  • 上传本地数据
  • 编辑数据集

选择租户及工作空间,新建实验;

通过“源/目标”菜单下的 OSS 组件、 MySQL 组件配置数据源

通过“数据源”组件创建表上传本地数据,因为 max compute 是以表的形式从创建数据的,PAI 构建在它之上也是以表来处理数据的。

通过“读数据表”组件读取实验数据,相当于把数据导入到 PAI,可以进行实验。

image.png

3.数据预处理

  • 数据去噪
  • 维度填充
  • 类型转换

对选定的数据源进行预处理,判断进行实验进行模拟训练的数据是否是纯净的、不需要加工的数据,如果需要加工则需要进行数据的预处理。数据预处理包括数据采样与过滤和数据合并两类组件以及类型转换、归一、标准化等组件。

选择合适的组件,配置参数信息(如图随机采样组件)将采用组件直接拉入到工作区域进行转换,配置转换的参数。

image.png

4.特征工程

  • 特征变换
  • 特征评估
  • 特征选择
  • 特征生成

特征工程功能组件包括特征变换、特征重要性评估、特征选择、特征形成四类组件。

选择合适的组件,根据具体的业务场景配置参数信息、字段信息(如图特征异常平滑组件)

image.png

5.训练和预测

  • 选择模型
  • 配置参数
  • 数据处理
  • 预测结果

训练和预测组件就是机器学习、深度学习相关的算法处理组件,如客户细分一般采用聚类和分类组件。

选择合适的组件,配置参数信息、字段信息;

预测组件是专门用于模型预测的组件,两个输入:训练模型和预测数据;输出为预测结果;有的样本数据是需要一分为二的,一个是用于训练用的,一个是用于验证的,作为预测结果。

image.png

这些组件不一定都需要使用,根据具体的业务来进行选择

6.评估

  • 选择模型
  • 配置参数
  • 查验结果

训练完成后的模型需要进行评估,检验是否满足要求。

评估组件为上步的预测输出进行评估(如图示例)

评估完成后可以进行发布在线预测部署或离线调度

image.png

满足要求后进行模型最后的部署。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
打赏
0
2
0
0
55
分享
相关文章
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
阿里云PAI DSW快速部署服务
在使用阿里云DSW实例进行开发的时候,可能需要快速部署服务测试应用效果。DSW实例目前已经支持通过自定义服务访问配置功能,对外提供服务访问能力,您在应用开发过程中无需分享整个DSW实例,即可将服务分享给协作开发者进行测试和验证。
95 23
阿里云PAI-部署Qwen2-VL-72B
阿里云PAI-部署Qwen2-VL-72B踩坑实录
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等