阿里云机器学习 PAI 平台基础

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 阿里云机器学习 PAI 平台基础

开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):阿里云机器学习 PAI 平台基础】

课程地址:https://edu.aliyun.com/course/3112108/lesson/19256


阿里云机器学习 PAI 平台基础

 

1.课程目标


学习完本课程后,你将能够:

理解阿里云机器学习 PAI 平台相比于传统开发方式的优点

区分阿里云机器学习 PAI 平台关键组件之间的差别

理解 PAI-DSW、PAI-Designer、PAI-EAS 对应的功能特性和应用场景

根据业务需求选择合适的人工智能开发工具 (如机器学习PA-DSW、PA-Designer、PAIEAS、PAIDLC)


2.提问


在进入本章学习之前,先了解一下大家都知道哪些人工智能开发平台或工具呢?

人工智能开发平台/工具

(1)Python IDLE

(2)Linux 系统

人工智能开发的时候用的都是 Python,所以工具要求不会太高,可能一代的 IDLE 就可以写代码或者一些常用的编辑器 vscode、pycharm,主要的编程语言还是 Python,需要对 Python 语言有一些了解才能去做人工智能的开发。在操作系统的层面很多应用或者开发都是在 Linux 系统上面,所以做人工智能最好对 Linu系统的一些基本的操作要有了解。

课程安排先从宏观上去介绍阿里云机器学习的 PAI 平台,了解 PAI平台,PAI 平台有三个组件 PAI-DSW、PAI-Designer 和 PAI-EAS ,接下来的三节每一节分别介绍一个组件。


3. 机器学习 PAI 平台概述


Platform of Artificial Intelligence (PAI) 为传统机器学习和深度学习提供了数据处理、模型训练模型部署的一站式服务。平台叫 PAI 平台的原因为它的英文是 Platform of Artificial Intelligence 直译过来是人工智能的 platform,人工智能的平台,把单词的首字母提出来放在一起就是 PAI,从名字可以看出来这是人工智能平台的意思。阿里云机器学习 PAI 平台的目的是为传统机器学习和深度学习提供数据处理、模型训练和模型部署的一站式服务。
图片410.png

概念首先说明了平台提供服务的对象,为传统的机器学习和深度学习两个大的方向,都可以在机器学习 PAI 平台上面实现,提供的服务包括数据处理,模型训练和模型部署,把平台提供的服务叫做一站式的服务,是人工智能开发相关的东西在阿里云的 PAI 平台上都可以实现。服务包括数据处理、模型训练和模型部署是人工智能应用开发的主要的工作,有数据处理的原因是数据是人工智能一个重要的原材料,很多模型的训练是需要数据的,数据处理可以直接在上面来完成,有了数据之后要对模型进行训练,模型训练好之后要对模型进行部署,对模型进行部署之后应用系统才可以去使用这个模型或者客户可以使用这个模型。


总的来说阿里云器学习 PAI 平台想打造一个一站式的服务平台,想做AI的、做人工智能的应用开发不管是用传统的基础学习方式,还是用深度学习方式,整个的开发的流程都可以在 PAI 平台上面实现。

 

01

可视化建模与分布式训练

PAl-Designer

第一个是可视化建模与分布式训练叫 PAl-Designer ,designer 是设计者,可视化建模是 PAl-Designer 的主要功能,在做人工智能的时候要建模,然后去训练模型,模型是怎么样可以用代码,但是代码比较麻烦,有可能工作量也很大,可以用可视化建模的方式有现成的图形化的模块,通过拖拉拽的方式可以去设计模型。这部分初学者可以大大的降低学习和开始动手去做人工智能的门槛,对于有经验的人也可以大大的去提高建模的效率,除此之外 PAl-Designer 还支持分布式的训练,特别是对于大型模型的训练可能要用到分布式的算力,分布式训练的支持还可以为模型训练提供更强大的算力。

 

02

Notebook 交互式

AI 研发

PAI-DSW

第二个是 PAI-DSW ,支持使用 notebook 做交互式 AI 的研发,前面的可视化建模虽然很方便但是不能满足需要,用变量的方式自己去写代码可以灵活的去做 AI 的开发,PAI-DSW 提供 notebook 方式能满足需要。 PAl-Designer 和 PAI-DSW 都是拿去建模,不管是可视化的建模还是交互式的用 notebook 去建模都是建模的方式,建模之后要去做模型的训练,要有数据、有算力。

 

03

云原生 AI 基础平台

PAI-DLC

数据如果量很大怎么去存储放在哪里,如果要算力的支持对于算力的需求比较高要用 GPU 或者是用分布式去计算。用到存储的资源和算力的资源是第三个 PAI-DLC 解决的问题。

PAI-DLC 是云原生 AI 基础平台,简单来说是用云计算思想提供 AI的基础平台。使用这个平台可以去灵活的配置自己去做 AI 需要的存储,需要的算力甚至包括需要的环境,做过人工智能开发可能都会有这个问题,用的平台如果是自己去弄一台服务器就购置硬件,然后在操作系统、软件的环境已经要很高的成本,而且很麻烦。有了 PAI-DLC 之后大大的简化这部分的工作。

 

04

在线预测 PAI-EAS

前面设计的模型再用 PAI-DLC 去生产模型,产生模型之后下一个任务是发布模型,叫做模型部署可以用 PAI-EAS 来完成, PAI-EAS

可以提供资源,以 API 的形式把模型发布,如果不用这种方式工作可能会变得很复杂,可能会再去买个服务器云主机把模型部署上去,再写一个 API 发布出去比较啰嗦,成本会很高, PAI-EAS 在 PAI 平台里面支持训练完模型之后非常方便的发布。设想一下用 PAI 平台来做人工智能应用开发的场景,需要把数据上传,然后用可视化的方式去建模或者使用 notebook 交互式进行 AI 研发,在 PAI-DLC 上面去申请设立,然后开始训练模型,训练模型完成之后通过 PAI-EAS 直接发布,就可以在线预测模型的部署,是阿里云机器学习 PAI 平台一站式服务的内涵。

 

4.PAI 与传统方式开发对比


PAI开发:

入门:零基础要求,直接调用 PAI 进阶:Python 开发,神经网络基础

拖拽式开发代码编写

基于阿里云平台,成本可控

基于阿里巴巴实践沉淀的丰富算法库

按需投入

PK:

基础要求

开发方式

运行平台

算法库支撑

前期投入

传统开发:

掌握 Python,神经网络基础

代码编写

自建平台,成本高

开源框架自带算法库数量有限,或自行开发

较高
图片411.png首先是基础要求方面,一般情况下做开发都要求掌握 Python 编程语言,要有神经网络基础才能去做开发,在 PAI 平台里面也支持应用 Python,如果没有基础入门可以直接调用现在 PAI 里面有的内容,而且实现的效果也不差。


开发传统的方式要写代码,除了能写代码之外还支持拖拽式的开发,图形化的编程非常的方便,有的程序员也喜欢用这种方式,从运行平台上看如果做传统的开发,自己去建一个平台要服务器、GPU、操作系统,各种软件各种去搭配起来,建平台的成本非常高,如果使用 PAI 平台注册账户直接进来之后环境就已经有了。


第二是投入很小,而且成本是可控的,相对来说有点像早期去做一个网站,有的人是自己去买服务器,自己放在 IDC 去进行托管,然后再去找维护人员去维护,管理员整体成本是有非常高的,用阿里云直接买一个阿里云的平台成本降低了很多,PAI 平台上还有算法库支持的优势,如果做传统开发一般是用开源的框架自带的算法库,自带的算法库可能数量有限,有的时候数量可能丰富,应用的领域不一定能保证质量,要做大量的筛选工作或者要自己做很多算法开发的工作。在 PAI 平台里面有基于阿里巴巴的实践沉淀,丰富的算法库,这些算法已经在阿里巴巴各个应用的场景里面去检验过,在 PAI 平台上开发可以直接用检验过沉淀下来的成果,前期投入的部分也可以去核算一下,如果自己去建比较好,然后服务器的成本、GPU 的成本都是非常的巨大的,一般都会有不能满载的问题,所以早期的投入很高,一次性投入很大,使用平台可以按需投入,根据需求动态的去控制成本,这是使用 PAI 和传统开发方式的比较,如果有正在用传统的方式进行开发的工程技术人员,可能用 PAI 平台之后会更有体会。

 

5.PAI 平台优势


PAI平台优势

对接 DataWorks,支持 SQL、UDF、UDAF、MR 等多种数据处理方式,灵活性高。

图片412.png

生成训练模型的实验流程支持 DataWorks 周期性调度,目调度任务区分生产环境和开发环境,进而实现数据安全隔离。

服务支持单独或组合使用,支持一站式机器学习,只要准备好训练数据,所有建模工作都可以通过 PAI 实现。


首先是服务支持单独或者组合的使用,让 PAI 平台支持一站式的机器学习,只要准备好训练数据,所有的建模工作都可以通过 PAI 平台来实现,训练数据可以放在 oss 或是 max computer 里面,用 oss 或是max computer 里面是阿里云大数据里的组件,管理数据也非常方便,所有的建模工作包括数据上传,数据预处理,特征工程,模型训练,模型发布,模型评估,模型发布可以发布到离线的或者在线的环境。 PAI 平台还可以对接到 dataworks,dataworks 是阿里云大数据开发和治理的平台,使用 dataworks 支持  SQL、UDF,UDF 指的是用户定义的聚合函数啊,还有MR等多种数据处理方式,灵活性比较高。第三个优势是生成训练模型的实验流程支持dataworks 周期性调度,调度任务是区分生产环境和开发环境,是不一样的,可以实现数据的安全隔离。

 

6.PAI 平台的功能特性与关键组件


PAI 平台的功能特性

支持对接阿里云其他产品

PAI 训练的模型直接存储在 MaxCompute 中;

可以配合阿里云的其他产品使用。

一站式的机器学习体验

PAI 支持从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程

支持主流深度学习框架

PAI 支持 TensorFlow、Caffe  及  MXNet  等主流的机器学习框架。

优质的技术保障

在使用过程中遇到任何问题都可以提交工单或者联系相关接口人。

丰富的机器学习算法

PAI 的算法都经过阿里巴巴集团大规模业务的沉淀;

不仅支持基础的聚类和回归类算法,同时也支持文本分析和特征处理等复杂算法。

可视化的建模方式

支持使用拖拽的方式搭建机器学习实验;

支持使用内置的 PAI-AutoML 进行调参,实现模型参数自动探索、模型效果自动评估、模型自动向下传导及模型自动优化


一键式的模型部署服务

PAI 支持将 PAI-Designer、PAI-DSW 及 PAI-Autolearning 生成的训练模型一键式发布为 Restful API 接口,实现模型到业务的无缝衔接。

首先 PAI 平台支持对接阿里云的其他产品,PAI 平台训练的模型之间会存储在 max computer 里面,max 是云数据仓库适用于数据分析场景的企业级上市模式,只用 max computer 里面的数据,也使用起来非常的方便,数据可以认为在同一个位置。

第二个特性是一站式的机器学习体验,从数据上传到数据与处理,特征工程,模型训练,模型评估到模型发布全部都有。


第三个是支持主流的深度学习框架,包括 TensorFlow、Caffe  及 MXNet 等主流的机器学习框架。

第四个特性是有优质的技术保障,在使用的过程中如果遇到任何问题就提交工单或者联系相关的接口人,提交工单可以得到很快的处理。然后是丰富的机器学习算法,PAI 里面的算法都是经过阿里集团业务沉淀,PAI 平台起初是服务于阿里集团的内部,像淘宝、支付宝、高德的机器学习平台,最初致力于让内部的开发者能够高效简洁标准的去使用 AI,随着技术不断的发展才商业化,所以丰富的算法沉淀能满足用户的绝大部分的需求,不仅是支持基础的聚类,回归的算法,也支持复杂的、文本分析特征处理的复杂算法。


第六项是有可视化的建模设计,支持拖拽的方式搭建机器学习的实验,支持使用内置的  PAI-AutoML 进行调参,AutoML 是 auto machine learning机器学习,来实现模型参数的自动探索、效果的自动评估,模型的自动向下传导和模型自动优化,学习的过程中去调仓、生成技术含量 auto machine learning 大大的简化这一个过程。PAI 平台的功能特性第七个是支持一键式的模型部署服务,不管是用 PAI-Designer、PAI-DSW 及 PAI-Autolearning,不管用哪一个产品生成的训练模型都可以一键式发布,发布成 restful API 的接口,让用户通过 API很方便的去调用,这个过程叫模型到业务的无无缝衔接,训练好模型然后发布,业务里面马上就可以用到模型。

 

7.PAI 平台的关键组件


组件交互

提供机器学习可视化建模

PA-Designer

提供 Notebook 交互式建模

PAI-DSW

提供深度学习训练环境

PAI-DLC

键部署

PALEAS
图片413.pngPAI 平台的关键组件,PA-Designer、PAI-DSW、PAI-DLC 和PALEAS

PA-Designer 是为机器学习提供了可视化建模的工具,PAI-DSW 提供了 notebook 交互式建模,这两个都是建模的工具,PAI-DLC 可以认为简单一点,效率高一点,能满足大部分需求但是有些特殊的需求满足不了,有的情况还是要用 notebook 这种交互式建模。


不管是可视化建模还是交互式建模,建模完成之后希望有一个环境能让模型很方便的部署,PALEAS 支持一站式的部署,在设计模型、训练模型的时候需要一个训练环境的支持是 PAI-DLC 来做,通过PAI-DLC 可以使用人工智能框架,可以很方便的去提交深度学习任务,去监控任务的进度,查看任务的结果,可以购买 GPU 服务器来建立集群,可以管理集群里面可用的 GPU 资源,更好的去规划训练任务,使用DLC 可以支持自定义的运行环境,可以编程式的离线调度,可以支持超大规模的分布式训练。

管买会代地

 

8.本节回顾


通过本节的学习,我们学到了:

机器学习 PAI 平台概述

阿里云机器学习PAI平台为传统机器学习和深度学习提供从数据处理、模型训练、服务部署到预测的一站式服务


PAI 平台的功能特性与关键组件

PAI 平台的功能特性主要包括支持对接阿里云其他产品、一站式的机器学习体验、支持主流深度学习框架、优质的技术保障、丰富的机器学习算法、可视化的建模方式、一键式的模型部署服务

PAI平台的关键组件包括 PAI-Designer、PAI-DSW、PAI-EAS、PAI-DLC

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
5天前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
|
2月前
|
机器学习/深度学习 人工智能 监控
AutoTrain:Hugging Face 开源的无代码模型训练平台
AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
152 4
AutoTrain:Hugging Face 开源的无代码模型训练平台
|
2天前
|
人工智能 调度 芯片
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
|
2天前
|
人工智能 容灾 Serverless
AI推理新纪元,PAI全球化模型推理服务的创新与实践
本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
|
2天前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
6月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 人工智能 算法
机器学习【教育领域及其平台搭建】
机器学习【教育领域及其平台搭建】
66 6
|
4月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
173 8