开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):阿里云机器学习 PAI 平台基础】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19256
阿里云机器学习 PAI 平台基础
1.课程目标
学习完本课程后,你将能够:
理解阿里云机器学习 PAI 平台相比于传统开发方式的优点
区分阿里云机器学习 PAI 平台关键组件之间的差别
理解 PAI-DSW、PAI-Designer、PAI-EAS 对应的功能特性和应用场景
根据业务需求选择合适的人工智能开发工具 (如机器学习PA-DSW、PA-Designer、PAIEAS、PAIDLC)
2.提问
在进入本章学习之前,先了解一下大家都知道哪些人工智能开发平台或工具呢?
人工智能开发平台/工具
(1)Python IDLE
(2)Linux 系统
人工智能开发的时候用的都是 Python,所以工具要求不会太高,可能一代的 IDLE 就可以写代码或者一些常用的编辑器 vscode、pycharm,主要的编程语言还是 Python,需要对 Python 语言有一些了解才能去做人工智能的开发。在操作系统的层面很多应用或者开发都是在 Linux 系统上面,所以做人工智能最好对 Linu系统的一些基本的操作要有了解。
课程安排先从宏观上去介绍阿里云机器学习的 PAI 平台,了解 PAI平台,PAI 平台有三个组件 PAI-DSW、PAI-Designer 和 PAI-EAS ,接下来的三节每一节分别介绍一个组件。
3. 机器学习 PAI 平台概述
Platform of Artificial Intelligence (PAI) 为传统机器学习和深度学习提供了数据处理、模型训练模型部署的一站式服务。平台叫 PAI 平台的原因为它的英文是 Platform of Artificial Intelligence 直译过来是人工智能的 platform,人工智能的平台,把单词的首字母提出来放在一起就是 PAI,从名字可以看出来这是人工智能平台的意思。阿里云机器学习 PAI 平台的目的是为传统机器学习和深度学习提供数据处理、模型训练和模型部署的一站式服务。
概念首先说明了平台提供服务的对象,为传统的机器学习和深度学习两个大的方向,都可以在机器学习 PAI 平台上面实现,提供的服务包括数据处理,模型训练和模型部署,把平台提供的服务叫做一站式的服务,是人工智能开发相关的东西在阿里云的 PAI 平台上都可以实现。服务包括数据处理、模型训练和模型部署是人工智能应用开发的主要的工作,有数据处理的原因是数据是人工智能一个重要的原材料,很多模型的训练是需要数据的,数据处理可以直接在上面来完成,有了数据之后要对模型进行训练,模型训练好之后要对模型进行部署,对模型进行部署之后应用系统才可以去使用这个模型或者客户可以使用这个模型。
总的来说阿里云器学习 PAI 平台想打造一个一站式的服务平台,想做AI的、做人工智能的应用开发不管是用传统的基础学习方式,还是用深度学习方式,整个的开发的流程都可以在 PAI 平台上面实现。
01
可视化建模与分布式训练
PAl-Designer
第一个是可视化建模与分布式训练叫 PAl-Designer ,designer 是设计者,可视化建模是 PAl-Designer 的主要功能,在做人工智能的时候要建模,然后去训练模型,模型是怎么样可以用代码,但是代码比较麻烦,有可能工作量也很大,可以用可视化建模的方式有现成的图形化的模块,通过拖拉拽的方式可以去设计模型。这部分初学者可以大大的降低学习和开始动手去做人工智能的门槛,对于有经验的人也可以大大的去提高建模的效率,除此之外 PAl-Designer 还支持分布式的训练,特别是对于大型模型的训练可能要用到分布式的算力,分布式训练的支持还可以为模型训练提供更强大的算力。
02
Notebook 交互式
AI 研发
PAI-DSW
第二个是 PAI-DSW ,支持使用 notebook 做交互式 AI 的研发,前面的可视化建模虽然很方便但是不能满足需要,用变量的方式自己去写代码可以灵活的去做 AI 的开发,PAI-DSW 提供 notebook 方式能满足需要。 PAl-Designer 和 PAI-DSW 都是拿去建模,不管是可视化的建模还是交互式的用 notebook 去建模都是建模的方式,建模之后要去做模型的训练,要有数据、有算力。
03
云原生 AI 基础平台
PAI-DLC
数据如果量很大怎么去存储放在哪里,如果要算力的支持对于算力的需求比较高要用 GPU 或者是用分布式去计算。用到存储的资源和算力的资源是第三个 PAI-DLC 解决的问题。
PAI-DLC 是云原生 AI 基础平台,简单来说是用云计算思想提供 AI的基础平台。使用这个平台可以去灵活的配置自己去做 AI 需要的存储,需要的算力甚至包括需要的环境,做过人工智能开发可能都会有这个问题,用的平台如果是自己去弄一台服务器就购置硬件,然后在操作系统、软件的环境已经要很高的成本,而且很麻烦。有了 PAI-DLC 之后大大的简化这部分的工作。
04
在线预测 PAI-EAS
前面设计的模型再用 PAI-DLC 去生产模型,产生模型之后下一个任务是发布模型,叫做模型部署可以用 PAI-EAS 来完成, PAI-EAS
可以提供资源,以 API 的形式把模型发布,如果不用这种方式工作可能会变得很复杂,可能会再去买个服务器云主机把模型部署上去,再写一个 API 发布出去比较啰嗦,成本会很高, PAI-EAS 在 PAI 平台里面支持训练完模型之后非常方便的发布。设想一下用 PAI 平台来做人工智能应用开发的场景,需要把数据上传,然后用可视化的方式去建模或者使用 notebook 交互式进行 AI 研发,在 PAI-DLC 上面去申请设立,然后开始训练模型,训练模型完成之后通过 PAI-EAS 直接发布,就可以在线预测模型的部署,是阿里云机器学习 PAI 平台一站式服务的内涵。
4.PAI 与传统方式开发对比
PAI开发:
入门:零基础要求,直接调用 PAI 进阶:Python 开发,神经网络基础
拖拽式开发代码编写
基于阿里云平台,成本可控
基于阿里巴巴实践沉淀的丰富算法库
按需投入
PK:
基础要求
开发方式
运行平台
算法库支撑
前期投入
传统开发:
掌握 Python,神经网络基础
代码编写
自建平台,成本高
开源框架自带算法库数量有限,或自行开发
较高
首先是基础要求方面,一般情况下做开发都要求掌握 Python 编程语言,要有神经网络基础才能去做开发,在 PAI 平台里面也支持应用 Python,如果没有基础入门可以直接调用现在 PAI 里面有的内容,而且实现的效果也不差。
开发传统的方式要写代码,除了能写代码之外还支持拖拽式的开发,图形化的编程非常的方便,有的程序员也喜欢用这种方式,从运行平台上看如果做传统的开发,自己去建一个平台要服务器、GPU、操作系统,各种软件各种去搭配起来,建平台的成本非常高,如果使用 PAI 平台注册账户直接进来之后环境就已经有了。
第二是投入很小,而且成本是可控的,相对来说有点像早期去做一个网站,有的人是自己去买服务器,自己放在 IDC 去进行托管,然后再去找维护人员去维护,管理员整体成本是有非常高的,用阿里云直接买一个阿里云的平台成本降低了很多,PAI 平台上还有算法库支持的优势,如果做传统开发一般是用开源的框架自带的算法库,自带的算法库可能数量有限,有的时候数量可能丰富,应用的领域不一定能保证质量,要做大量的筛选工作或者要自己做很多算法开发的工作。在 PAI 平台里面有基于阿里巴巴的实践沉淀,丰富的算法库,这些算法已经在阿里巴巴各个应用的场景里面去检验过,在 PAI 平台上开发可以直接用检验过沉淀下来的成果,前期投入的部分也可以去核算一下,如果自己去建比较好,然后服务器的成本、GPU 的成本都是非常的巨大的,一般都会有不能满载的问题,所以早期的投入很高,一次性投入很大,使用平台可以按需投入,根据需求动态的去控制成本,这是使用 PAI 和传统开发方式的比较,如果有正在用传统的方式进行开发的工程技术人员,可能用 PAI 平台之后会更有体会。
5.PAI 平台优势
PAI平台优势
对接 DataWorks,支持 SQL、UDF、UDAF、MR 等多种数据处理方式,灵活性高。
生成训练模型的实验流程支持 DataWorks 周期性调度,目调度任务区分生产环境和开发环境,进而实现数据安全隔离。
服务支持单独或组合使用,支持一站式机器学习,只要准备好训练数据,所有建模工作都可以通过 PAI 实现。
首先是服务支持单独或者组合的使用,让 PAI 平台支持一站式的机器学习,只要准备好训练数据,所有的建模工作都可以通过 PAI 平台来实现,训练数据可以放在 oss 或是 max computer 里面,用 oss 或是max computer 里面是阿里云大数据里的组件,管理数据也非常方便,所有的建模工作包括数据上传,数据预处理,特征工程,模型训练,模型发布,模型评估,模型发布可以发布到离线的或者在线的环境。 PAI 平台还可以对接到 dataworks,dataworks 是阿里云大数据开发和治理的平台,使用 dataworks 支持 SQL、UDF,UDF 指的是用户定义的聚合函数啊,还有MR等多种数据处理方式,灵活性比较高。第三个优势是生成训练模型的实验流程支持dataworks 周期性调度,调度任务是区分生产环境和开发环境,是不一样的,可以实现数据的安全隔离。
6.PAI 平台的功能特性与关键组件
PAI 平台的功能特性
支持对接阿里云其他产品
PAI 训练的模型直接存储在 MaxCompute 中;
可以配合阿里云的其他产品使用。
一站式的机器学习体验
PAI 支持从数据上传、数据预处理、特征工程、模型训练、模型评估到模型发布的机器学习全流程
支持主流深度学习框架
PAI 支持 TensorFlow、Caffe 及 MXNet 等主流的机器学习框架。
优质的技术保障
在使用过程中遇到任何问题都可以提交工单或者联系相关接口人。
丰富的机器学习算法
PAI 的算法都经过阿里巴巴集团大规模业务的沉淀;
不仅支持基础的聚类和回归类算法,同时也支持文本分析和特征处理等复杂算法。
可视化的建模方式
支持使用拖拽的方式搭建机器学习实验;
支持使用内置的 PAI-AutoML 进行调参,实现模型参数自动探索、模型效果自动评估、模型自动向下传导及模型自动优化
一键式的模型部署服务
PAI 支持将 PAI-Designer、PAI-DSW 及 PAI-Autolearning 生成的训练模型一键式发布为 Restful API 接口,实现模型到业务的无缝衔接。
首先 PAI 平台支持对接阿里云的其他产品,PAI 平台训练的模型之间会存储在 max computer 里面,max 是云数据仓库适用于数据分析场景的企业级上市模式,只用 max computer 里面的数据,也使用起来非常的方便,数据可以认为在同一个位置。
第二个特性是一站式的机器学习体验,从数据上传到数据与处理,特征工程,模型训练,模型评估到模型发布全部都有。
第三个是支持主流的深度学习框架,包括 TensorFlow、Caffe 及 MXNet 等主流的机器学习框架。
第四个特性是有优质的技术保障,在使用的过程中如果遇到任何问题就提交工单或者联系相关的接口人,提交工单可以得到很快的处理。然后是丰富的机器学习算法,PAI 里面的算法都是经过阿里集团业务沉淀,PAI 平台起初是服务于阿里集团的内部,像淘宝、支付宝、高德的机器学习平台,最初致力于让内部的开发者能够高效简洁标准的去使用 AI,随着技术不断的发展才商业化,所以丰富的算法沉淀能满足用户的绝大部分的需求,不仅是支持基础的聚类,回归的算法,也支持复杂的、文本分析特征处理的复杂算法。
第六项是有可视化的建模设计,支持拖拽的方式搭建机器学习的实验,支持使用内置的 PAI-AutoML 进行调参,AutoML 是 auto machine learning机器学习,来实现模型参数的自动探索、效果的自动评估,模型的自动向下传导和模型自动优化,学习的过程中去调仓、生成技术含量 auto machine learning 大大的简化这一个过程。PAI 平台的功能特性第七个是支持一键式的模型部署服务,不管是用 PAI-Designer、PAI-DSW 及 PAI-Autolearning,不管用哪一个产品生成的训练模型都可以一键式发布,发布成 restful API 的接口,让用户通过 API很方便的去调用,这个过程叫模型到业务的无无缝衔接,训练好模型然后发布,业务里面马上就可以用到模型。
7.PAI 平台的关键组件
组件交互
提供机器学习可视化建模
PA-Designer
提供 Notebook 交互式建模
PAI-DSW
提供深度学习训练环境
PAI-DLC
键部署
PALEAS
PAI 平台的关键组件,PA-Designer、PAI-DSW、PAI-DLC 和PALEAS
PA-Designer 是为机器学习提供了可视化建模的工具,PAI-DSW 提供了 notebook 交互式建模,这两个都是建模的工具,PAI-DLC 可以认为简单一点,效率高一点,能满足大部分需求但是有些特殊的需求满足不了,有的情况还是要用 notebook 这种交互式建模。
不管是可视化建模还是交互式建模,建模完成之后希望有一个环境能让模型很方便的部署,PALEAS 支持一站式的部署,在设计模型、训练模型的时候需要一个训练环境的支持是 PAI-DLC 来做,通过PAI-DLC 可以使用人工智能框架,可以很方便的去提交深度学习任务,去监控任务的进度,查看任务的结果,可以购买 GPU 服务器来建立集群,可以管理集群里面可用的 GPU 资源,更好的去规划训练任务,使用DLC 可以支持自定义的运行环境,可以编程式的离线调度,可以支持超大规模的分布式训练。
管买会代地
8.本节回顾
通过本节的学习,我们学到了:
机器学习 PAI 平台概述
阿里云机器学习PAI平台为传统机器学习和深度学习提供从数据处理、模型训练、服务部署到预测的一站式服务
PAI 平台的功能特性与关键组件
PAI 平台的功能特性主要包括支持对接阿里云其他产品、一站式的机器学习体验、支持主流深度学习框架、优质的技术保障、丰富的机器学习算法、可视化的建模方式、一键式的模型部署服务
PAI平台的关键组件包括 PAI-Designer、PAI-DSW、PAI-EAS、PAI-DLC