阿里云机器学习平台PAI,助力降低机器学习的成本和技术门槛

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。   本文内容根据嘉宾演讲视频以及PPT整理而成。

摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。

 

本文内容根据嘉宾演讲视频以及PPT整理而成。

 

人工智能发展历史

5ffa39111d2ae92340e5c14a9ba83a598e25955f

人工智能是从上个世纪50年代达特茅斯会议开始兴起的,之后马上就达到了一个快速发展的时期,在这个时期奠定了人工智能基础的研究方法,包括像逻辑推演以及一些统计学方法,比如深度学习以及神经网络等。但是当时因为算法和模型的一些局限性,所以找不到比较有效果的应用,得出来的结果页总是不太令人满意,所以很快大家的研究经费就耗光了,于是人工智能也迎来了自己的第一次寒冬期。随着上个世纪80年代算法的一些演进,多层神经网络、反向传播算法以及专家系统的提出,使得科学家找到了一些场景可以应用人工智能来解决一些问题,所以此时的人工智能就又来到了第二次高峰期。但是当时有很多想法因为计算的局限性没有能够落地实施,因为当时想要把这些想法落实需要海量的计算能力,系统也非常昂贵,所以大大地限制了人工智能的发展,这样人工智能就又进入了第二次寒冬,这次的原因主要是系统的昂贵和经费的削减。随着过去的二十年,摩尔定律蓬勃发展,也就是随着集成电路的工艺不断推演,计算能力每三年会翻一番,这样就终于突破了原来的计算瓶颈。一旦计算的瓶颈突破了,并且随着互联网的时代的到来,更多的数据开始数字化,能够为深度学习提供更多的数据,即便是网路很大的模型也能够训练出来,使得其效果能够突破人们的期望,这也是造成最近人工智能形成一个飞速爆发增长时期的原因。

 

人工智能已经诞生60年,为什么才爆发?

5b3871cd5d7c43ca076775670dc5a07b36f38479

可以说从人工智能的数学原理上面,当前的深度学习和80年代没有太多本质的区别,但是因为计算能力和数据的增长使得我们原来不敢去想、不能去做的事情能够变为可能,从而使得算法的演进大大加速了。原来可能有一个算法出来没有效果可能就停止研究了,但是如今当看到效果之后就回去不停地迭代和演进并且去尝试不同的网络,这也是人工智能最近几年开始爆发的原因。

 

人工智能行业的三大要素

人工智能行业的三大要素是:数据、计算力和算法。其实关键在于计算能力和数据使得这一次的人工智能进入爆发期,它们大大推进了算法的演进,所以其核心是平台。所以只有实现一个好的计算平台,才能够支撑更多的算法工程师将自己的idea做更多的尝试并找寻出更多的应用场景,让机器能够看到和听到并且感知到这个世界,真正地帮助人类解决问题,推动智能产业的发展。

0d9bb21d7ba345d75a993bee292023ae784535ee

 

PAI平台所解决的两个主要问题

阿里云机器学习平台PAI主要是为了解决两个问题,第一个是需要提供高性能,正如刚才所提到的机器学习需要有高性能的计算力去推动,所以阿里云机器学习平台PAI依托于云端计算降低存储和计算的成本。同时为了能够让算法更快地演进,需要提供很多的工具,让算法工程师能够非常方便地利用到系统计算的能力以及数据的能力,所以第二点就是机器学习平台API提供了很多的工具和算法库来降低技术的门槛。

e31f9a29db89d8c09b741c4853206caf112e5fe2

 

PAI平台的分层体系结构

阿里云机器学习平台PAI的体系结构大致分了很多层,最上面这一层是拥有非常丰富的算法组件,在这一层阿里巴巴希望打造一个算法市场,使得很多外面的第三方合作者或者其他的算法工程师能够将自己的一些idea提炼出来,打造一个能够把自己的算法上载到算法市场的生态。同时阿里巴巴作为一家数据驱动的公司,需要去分析数据背后的价值,推动“让天下没有难做的生意”变为可能,让商家能够实现精准营销,让消费者能够找到自己感兴趣的商品,所以数据驱动对于阿里巴巴是至关重要的。在阿里巴巴内部对于算法进行分析和演进存在着强烈的需求,并且随着中国市场的扩大,数据积累越来越多,所以数据规模也越来越大,阿里巴巴内部因为计算需求和数据需求这两个源动力推动着很多算法的沉淀,进而也会把这些沉淀共享出来,通过很多的算法使得整个行业能够很快地实现复用,进而打造一些很好的解决方案来解决真实的问题。

298819624773d94543cc887a064c7b6ef318fe9b

在算法组件之下是PAI的服务层,正如之前提到的,阿里巴巴希望算法工程师能够很方便地开发自己的想法和应用,所以PAI在服务层上面提供了很多的工具来帮助算法工程师快速地发现实验、管理实验、调整参数,进而寻找到能够达到更好效果的模型。在服务层以下是PAI核心引擎部分,这部分主要包括了三大引擎,分别是深度学习引擎、阿里参数服务器(鲲鹏)以及针对传统科学计算的阿里MPI引擎。而算法工程师是在很高的层次构建自己的想法以及人工智能的网络,通过网络引擎下面编译优化的能力使得上面的高层描述能够高效地编译优化调度成为下面硬件真正需要执行的指令代码。最下面一层是PAI的硬件层,属于异构计算的部分,因为对于人工智能的增长,计算能力其实是最关键的,随着摩尔定律的单线程吞吐达到瓶颈期,PAI平台也开始使用多种硬件去支撑计算,所以在硬件层会提供CPU、GPU、FPGA甚至是人工智能芯片ASIC等异构硬件。在异构计算的平台上面通过软件以及调度把合适的图计算进行有效的分割,把不同的计算部署到比较合适的硬件结构上面,这样才能把计算的能力充分地发挥出来。

 

PAI产品介绍

接下来会简单介绍阿里云机器学习平台PAI应该如何使用。当大家登录到PAI上去就会看到如下图所示的界面,在这个界面上可以看到有很多的算法组件,这些算法组件都是通过阿里巴巴内部强大的需求逐渐沉淀下来的。

8bfbb22dd088f22aa8895cf45f716cc8b57db507

阿里巴巴提供了100多种将近200种算法,因为阿里巴巴已经发布过好几次PAI的系统了,最近一次PAI 2.0是今年在深圳云栖大会进行的发布,这半年内PAI平台做了更多的算法优化,也提高了算法的性能。

fe0b118cafb77c4c6a9df18d5e46abf6c933b78c

PAI中所提供的算法是脱胎于内部的业务,这些算法大致可以分为三大类:PS算法、深度学习算法和MPI算法。深度学习的算法包括CNN、DNN和RNN,PS算法则包括如何做大规模参数管理等;MPI算法则包括比较传统的科学计算以及统计学算法。

b592d819de0bfe7dc2ca75cfd80dd8ebf4b83df5

进入到PAI平台之后也会看到很多组件,之前所提到的算法也都是通过组件的方式提供的。为了方便开发者的使用,PAI平台提供了拖拽的方式,可以通过类似连连看的方式实现自己的开发,这样就降低了开发的难度和成本。

a609c52b13509f138cdc9ee89523e125bbcb4a8a

在PAI平台上面会有一个搜索工具,可以方便开发者搜索实验,可以发现是否有人和自己的做了同样的实验,如果一样就可以利用已有的实验结果,同时也可以很容易地分享自己的实验,让其他人也可以受益于你的实验。

b200c9bb89d3d838c9df7f8b4e63679efcc75b60

此外,PAI平台可以支持多种的数据源。因为机器学习与数据源是密不可分的,需要使用数据来训练自己的模型,所以PAI平台打通了众多的数据产品,包括MaxCompute Table、OSS数据源以及其他的结构化或者非结构化的数据。

d7712c33b3521a458d4a621c869978254f23d073

同时PAI平台也会支持常用数据预处理和一些特征工程,可以做一些数据预处理或者常规的统计,使得整个人工智能形成完整的体系,帮助用户更快地实现自己的解决方案。

b00b25a553a9a4b7fd3e4b9286751af9c0b83793

PAI平台支持模型的产出,就相当于模型就放置于这个目录下面,可以将这个模型下载下来,也可以通过在线服务方法实现一键服务。

4a7a21aae981e2a6d27b481895eaba1e3f87c0fa

当进行数据装载的时候,还可以看看数据的分布是什么样的,也可以看看在训练的过程数据的属性情况以及准确度情况。PAI提供了大量的可视化工具帮助算法工程师方便地进行模型的掌控。

470d2dae8ec83e68dc8b247e6d8964296b7a7fae

在这个易用的PAI平台之下,存在三大引擎:深度学习引擎、参数服务器和MPI。

418d5035fc891c3c471d519777e45bfa74338992

而在这些引擎之下还会有异构的资源,所以PAI平台也会深耕异构资源的开发。举个例子就是可以通过FPGA的可编程逻辑实现特定场景的人工智能的加速,如下图所示的是城市大脑的例子,使用FPGA加速CNN,构建的是SSD+Resnet-18网络,这个网络使用FPGA方案的核心频率可以跑完500M,性能是2.5倍的吞吐,三分之一的延时,五分之一的功耗和十分之一的价格。所以希望通过应用层,帮助算法工程师尝试自己的idea,同时深度地优化引擎,也同时会在硬件层深度地优化硬件,使得计算能力能够充分地得以发挥出来,进而大大地推进算法演进的速度。

95fc9d1dd67dae8e69794809492a8f2717d6c5c7

未来,阿里巴巴人工智能PAI平台会朝着更开放、更丰富、更高效、更易用这四个方向发展。所谓更开放就是说不仅仅希望打造自己的核心引擎,也会允许外面的客户提供自己的引擎复用阿里巴巴的资源,也可以通过市场的开放和算法的开放贡献自己的算法加入到PAI的算法市场上面,充分地利用阿里云的入口与更多的客户进行解决方案的分享。所谓更丰富就是指的PAI平台会积累更多的算法,会有更多的模型产生,会有更多的工具来帮助开发者更快地组件解决方案。更高效指的是使得更多的想法得到实施,更易用则指的是使得开发的算法演进以及方案的演进变得更快。

123d8f28caeb9ecdd93dc6c9e640bf2bc101a739

今年3月份深圳云栖大会之后,PAI平台进行了以下更新:

发布了Tensorflow 1.1,1.2,并且在Tensorflow的基础上进行了深度优化,在模型的压缩和模型的优化等方面做了大量的工作,提高很多性能。

发布了MXNet 0.95版本。

增加了Tensorflow Notebook支持。

支持常规在线学习预测。

实验可以一键分享到云栖社区。

引擎性能更好。

北京开服。

支持最新的P100,支持单机八卡。

支持更多算法,并且提高算法性能。

80ba847bfb4d11480798a44fda3999e391ed111d



6c4b69af9fd1b465628b63fcee73224de0b62357

阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
1月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024
阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
2月前
|
机器学习/深度学习 算法 数据挖掘
Python数据分析革命:Scikit-learn库,让机器学习模型训练与评估变得简单高效!
在数据驱动时代,Python 以强大的生态系统成为数据科学的首选语言,而 Scikit-learn 则因简洁的 API 和广泛的支持脱颖而出。本文将指导你使用 Scikit-learn 进行机器学习模型的训练与评估。首先通过 `pip install scikit-learn` 安装库,然后利用内置数据集进行数据准备,选择合适的模型(如逻辑回归),并通过交叉验证评估其性能。最终,使用模型对新数据进行预测,简化整个流程。无论你是新手还是专家,Scikit-learn 都能助你一臂之力。
132 8
|
1月前
|
JSON 测试技术 API
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码
阿里云PAI-Stable Diffusion开源代码浅析之(二)我的png info怎么有乱码
|
3月前
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
143 7
|
3月前
|
机器学习/深度学习 存储 人工智能
【ACL2024】阿里云人工智能平台PAI多篇论文入选ACL2024
近期,阿里云人工智能平台PAI的多篇论文在ACL2024上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台PAI在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
|
3月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
65 9
|
4月前
|
数据采集 人工智能 自然语言处理
阿里云百炼平台深度体验:智能问答与模型训练的创新之旅
在人工智能的浪潮中,阿里云百炼平台以其强大的大模型开发能力,为企业和个人开发者提供了一站式的解决方案。本文将从知识检索应用搭建、模型训练调优以及流程管理功能三个角度,全面评测阿里云百炼平台的实际使用体验。
303 3
|
3月前
|
机器学习/深度学习 存储 缓存
Java本地高性能缓存实践问题之阿里云机器学习团队开源社区的问题如何解决
Java本地高性能缓存实践问题之阿里云机器学习团队开源社区的问题如何解决

热门文章

最新文章

相关产品

  • 人工智能平台 PAI