阿里云机器学习平台PAI,助力降低机器学习的成本和技术门槛

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。   本文内容根据嘉宾演讲视频以及PPT整理而成。

摘要:在2017杭州云栖大会机器学习平台PAI专场上,阿里巴巴研究员、阿里云机器学习平台PAI负责人林伟为大家分享了人工智能的发展历史以及阿里云机器学习平台PAI的简单情况和特性。

 

本文内容根据嘉宾演讲视频以及PPT整理而成。

 

人工智能发展历史

5ffa39111d2ae92340e5c14a9ba83a598e25955f

人工智能是从上个世纪50年代达特茅斯会议开始兴起的,之后马上就达到了一个快速发展的时期,在这个时期奠定了人工智能基础的研究方法,包括像逻辑推演以及一些统计学方法,比如深度学习以及神经网络等。但是当时因为算法和模型的一些局限性,所以找不到比较有效果的应用,得出来的结果页总是不太令人满意,所以很快大家的研究经费就耗光了,于是人工智能也迎来了自己的第一次寒冬期。随着上个世纪80年代算法的一些演进,多层神经网络、反向传播算法以及专家系统的提出,使得科学家找到了一些场景可以应用人工智能来解决一些问题,所以此时的人工智能就又来到了第二次高峰期。但是当时有很多想法因为计算的局限性没有能够落地实施,因为当时想要把这些想法落实需要海量的计算能力,系统也非常昂贵,所以大大地限制了人工智能的发展,这样人工智能就又进入了第二次寒冬,这次的原因主要是系统的昂贵和经费的削减。随着过去的二十年,摩尔定律蓬勃发展,也就是随着集成电路的工艺不断推演,计算能力每三年会翻一番,这样就终于突破了原来的计算瓶颈。一旦计算的瓶颈突破了,并且随着互联网的时代的到来,更多的数据开始数字化,能够为深度学习提供更多的数据,即便是网路很大的模型也能够训练出来,使得其效果能够突破人们的期望,这也是造成最近人工智能形成一个飞速爆发增长时期的原因。

 

人工智能已经诞生60年,为什么才爆发?

5b3871cd5d7c43ca076775670dc5a07b36f38479

可以说从人工智能的数学原理上面,当前的深度学习和80年代没有太多本质的区别,但是因为计算能力和数据的增长使得我们原来不敢去想、不能去做的事情能够变为可能,从而使得算法的演进大大加速了。原来可能有一个算法出来没有效果可能就停止研究了,但是如今当看到效果之后就回去不停地迭代和演进并且去尝试不同的网络,这也是人工智能最近几年开始爆发的原因。

 

人工智能行业的三大要素

人工智能行业的三大要素是:数据、计算力和算法。其实关键在于计算能力和数据使得这一次的人工智能进入爆发期,它们大大推进了算法的演进,所以其核心是平台。所以只有实现一个好的计算平台,才能够支撑更多的算法工程师将自己的idea做更多的尝试并找寻出更多的应用场景,让机器能够看到和听到并且感知到这个世界,真正地帮助人类解决问题,推动智能产业的发展。

0d9bb21d7ba345d75a993bee292023ae784535ee

 

PAI平台所解决的两个主要问题

阿里云机器学习平台PAI主要是为了解决两个问题,第一个是需要提供高性能,正如刚才所提到的机器学习需要有高性能的计算力去推动,所以阿里云机器学习平台PAI依托于云端计算降低存储和计算的成本。同时为了能够让算法更快地演进,需要提供很多的工具,让算法工程师能够非常方便地利用到系统计算的能力以及数据的能力,所以第二点就是机器学习平台API提供了很多的工具和算法库来降低技术的门槛。

e31f9a29db89d8c09b741c4853206caf112e5fe2

 

PAI平台的分层体系结构

阿里云机器学习平台PAI的体系结构大致分了很多层,最上面这一层是拥有非常丰富的算法组件,在这一层阿里巴巴希望打造一个算法市场,使得很多外面的第三方合作者或者其他的算法工程师能够将自己的一些idea提炼出来,打造一个能够把自己的算法上载到算法市场的生态。同时阿里巴巴作为一家数据驱动的公司,需要去分析数据背后的价值,推动“让天下没有难做的生意”变为可能,让商家能够实现精准营销,让消费者能够找到自己感兴趣的商品,所以数据驱动对于阿里巴巴是至关重要的。在阿里巴巴内部对于算法进行分析和演进存在着强烈的需求,并且随着中国市场的扩大,数据积累越来越多,所以数据规模也越来越大,阿里巴巴内部因为计算需求和数据需求这两个源动力推动着很多算法的沉淀,进而也会把这些沉淀共享出来,通过很多的算法使得整个行业能够很快地实现复用,进而打造一些很好的解决方案来解决真实的问题。

298819624773d94543cc887a064c7b6ef318fe9b

在算法组件之下是PAI的服务层,正如之前提到的,阿里巴巴希望算法工程师能够很方便地开发自己的想法和应用,所以PAI在服务层上面提供了很多的工具来帮助算法工程师快速地发现实验、管理实验、调整参数,进而寻找到能够达到更好效果的模型。在服务层以下是PAI核心引擎部分,这部分主要包括了三大引擎,分别是深度学习引擎、阿里参数服务器(鲲鹏)以及针对传统科学计算的阿里MPI引擎。而算法工程师是在很高的层次构建自己的想法以及人工智能的网络,通过网络引擎下面编译优化的能力使得上面的高层描述能够高效地编译优化调度成为下面硬件真正需要执行的指令代码。最下面一层是PAI的硬件层,属于异构计算的部分,因为对于人工智能的增长,计算能力其实是最关键的,随着摩尔定律的单线程吞吐达到瓶颈期,PAI平台也开始使用多种硬件去支撑计算,所以在硬件层会提供CPU、GPU、FPGA甚至是人工智能芯片ASIC等异构硬件。在异构计算的平台上面通过软件以及调度把合适的图计算进行有效的分割,把不同的计算部署到比较合适的硬件结构上面,这样才能把计算的能力充分地发挥出来。

 

PAI产品介绍

接下来会简单介绍阿里云机器学习平台PAI应该如何使用。当大家登录到PAI上去就会看到如下图所示的界面,在这个界面上可以看到有很多的算法组件,这些算法组件都是通过阿里巴巴内部强大的需求逐渐沉淀下来的。

8bfbb22dd088f22aa8895cf45f716cc8b57db507

阿里巴巴提供了100多种将近200种算法,因为阿里巴巴已经发布过好几次PAI的系统了,最近一次PAI 2.0是今年在深圳云栖大会进行的发布,这半年内PAI平台做了更多的算法优化,也提高了算法的性能。

fe0b118cafb77c4c6a9df18d5e46abf6c933b78c

PAI中所提供的算法是脱胎于内部的业务,这些算法大致可以分为三大类:PS算法、深度学习算法和MPI算法。深度学习的算法包括CNN、DNN和RNN,PS算法则包括如何做大规模参数管理等;MPI算法则包括比较传统的科学计算以及统计学算法。

b592d819de0bfe7dc2ca75cfd80dd8ebf4b83df5

进入到PAI平台之后也会看到很多组件,之前所提到的算法也都是通过组件的方式提供的。为了方便开发者的使用,PAI平台提供了拖拽的方式,可以通过类似连连看的方式实现自己的开发,这样就降低了开发的难度和成本。

a609c52b13509f138cdc9ee89523e125bbcb4a8a

在PAI平台上面会有一个搜索工具,可以方便开发者搜索实验,可以发现是否有人和自己的做了同样的实验,如果一样就可以利用已有的实验结果,同时也可以很容易地分享自己的实验,让其他人也可以受益于你的实验。

b200c9bb89d3d838c9df7f8b4e63679efcc75b60

此外,PAI平台可以支持多种的数据源。因为机器学习与数据源是密不可分的,需要使用数据来训练自己的模型,所以PAI平台打通了众多的数据产品,包括MaxCompute Table、OSS数据源以及其他的结构化或者非结构化的数据。

d7712c33b3521a458d4a621c869978254f23d073

同时PAI平台也会支持常用数据预处理和一些特征工程,可以做一些数据预处理或者常规的统计,使得整个人工智能形成完整的体系,帮助用户更快地实现自己的解决方案。

b00b25a553a9a4b7fd3e4b9286751af9c0b83793

PAI平台支持模型的产出,就相当于模型就放置于这个目录下面,可以将这个模型下载下来,也可以通过在线服务方法实现一键服务。

4a7a21aae981e2a6d27b481895eaba1e3f87c0fa

当进行数据装载的时候,还可以看看数据的分布是什么样的,也可以看看在训练的过程数据的属性情况以及准确度情况。PAI提供了大量的可视化工具帮助算法工程师方便地进行模型的掌控。

470d2dae8ec83e68dc8b247e6d8964296b7a7fae

在这个易用的PAI平台之下,存在三大引擎:深度学习引擎、参数服务器和MPI。

418d5035fc891c3c471d519777e45bfa74338992

而在这些引擎之下还会有异构的资源,所以PAI平台也会深耕异构资源的开发。举个例子就是可以通过FPGA的可编程逻辑实现特定场景的人工智能的加速,如下图所示的是城市大脑的例子,使用FPGA加速CNN,构建的是SSD+Resnet-18网络,这个网络使用FPGA方案的核心频率可以跑完500M,性能是2.5倍的吞吐,三分之一的延时,五分之一的功耗和十分之一的价格。所以希望通过应用层,帮助算法工程师尝试自己的idea,同时深度地优化引擎,也同时会在硬件层深度地优化硬件,使得计算能力能够充分地得以发挥出来,进而大大地推进算法演进的速度。

95fc9d1dd67dae8e69794809492a8f2717d6c5c7

未来,阿里巴巴人工智能PAI平台会朝着更开放、更丰富、更高效、更易用这四个方向发展。所谓更开放就是说不仅仅希望打造自己的核心引擎,也会允许外面的客户提供自己的引擎复用阿里巴巴的资源,也可以通过市场的开放和算法的开放贡献自己的算法加入到PAI的算法市场上面,充分地利用阿里云的入口与更多的客户进行解决方案的分享。所谓更丰富就是指的PAI平台会积累更多的算法,会有更多的模型产生,会有更多的工具来帮助开发者更快地组件解决方案。更高效指的是使得更多的想法得到实施,更易用则指的是使得开发的算法演进以及方案的演进变得更快。

123d8f28caeb9ecdd93dc6c9e640bf2bc101a739

今年3月份深圳云栖大会之后,PAI平台进行了以下更新:

发布了Tensorflow 1.1,1.2,并且在Tensorflow的基础上进行了深度优化,在模型的压缩和模型的优化等方面做了大量的工作,提高很多性能。

发布了MXNet 0.95版本。

增加了Tensorflow Notebook支持。

支持常规在线学习预测。

实验可以一键分享到云栖社区。

引擎性能更好。

北京开服。

支持最新的P100,支持单机八卡。

支持更多算法,并且提高算法性能。

80ba847bfb4d11480798a44fda3999e391ed111d



6c4b69af9fd1b465628b63fcee73224de0b62357

阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
5天前
|
人工智能 自然语言处理 安全
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
|
11天前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
|
28天前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
69 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
24天前
|
开发者 Python
阿里云PAI DSW快速部署服务
在使用阿里云DSW实例进行开发的时候,可能需要快速部署服务测试应用效果。DSW实例目前已经支持通过自定义服务访问配置功能,对外提供服务访问能力,您在应用开发过程中无需分享整个DSW实例,即可将服务分享给协作开发者进行测试和验证。
74 23
|
9天前
|
并行计算 PyTorch 算法框架/工具
阿里云PAI-部署Qwen2-VL-72B
阿里云PAI-部署Qwen2-VL-72B踩坑实录
|
2月前
|
机器学习/深度学习 人工智能 算法
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
|
30天前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享
12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。
|
2月前
|
机器学习/深度学习 PyTorch API
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
Transformer架构自2017年被Vaswani等人提出以来,凭借其核心的注意力机制,已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分,极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理,Transformer迅速扩展至语音识别、计算机视觉等多领域,展现出强大的跨学科应用潜力。然而,随着模型规模的增长,注意力层的高计算复杂度成为发展瓶颈。为此,本文探讨了在PyTorch生态系统中优化注意力层的各种技术,
96 6
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本

相关产品

  • 人工智能平台 PAI