阿里“NASA”首个重磅武器亮相:机器学习平台PAI2.0

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 3月29日,阿里云在云栖大会深圳峰会上正式发布机器学习平台PAI2.0。

3月29日,阿里云在云栖大会深圳峰会上正式发布机器学习平台PAI2.0。

_

相比1.0版本,PAI2.0有多项重大更新,除增加了100余种算法外,更重要的是对主流深度学习框架TensorFlow、Caffe和MXNet的全面兼容。

"NASA计划”
23

3月初,阿里巴巴董事局主席马云宣布启动内部代号为“NASA”的计划,将面向未来 20 年组建强大的独立研发部门,建立新的机制体制,为服务 20 亿人的新经济体储备核心科技。

同时,马云还动员阿里巴巴全球两万多名工程师投身“NASA”计划。

在技术大会上,机器学习、芯片、IoT、操作系统、生物识别被明确提及,智能化的产业基础和应用被放在了突出位置。

国内首个机器学习平台PAI2.0
两年前,阿里云对外发布国内首个机器学习平台PAI。此次版本的重大升级,标志着阿里云在构建AI核心技术能力上又进一步。据悉,阿里“NASA”计划将为PAI平台使用者提供强大的技术后盾。

此次PAI2.0的重大升级主要包括以下方面:

1、全面拥抱开源

PAI2.0编程接口完全兼容深度学习框架:Tensorflow、Caffe以及MXNet,用户只需要将自己本地编写的代码文件上传至云端就可以执行。

Tensorflow、Caffe和MXNet是目前全球主流的深度学习开源框架。Tensorflow开源算法和模型最丰富;Caffe是经典的图形领域框架,使用简单;MXNet分布式性能优异。

对于底层计算资源,PAI2.0提供了强大的云端异构计算资源,包含CPU、GPU、FPGA。在GPU方面,PAI2.0可以灵活实现多卡调度。

借助这些框架以及强大的计算资源,用户能非常方便地就可以将计算任务下发到对应的分布式计算机群上,实现深度学习模型训练与预测。

2、更丰富的算法库

PAI2.0提供100余种算法组件,涵盖了分类、回归、聚类等常用场景,还针对主流的算法应用场景,提供了偏向业务的算法,包含文本分析、关系分析、推荐3种类别。

“算法全部脱胎于阿里巴巴集团内部的业务实践,所有算法都经历过PB级数据和复杂业务场景的锤炼,具备成熟稳定的特点”,阿里云首席科学家周靖人说。

3、支持更大规模的数据训练

PAI2.0 新增了参数服务器(Parameter Server)架构的算法。不仅能进行数据并行,同时还可将模型分片,把大的模型分为多个子集,每个参数服务器只存一个子集,全部的参数服务器聚合在一起拼凑成一个完整的模型。

其创新点还在于失败重试的功能。

在分布式系统上,成百上千个节点协同工作时,经常会出现一个或几个节点挂掉的情况,如果没有失败重试机制,任务就会有一定的几率失败,需要重新提交任务到集群调度。PS算法支持千亿特征、万亿模型和万亿样本直至PB级的数据训练,适合于电商、广告等数据规模巨大的推荐场景。

PAI2.0的初心和愿景
阿里云首席科学家周靖人说,在过去的一年时间里我们协助客户落地了多项重大的人工智能应用。但人工智能要想真正成为成为普惠科技,需要一款更加通用的生产工具。PAI2.0正是为此而生。

人工智能综合了多门学科的技术,对人才要求极其高,除了懂统计学中各种复杂的机器学习算法,还要懂实现逻辑以及分布式架构理论。

PAI可以大幅的降低人工智能的门槛以及开发成本。

从操作界面来看,PAI没有繁琐的公式和复杂的代码逻辑,用户看到的是各种分门别类被封装好的算法组件。每一个实验步骤都提供可视化的监控页面。

在深度学习黑箱透明化方面,PAI也同时集成了各种可视化工具。

PAI的基础设施和计算框架建立在阿里云飞天计算平台之上,通过云的模式大幅降低了计算成本,支持MR、SQL、MPI、PS、GRAPH等多种分布式计算框架,对于底层的CPU和GPU计算机群可以灵活调用。

PAI2.0的应用

两年时间里,PAI在阿里巴巴内部已经被广泛使用。

以淘宝搜索为例,搜索结果会基于商品和用户的特征进行排序。通过使用参数服务器,淘宝可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破了规模的瓶颈。

在阿里云的客户当中,广东省气象局对PAI的使用最具代表性。

他们使用PAI对临近预报(0-3小时内)的降雨量进行建模预测。通过拖拽操作就完成了数据清洗、特征工程,非线性机器学习算法训练以及结果评估的工作。

PAI还被应用在各种前沿科技领域。华大基因联合阿里云科学家,正使用PAI对肺腺癌患者基因进行分析,试图寻找到导致肺腺癌病发的关键基因突变。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
15天前
|
存储 人工智能 大数据
AI开发新范式,PAI模型构建平台升级发布
本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
|
3月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
2月前
|
机器学习/深度学习 人工智能 监控
AutoTrain:Hugging Face 开源的无代码模型训练平台
AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
201 4
AutoTrain:Hugging Face 开源的无代码模型训练平台
|
6月前
|
机器学习/深度学习 人工智能 Shell
人工智能平台PAI操作报错合集之在分布式训练过程中遇到报错,是什么原因
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 数据处理
人工智能平台PAI操作报错合集之任务重启后出现模型拆分报错,该怎么办
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 人工智能 算法
机器学习【教育领域及其平台搭建】
机器学习【教育领域及其平台搭建】
73 6
|
5月前
|
机器学习/深度学习 资源调度 分布式计算
阿里PAI-ChatLearn:大规模 Alignment高效训练框架正式开源
PAI-ChatLearn现已全面开源,助力用户快速、高效的Alignment训练体验。借助ChatLearn,用户可全身心投入于模型设计与效果优化,无需分心于底层技术细节。ChatLearn将承担起资源调度、数据传输、参数同步、分布式运行管理以及确保系统高效稳定运作的重任,为用户提供一站式解决方案。
|
5月前
|
机器学习/深度学习 运维
【阿里天池-医学影像报告异常检测】4 机器学习模型调参
本文提供了对医学影像报告异常检测任务中使用的机器学习模型(如XGBoost和LightGBM)进行参数调整的方法,并分享了特征提取和模型调优的最佳实践。
66 13
|
5月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
87 9
|
6月前
|
数据采集 人工智能 自然语言处理
阿里云百炼平台深度体验:智能问答与模型训练的创新之旅
在人工智能的浪潮中,阿里云百炼平台以其强大的大模型开发能力,为企业和个人开发者提供了一站式的解决方案。本文将从知识检索应用搭建、模型训练调优以及流程管理功能三个角度,全面评测阿里云百炼平台的实际使用体验。
357 3