阿里灵杰融合智能算力,全栈AI服务为探索者铺路

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面,凭借技术领先性和丰富落地实践,成为区别传统AI集群的独特优势所在。

image.png

8月30日,阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为各类科研和智能企业机构提供高效、开放、绿色的智能计算服务。


其中,在AI开发层,阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面,凭借技术领先性和丰富落地实践,成为区别传统AI集群的独特优势所在。


本文基于阿里云智能AI产品总监黄博远在阿里云飞天智算平台发布会上《AI Power · 智能新前沿》的演讲梳理成文,将围绕大模型应用趋势、AI工程化、软硬件结合的智能计算应用案例等话题作详细介绍。

演讲嘉宾|黄博远

本文来源阿里云飞天智算平台发布会演讲


如今,人工智能(AI)在各行各业里得到非常多的应用,并且开始探索生物学、化学、物理学等基础科学的知识,一如此前AI学习理解图像、声音和语言。


AI依赖于计算,同时今天AI也反过来去提升传统意义上的科学计算的效率。无论是新药物研发、新材料生成、还是自动驾驶,我们相信都将迎来新的革命,这些都是十多年前认为遥不可及的。


两股新动力将人工智能应用推到新高度

我们认为有两股新动力将把人工智能的应用推向新的高度:具备泛化能力的预训练模型和数据中心级的智能算力。

image.png

1.  具备泛化能力的预训练模型

相信在座各位经常听到一些相关报道,比如“哪项AI能力超越了人类的认知水平”之类。其实这仅仅揭示了AI和预训练大模型能力的冰山一角。预训练大模型,尤其是多模态大模型,有三个核心优势。


它们具备非常好的“泛化能力”,因为训练过程使用到大量模态数据,因此具备通用性。与人类感受和认识世界的过程类似,今天在座的各位耳朵里听着我们演讲的内容,眼睛在看着屏幕,有时还会用手机或电脑查询相关资料,这个过程就是多模态认知理解的过程。一旦具备多模态的学习能力,模型认知水平就会变强,能在更多行业得到高效利用。


其次,从参与者视角来看,预训练大模型能大幅降低制造高质量模型的门槛。回想一下,从零开始制造一个生产级的大模型需要怎样的投入?海量数据采集、数据工程、神经网络、模型训练……整套流程走完,出来的模型效果可能并不好,还需要无数次调整。而今天预训练大模型给我们提供了一个巨人的肩膀。


大家可以站在这个巨人肩膀上,依托大模型,引入特定领域的“小数据”,就能获得一个具备领域知识且效果非常好的模型。这就好比,如果我们找一个数学家帮忙算账,他只需要了解基本的算账规则,很快就能算完。但如果找一个没学过数学的人来算,可能就遥遥无期了。


第三个特点,从整个产业的角度讲,基于大模型的AI研发范式是更加经济环保的。当我们集中力量训练出一系列大模型,让产业内的从业者基于大模型在自己的领域做更精细化的训练,这样一些通用的计算就不需要被反反复复执行,我们就能节省非常多资源。这就像热能厂出现以后,大家都不需要自己在家生炉子了,在家可以直接吹到暖气,如果温度不合适就自己控制阀门获得喜欢的温度。所以我们说,大模型的模式是面向未来的AI研发范式。


2.  数据中心级的智能算力


不仅仅是预训练大模型,当下很多人工智能模型的生成过程是非常复杂的。算力依然是决定AI能力上限的关键因素。数据中心级的智能算力,通过软硬一体的联合优化,能把我们从最底层硬件,到网络、系统、框架、再到最上边的算法,层层联合优化,形成极致的算力优化效果,使得计算速度得到接近百万倍的提升。可以说,超级的智能算力是人工智能越来越强大的基础设施,是推动各行各业走向智能化的驱动引擎。


如何让每个AI创新者拥有这些能力?

刚才介绍了两种驱动力,可是我们每一位开发者能够拥有这样的驱动力吗?其实横亘在开发者、创新者和刚才的两种驱动力之间的,还有很多的障碍。


首先是算力消耗。以我们耳熟能详的语言类大模型GPT-3为例,高达1750亿个参数,训练这样的模型消耗的资源,相当于开一辆汽车,从地球开到月球往返一次的能耗费用。这个例子还只计算了资源的部分,其实这辆“车”本身也造价不菲,大家都知道异构计算的底层硬件非常昂贵,一般的开发者创新者,很难用得起这样的资源。


人才和工具链也是挑战。在AI整个创新过程当中,人才也是非常非常重要的一种资源。在这个领域,我们既需要具备一定的领域知识,还要懂AI、还要懂数据技术,这类人才现在无疑是非常宝贵的。此外,我们曾经针对AI开发做过一个调研,如果完整走一遍AI研发端到端的流程,大概需要使用到多少工具或者产品?结果非常惊人,至少12种。可想而知,整个工作链有多复杂。


AI 工程化最佳实践:基于阿里云训练出全球最大预训练模型M6

刚才讲到达摩院的预训练大模型M6。其实M6的生产过程本身就是解决上述挑战的典型例子。M6的参数规模达到了10万亿,是全球最大的预训练模型。与传统AI模型相比,大模型拥有成百上千倍的神经原数量,经常表现出像人类一样的举一反三的学习能力。因此,大模型普遍被认为是未来的基础模型,会成为下一代AI基础设施。下面我们看看这个大模型到底怎么来的?

image.png

首先来看资源问题。M6基于阿里云高效的云原生机器学习平台PAI进行训练。PAI依托丰富的场景,包括服务阿里巴巴内部和阿里云上客户的诸多场景,锤炼了超大规模分布式训练的最佳实践,并通过PAI-EPL分布式训练框架对外提供训练加速能力。PAI-EPL框架具备丰富的分布式训练架构,包括数据并行,模型并行,流水并行等。最关键的,AI模型训练是一个反复迭代的计算过程,PAI-EPL框架可以在迭代过程当中,自动地帮助使用者寻找合适的并行方式,在不同阶段对症下药。这样能够带来接近线性的分布式加速能力,大幅降低超大规模模型的训练成本。

image.png

如果说训练是一次性的或者周期性的,那么推理可能每时每刻都在发生,当模型真正投入到日常应用中去,就离不开推理。PAI-Blade可以提供一站式通用推理优化工具。简单讲,它通过模型压缩算法,把模型变小再变小之后,模型的承载效率会变高。但是这个变小的过程,也非常有技术含量。模型在变小的过程中,效果不能变差,准确度不能有损耗。


此外我们结合阿里巴巴自研的AI编译器,自动针对目标环境去进行优化。目标环境可能是各种各样的异构硬件资源,AI编译器可以把整个效率推升到极致,底层支持CPU、GPU、以及含光、海光等硬件。作为通用的推理优化工具,除了性能上有提升,更关键的是易用性,我们希望通过PAI-Blade工具,能将优化过程对用户透明,尽量避免用户修改模型代码,提升便利性。


大数据AI一体化平台:支撑AI研发全生命周期

这里我们解决了机器资源的问题、训练性能和推理性能问题,下一个问题是如何提升数据科学家的工作效率。阿里云建立了大数据AI一体化平台,一站式支撑整个AI研发的生命周期。


今天,随着AI技术的增强,AI研发效率的问题变得越来越复杂和严峻。放在很多年前,我们用AI解决哪些问题?最典型的就是文字识别,解决这类问题只涉及几种数据,一堆照片、拍下来的手写文字、以及两者间的对应关系,齐了。可以说在那个时代,大家很难感受到对大数据+AI一体化的平台的需求。现在呢,我们在用AI解决智能搜索、智能推荐、自动驾驶、科学计算、智能交互等等问题,而这些场景需要这样哪些数据呢?需要把数据仓库当中代表着认知智能的结构化数据和数据湖里边代表着这些感知智能的(例如视觉、语音等等)数据,两类数据综合在一起使用,才能解决最终的业务问题,整个过程十分复杂。

image.png

我们通过阿里灵杰大数据AI平台,支撑了从数据标注、数据开发、到模型设计、训练、推理、部署整套的工作流。AI研发本身是一个持续迭代的过程,所以用户还需要对效果进行监控,一旦发现效果不理想,还要回来重新再训练这个模型。这一整套流程都可以用阿里灵杰大数据AI一体化平台解决,最大程度降低了从开发到生产,到运维的复杂度和成本。


链接庞大的AI开放生态,持续创造价值

在强大的PaaS平台的有力支撑下,阿里云构建了丰富的AI开放生态。基于我们最基础的语音、视觉、NLP等基础技术,提供了上百种SaaS化AI服务,这些服务非常简单易用。我们在云上的AI服务,每天调用次数超过一万亿次,我们为广大用户提供了稳定和可靠的AI服务体系。


此外,阿里云整体服务了超过100万AI开发者。AI开发者可以在我们的平台上获得开箱即用的技术服务、最佳实践和学习资源。


最后,阿里云作为中国云计算的领导者,我们深入到各行各业,积累了大量的客户以及应用需求,为我们的开放生态中的所有参与者,提供了最直接的业务支持,形成了生态与企业需求之间的良性互动。


AI for Science 是近期非常火的领域,而 AI和智能计算在生物医药等领域正在发挥它的作用,而且有非常喜人的成果。深势科技通过多尺度建模结合机器学习的创新方法,在确保模拟精度的同时,引入深度学习算法处理大规模数据计算问题。


在这个过程中阿里云通过PAI平台自研AI编译器利用协同优化、编排优化等手段,将深势的机器学习训练效率提升5倍以上,帮助加速了新材料和新药物研发的进程。

image.png

我们将持续通过全栈AI服务、高效的机器学习平台、以及门槛更低更易用的模型服务,助力广大开发者。驱动AI理想落进现实,为创新者加速,为开拓者铺路。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
108 63
|
19天前
|
存储 XML 人工智能
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
基于OCR技术的纸质档案电子化方案,通过先进的AI能力平台,实现手写、打印、复古文档等多格式高效识别与智能归档。该方案大幅提升了档案管理效率,确保数据安全与隐私,为档案馆提供全面、智能化的电子化管理解决方案。
128 48
|
12天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
12天前
|
机器学习/深度学习 人工智能 安全
AI与旅游业:旅行规划的智能助手
在数字化浪潮中,人工智能(AI)正重塑旅游业。本文探讨了AI如何通过个性化推荐、智能预测与预警、语音交互与虚拟助手、增强现实体验及可持续发展,提升旅行规划的效率、安全性和趣味性,推动旅游业创新与变革。
|
14天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
15天前
|
人工智能 安全 搜索推荐
AI与能源管理:智能电网的未来
本文探讨了AI与智能电网的融合及其对能源管理的深远影响。智能电网利用先进的信息、通信和AI技术,实现电力的自主、智能化、高效管理。AI在精准预测电力需求、实时监测与故障诊断、智能能源调度、个性化能源服务和优化可再生能源利用等方面发挥关键作用,推动能源管理的高效、智能和可持续发展。
|
16天前
|
机器学习/深度学习 人工智能 自然语言处理
AI与法律行业:智能法律咨询
在科技飞速发展的今天,人工智能(AI)正逐渐渗透到法律行业,特别是在智能法律咨询领域。本文探讨了AI在智能法律咨询中的应用现状、优势及挑战,并展望了其未来发展前景。AI技术通过大数据、自然语言处理等手段,提供高效、便捷、低成本且个性化的法律服务,但同时也面临数据隐私、法律伦理等问题。未来,AI将在技术升级、政策推动和融合创新中,为用户提供更加优质、便捷的法律服务。
|
18天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在金融领域的应用:智能投资顾问
【10月更文挑战第31天】随着AI技术的快速发展,智能投资顾问在金融领域的应用越来越广泛。本文介绍了智能投资顾问的定义、工作原理、优势及未来发展趋势,探讨了其在个人财富管理、养老金管理、机构风险管理及量化交易中的典型应用,并分析了面临的挑战与机遇。智能投资顾问以其高效、低成本、个性化和全天候服务的特点,正逐步改变传统投资管理方式。
|
7天前
|
机器学习/深度学习 人工智能 运维
电话机器人源码-智能ai系统-freeswitch-smartivr呼叫中心-crm
电话机器人源码-智能ai系统-freeswitch-smartivr呼叫中心-crm
26 0
|
21天前
|
人工智能 Kubernetes 云计算
第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!
2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。

热门文章

最新文章

下一篇
无影云桌面