阿里灵杰融合智能算力,全栈AI服务为探索者铺路

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面,凭借技术领先性和丰富落地实践,成为区别传统AI集群的独特优势所在。

image.png

8月30日,阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为各类科研和智能企业机构提供高效、开放、绿色的智能计算服务。


其中,在AI开发层,阿里灵杰大数据AI一体化平台提供全流程的开发和运维服务。尤其在模型训练和推理性能、大数据与AI工程能力方面,凭借技术领先性和丰富落地实践,成为区别传统AI集群的独特优势所在。


本文基于阿里云智能AI产品总监黄博远在阿里云飞天智算平台发布会上《AI Power · 智能新前沿》的演讲梳理成文,将围绕大模型应用趋势、AI工程化、软硬件结合的智能计算应用案例等话题作详细介绍。

演讲嘉宾|黄博远

本文来源阿里云飞天智算平台发布会演讲


如今,人工智能(AI)在各行各业里得到非常多的应用,并且开始探索生物学、化学、物理学等基础科学的知识,一如此前AI学习理解图像、声音和语言。


AI依赖于计算,同时今天AI也反过来去提升传统意义上的科学计算的效率。无论是新药物研发、新材料生成、还是自动驾驶,我们相信都将迎来新的革命,这些都是十多年前认为遥不可及的。


两股新动力将人工智能应用推到新高度

我们认为有两股新动力将把人工智能的应用推向新的高度:具备泛化能力的预训练模型和数据中心级的智能算力。

image.png

1.  具备泛化能力的预训练模型

相信在座各位经常听到一些相关报道,比如“哪项AI能力超越了人类的认知水平”之类。其实这仅仅揭示了AI和预训练大模型能力的冰山一角。预训练大模型,尤其是多模态大模型,有三个核心优势。


它们具备非常好的“泛化能力”,因为训练过程使用到大量模态数据,因此具备通用性。与人类感受和认识世界的过程类似,今天在座的各位耳朵里听着我们演讲的内容,眼睛在看着屏幕,有时还会用手机或电脑查询相关资料,这个过程就是多模态认知理解的过程。一旦具备多模态的学习能力,模型认知水平就会变强,能在更多行业得到高效利用。


其次,从参与者视角来看,预训练大模型能大幅降低制造高质量模型的门槛。回想一下,从零开始制造一个生产级的大模型需要怎样的投入?海量数据采集、数据工程、神经网络、模型训练……整套流程走完,出来的模型效果可能并不好,还需要无数次调整。而今天预训练大模型给我们提供了一个巨人的肩膀。


大家可以站在这个巨人肩膀上,依托大模型,引入特定领域的“小数据”,就能获得一个具备领域知识且效果非常好的模型。这就好比,如果我们找一个数学家帮忙算账,他只需要了解基本的算账规则,很快就能算完。但如果找一个没学过数学的人来算,可能就遥遥无期了。


第三个特点,从整个产业的角度讲,基于大模型的AI研发范式是更加经济环保的。当我们集中力量训练出一系列大模型,让产业内的从业者基于大模型在自己的领域做更精细化的训练,这样一些通用的计算就不需要被反反复复执行,我们就能节省非常多资源。这就像热能厂出现以后,大家都不需要自己在家生炉子了,在家可以直接吹到暖气,如果温度不合适就自己控制阀门获得喜欢的温度。所以我们说,大模型的模式是面向未来的AI研发范式。


2.  数据中心级的智能算力


不仅仅是预训练大模型,当下很多人工智能模型的生成过程是非常复杂的。算力依然是决定AI能力上限的关键因素。数据中心级的智能算力,通过软硬一体的联合优化,能把我们从最底层硬件,到网络、系统、框架、再到最上边的算法,层层联合优化,形成极致的算力优化效果,使得计算速度得到接近百万倍的提升。可以说,超级的智能算力是人工智能越来越强大的基础设施,是推动各行各业走向智能化的驱动引擎。


如何让每个AI创新者拥有这些能力?

刚才介绍了两种驱动力,可是我们每一位开发者能够拥有这样的驱动力吗?其实横亘在开发者、创新者和刚才的两种驱动力之间的,还有很多的障碍。


首先是算力消耗。以我们耳熟能详的语言类大模型GPT-3为例,高达1750亿个参数,训练这样的模型消耗的资源,相当于开一辆汽车,从地球开到月球往返一次的能耗费用。这个例子还只计算了资源的部分,其实这辆“车”本身也造价不菲,大家都知道异构计算的底层硬件非常昂贵,一般的开发者创新者,很难用得起这样的资源。


人才和工具链也是挑战。在AI整个创新过程当中,人才也是非常非常重要的一种资源。在这个领域,我们既需要具备一定的领域知识,还要懂AI、还要懂数据技术,这类人才现在无疑是非常宝贵的。此外,我们曾经针对AI开发做过一个调研,如果完整走一遍AI研发端到端的流程,大概需要使用到多少工具或者产品?结果非常惊人,至少12种。可想而知,整个工作链有多复杂。


AI 工程化最佳实践:基于阿里云训练出全球最大预训练模型M6

刚才讲到达摩院的预训练大模型M6。其实M6的生产过程本身就是解决上述挑战的典型例子。M6的参数规模达到了10万亿,是全球最大的预训练模型。与传统AI模型相比,大模型拥有成百上千倍的神经原数量,经常表现出像人类一样的举一反三的学习能力。因此,大模型普遍被认为是未来的基础模型,会成为下一代AI基础设施。下面我们看看这个大模型到底怎么来的?

image.png

首先来看资源问题。M6基于阿里云高效的云原生机器学习平台PAI进行训练。PAI依托丰富的场景,包括服务阿里巴巴内部和阿里云上客户的诸多场景,锤炼了超大规模分布式训练的最佳实践,并通过PAI-EPL分布式训练框架对外提供训练加速能力。PAI-EPL框架具备丰富的分布式训练架构,包括数据并行,模型并行,流水并行等。最关键的,AI模型训练是一个反复迭代的计算过程,PAI-EPL框架可以在迭代过程当中,自动地帮助使用者寻找合适的并行方式,在不同阶段对症下药。这样能够带来接近线性的分布式加速能力,大幅降低超大规模模型的训练成本。

image.png

如果说训练是一次性的或者周期性的,那么推理可能每时每刻都在发生,当模型真正投入到日常应用中去,就离不开推理。PAI-Blade可以提供一站式通用推理优化工具。简单讲,它通过模型压缩算法,把模型变小再变小之后,模型的承载效率会变高。但是这个变小的过程,也非常有技术含量。模型在变小的过程中,效果不能变差,准确度不能有损耗。


此外我们结合阿里巴巴自研的AI编译器,自动针对目标环境去进行优化。目标环境可能是各种各样的异构硬件资源,AI编译器可以把整个效率推升到极致,底层支持CPU、GPU、以及含光、海光等硬件。作为通用的推理优化工具,除了性能上有提升,更关键的是易用性,我们希望通过PAI-Blade工具,能将优化过程对用户透明,尽量避免用户修改模型代码,提升便利性。


大数据AI一体化平台:支撑AI研发全生命周期

这里我们解决了机器资源的问题、训练性能和推理性能问题,下一个问题是如何提升数据科学家的工作效率。阿里云建立了大数据AI一体化平台,一站式支撑整个AI研发的生命周期。


今天,随着AI技术的增强,AI研发效率的问题变得越来越复杂和严峻。放在很多年前,我们用AI解决哪些问题?最典型的就是文字识别,解决这类问题只涉及几种数据,一堆照片、拍下来的手写文字、以及两者间的对应关系,齐了。可以说在那个时代,大家很难感受到对大数据+AI一体化的平台的需求。现在呢,我们在用AI解决智能搜索、智能推荐、自动驾驶、科学计算、智能交互等等问题,而这些场景需要这样哪些数据呢?需要把数据仓库当中代表着认知智能的结构化数据和数据湖里边代表着这些感知智能的(例如视觉、语音等等)数据,两类数据综合在一起使用,才能解决最终的业务问题,整个过程十分复杂。

image.png

我们通过阿里灵杰大数据AI平台,支撑了从数据标注、数据开发、到模型设计、训练、推理、部署整套的工作流。AI研发本身是一个持续迭代的过程,所以用户还需要对效果进行监控,一旦发现效果不理想,还要回来重新再训练这个模型。这一整套流程都可以用阿里灵杰大数据AI一体化平台解决,最大程度降低了从开发到生产,到运维的复杂度和成本。


链接庞大的AI开放生态,持续创造价值

在强大的PaaS平台的有力支撑下,阿里云构建了丰富的AI开放生态。基于我们最基础的语音、视觉、NLP等基础技术,提供了上百种SaaS化AI服务,这些服务非常简单易用。我们在云上的AI服务,每天调用次数超过一万亿次,我们为广大用户提供了稳定和可靠的AI服务体系。


此外,阿里云整体服务了超过100万AI开发者。AI开发者可以在我们的平台上获得开箱即用的技术服务、最佳实践和学习资源。


最后,阿里云作为中国云计算的领导者,我们深入到各行各业,积累了大量的客户以及应用需求,为我们的开放生态中的所有参与者,提供了最直接的业务支持,形成了生态与企业需求之间的良性互动。


AI for Science 是近期非常火的领域,而 AI和智能计算在生物医药等领域正在发挥它的作用,而且有非常喜人的成果。深势科技通过多尺度建模结合机器学习的创新方法,在确保模拟精度的同时,引入深度学习算法处理大规模数据计算问题。


在这个过程中阿里云通过PAI平台自研AI编译器利用协同优化、编排优化等手段,将深势的机器学习训练效率提升5倍以上,帮助加速了新材料和新药物研发的进程。

image.png

我们将持续通过全栈AI服务、高效的机器学习平台、以及门槛更低更易用的模型服务,助力广大开发者。驱动AI理想落进现实,为创新者加速,为开拓者铺路。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
9天前
|
机器学习/深度学习 人工智能 搜索推荐
AI与未来医疗:革命性的技术融合
本文探讨了人工智能(AI)在未来医疗领域的应用及其潜在影响。通过分析当前的技术进步和具体案例,如AI辅助诊断、个性化治疗方案及医疗机器人等,展示了AI如何提高医疗服务的效率和准确性,降低医疗成本,并增强患者的治疗体验。同时,文章也讨论了AI在医疗中面临的伦理和隐私问题,以及解决这些问题的可能途径。最后,本文对AI在未来医疗中的前景进行了展望,指出其将继续深刻改变医疗保健行业,为患者和医疗专业人员带来更多福祉。
|
11天前
|
人工智能 运维 监控
首个云上 AI 原生全栈可观测平台来了!
9月21日,2024 云栖大会,阿里云发布全新的 AI 原生全栈可观测平台,首次实现云上 AI 大模型从训练到推理再到应用的全链路实时观测、告警与诊断。
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
构建智能化编程环境:AI 与代码编辑器的融合
在人工智能的推动下,未来的代码编辑器将转变为智能化编程环境,具备智能代码补全、自动化错误检测与修复、个性化学习支持及自动化代码审查等功能。本文探讨了其核心功能、技术实现(包括机器学习、自然语言处理、深度学习及知识图谱)及应用场景,如辅助新手开发者、提升高级开发者效率和优化团队协作。随着AI技术进步,智能化编程环境将成为软件开发的重要趋势,变革开发者工作方式,提升效率,降低编程门槛,并推动行业创新。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的未来:AI与机器学习的融合
【9月更文挑战第29天】在软件测试领域,自动化测试一直是提高测试效率和质量的关键。随着人工智能(AI)和机器学习(ML)技术的飞速发展,它们正逐步渗透到自动化测试中,预示着一场测试革命的来临。本文将探讨AI和ML如何重塑自动化测试的未来,通过具体案例展示这些技术如何优化测试流程,提高测试覆盖率和准确性,以及它们对测试工程师角色的影响。
20 7
|
15天前
|
存储 人工智能 算法
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
阿里云AI基础设施升级亮相,模型算力利用率提升超20%
111 18
|
12天前
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
|
6天前
|
机器学习/深度学习 人工智能 数据挖掘
探索自动化测试的未来:AI与机器学习的融合
【9月更文挑战第29天】在软件测试领域,自动化测试一直是提高效率和准确性的关键。但随着技术的发展,特别是人工智能(AI)和机器学习(ML)的兴起,我们见证了一个新时代的到来——自动化测试的未来正逐渐被重新定义。本文将探讨AI和ML如何改变自动化测试的面貌,从智能测试脚本的生成到测试结果的深度分析,我们将一探究竟这些前沿技术是如何使测试流程更加智能化、高效化,并预测它们将如何塑造软件测试的未来趋势。
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的未来:深度学习与自然语言处理的融合
【9月更文挑战第22天】本文旨在探讨AI技术中深度学习与自然语言处理的结合,以及它们如何共同推动未来技术的发展。我们将通过实例和代码示例,深入理解这两种技术如何相互作用,以及它们如何影响我们的生活和工作。
34 4
|
7天前
|
人工智能 算法 数据中心
从“纸面算力”到“好用算力”,超聚变打通AI+“最后一公里”
2024年,《政府工作报告》首提“AI+”行动,推动人工智能成为新质生产力引擎。市场层面,AI+正深刻变革金融、医疗、制造等行业,但AI算力瓶颈依然存在。在2024年中国算力大会上,超聚变等企业探讨了算力的绿色化和效能提升。超聚变推出的FusionPoD for AI全液冷服务器,显著降低能耗并提升算力效能,其FusionOne AI解决方案也加速了AI在各行业的落地。这些创新将重塑算力格局,推动智能革命。
|
8天前
|
人工智能 前端开发 Java
Spring Cloud Alibaba AI,阿里AI这不得玩一下
🏀闪亮主角: 大家好,我是JavaDog程序狗。今天分享Spring Cloud Alibaba AI,基于Spring AI并提供阿里云通义大模型的Java AI应用。本狗用SpringBoot+uniapp+uview2对接Spring Cloud Alibaba AI,带你打造聊天小AI。 📘故事背景: 🎁获取源码: 关注公众号“JavaDog程序狗”,发送“alibaba-ai”即可获取源码。 🎯主要目标:
17 0
下一篇
无影云桌面