阿里云新一代智能计算:灵骏来了!

简介: 灵骏,阿里云新一代智能计算!

首图-图标.png


【阅读原文】戳:阿里云新一代智能计算:灵骏来了!


「阿里云宣布正式推出

端到端智能计算解决方案“飞天智算平台”

启动张北、乌兰察布两座超级智算中心

为科研机构、科技企业提供智能计算服务

强大算力让AI更具想象力


在今天下午的飞天智算平台发布会上,阿里云新一代智能计算产品——灵骏」正式亮相!具备公共云、专有云等多种产品形态,可为人工智能等应用提供高效的绿色算力。


20220830153041-YWX_5242-308443828-opq308452567.png


人工智能是一个算力饥饿的领域,AI算力需求每3.5个月翻一倍,过去六年AI算力需求已增长了30万倍,面对这种爆发式的算力需求,简单粗暴的硬件堆砌不可持续,在这之上我们需要更加高效、更加绿色的智能算力。

—— 阿里云灵骏智能计算产品研发负责人曹政



灵骏:阿里云新一代智能计算产品

图片1.png

1 产品名称灵骏。寓意:智能算力如骏马奔腾,为科技创新和产业升级带来澎湃算力加速度。


2 产品特性:一云多芯,提供融合算力池,能进行超大规模融合算力调度,绿色低碳。


 一云多芯:支持国产化CPU/GPU芯片,通过自研“共中心架构”,解决多芯融合及跨代兼容问题。


 融合算力池:基于云原生技术体系,实现异构算力资源池化(eGPU),使资源利用率提升3倍,最小化数据搬迁成本,加速AI研发过程;多元化算力支持混合负载,满足人工智能等多领域应用混合部署。


 深度性能优化:建立万卡级计算系统的通信与调度能力,通过RDMA与自研系统软件(C4、KSpeed),大规模场景性能可提升2-5倍。


自研RDMA高速网络架构,将时延显著降低90%;自研通信库(C4),结合自研硬件,对超大规模AI计算系统提供无拥塞、高性能的通信环境;针对数据密集型场景,通过自研系统软件KSpeed,最高可将系统IO性能提升10倍。


 绿色低碳:支持自研单相浸没液冷技术,PUE最低可至1.09,能耗最高可降低50%。


3 应用场景:已在自动驾驶、医疗制药、科研智能等领域得到广泛应用,为人工智能技术在各行各业的探索到落地,提供坚实支撑。


20220830152519-WYQ_4165-308444267-opq308449069.jpg



01应用驱动 因云而生


2014年,淘宝商品图搜系统上线,只需一张照片,消费者就能搜到精准的商品,这种AI驱动的能力,带来了文字搜索无法企及的消费体验,很快就达到千万级的日均用户使用量,成为了世界上最大的图搜商品系统。以当时的计算架构,商品图搜系统的核心模型进行一次全量学习需要2.5个月左右,对快速发展的在线业务而言,计算效率从一个技术问题已然变成了一个客观存在的业务瓶颈,随之而来的是大数据、AI技术应用如雨后春笋般百花齐放。


为了充分释放业务的想象力,2018年,阿里云正式启动“灵骏”产品研发,旨在通过系统架构、计算框架和业务算法的全面创新,端到端提升计算效率,淘宝作为世界最大的商品图搜系统,成为“灵骏”应用实践的不二之选。


为了优化计算效率,阿里云的工程师们对AI类应用运行过程进行深入测试,对每一个线程、每一步操作进行解构,从而定位不同层次的效率瓶颈。通过分析发现以AI、大数据为代表的应用具备高密度、超大数据量的负载特征,并且各自有不同的通信模型,为这样的场景提供最匹配的计算资源,面临着规模、效率、资源利用率等三大挑战。



02探索突破 砥砺前行


从计算负载看,AI不仅需要逻辑算力(CPU),浮点算力(GPU)也同等重要;同时AI应用涉及到大量的统计运算,计算卡之间需要高频次、高密度的数据交换,对系统通信和I/O性能要求极高,确保更多的计算卡保持高效的数据交换,是第一个技术攻关点,这将直接影响算力规模和计算效率。同时,作为普惠技术,云计算对资源利用率有天然的高要求,基于云原生的技术导向,面向各种架构的物理节点进行资源共享技术开发,则成为另一个技术攻关点。


2018年,“灵骏”开发出第一代产品,助力淘宝商品图搜系统全量学习时间从之前的2.5个月降至8小时;2019年,第二代产品上线,资源共享技术方案把一个个孤岛资源变成可支持时空序列调度的资源池,在不增加硬件支出的情况下,支撑更大体量的业务。同年云栖大会上,阿里巴巴晒出AI业务规模:服务全球10亿人,日均处理超过10亿张图片,5000亿句自然语言。2021年,达摩院发布业界最大预训练模型M6,模型参数达到10万亿。


阿里云深入到应用的计算负载特征,通过“灵骏”和机器学习平台PAI在云上为多元化的新型计算场景定义智能算力,过程中充分发挥软硬一体技术优势,突破纯软件优化的局限,实现计算平台到物理节点端到端性能优化,从而将计算效率提升到全新的水平,代表着新一代智能计算技术的发展方向。



03智算时代 算力激发经济动能


数字经济时代,AI应用不再局限于扫脸核身,同时在多领域飞速渗透,而普惠的智能算力也正成为科技发展和产业创新的新型助推器!


AI让科学更智能

AI正成为科研助手。科学家们已通过AI完成2.14亿蛋白质结构预测,覆盖了近百万物种,蛋白质是生命功能的基本单位,其结构与功能紧密相关。蛋白质结构的研究将为健康、医疗等领域带来丰富的产业收益。而通过AI加速的分子动力学模拟、仿真等技术,让技术和研发人员具备通过算力还原不同物理/化学过程的能力,正为生物制药、电池技术、材料技术等领域带来颠覆性的效率提升。


阿里云具备丰富的AI平台和产品矩阵,在提供全生命周期开发服务的同时,通过平台聚合开发者和技术生态,推动跨学科、跨领域充分合作,激发创新活力。


AI让产业更智能

通过AI生成内容的技术飞速发展,AI数字人、智能场景生成等应用成为元宇宙领域的核心技术,有机会催生新一代的科技产业浪潮;以达摩院M6为代表的AI设计师已将服务落地,输入文字就能设计新款的连衣裙,在纺织、服装等场景带来巨大的想象力。


阿里云拥有丰富的产业互联网实践经验,通过云服务和前沿的AI技术对产业形成效率牵引,结合云原生的技术生态,加速经济效率,助力高质量发展。


算力,AI核心竞争力

前沿的AI技术,对算力的需求每3.5个月翻一倍,远超摩尔定律(处理器的性能大约每两年翻一倍),“灵骏”通过软硬一体优化带来的性能和拓展性的跨越式升级,得以轻松应对算力增长的挑战,并且通过云原生的方式支持各类高性能计算生态,通过统一的计算服务和AI平台,构建科技+产业协同发展的实践高地。8月2日,阿里云和小鹏汽车在乌兰察布合作建成中国最大自动驾驶智算中心“扶摇”,600PFLOPS算力规模使模型训练提速170倍,有望将完全自动驾驶的规模化落地进程往前推进5年。


推荐阅读:和小鹏一起,建中国最大自动驾驶智算中心!



04全速奔赴 算力未来


今天,数据已成为经济发展的重要生产资料,算力则担当了数字经济发展的“生产力”,人工智能与实体经济紧密融合,推动了产业智能化的趋势。阿里云新一代智能计算产品灵骏应时而生,独特的技术优势,不同行业丰富的应用场景,结合阿里云在大数据、AI等领域丰富的产品和平台服务,将撬动新型产业的发展势能,为高质量发展提供算力加速器!


点击此处,了解更多“灵骏”产品



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 人工智能 运维
重磅发布!飞天智算平台+全球最大智算中心
阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为科研、公共服务和企业机构,提供强大的智能计算服务,可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。
9431 1
重磅发布!飞天智算平台+全球最大智算中心
|
8月前
|
人工智能 Cloud Native 安全
解读阿里云刚发布的《AI 原生应用架构白皮书》
阿里云在云栖大会重磅发布了《AI 原生应用架构白皮书》,该白皮书覆盖 AI 原生应用的 11 大关键要素,获得业界 15 位专家联名推荐,来自 40 多位一线工程师实践心得,全书合计超 20w 字,分为 11 章,全面、系统地解构 AI 原生应用架构,包含了 AI 原生应用的 11 大关键要素,模型、框架、提示词、RAG、记忆、工具、网关、运行时、可观测、评估和安全。本文整理自阿里云智能技术专家李艳林在云栖大会现场的解读。
2806 89
|
存储 人工智能 安全
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
|
存储 弹性计算 人工智能
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家,和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第 9 代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
|
存储 人工智能 弹性计算
对话阿里云吴结生:AI时代,云上高性能计算的创新发展
在阿里云智能集团副总裁,弹性计算产品线负责人、存储产品线负责人 吴结生看来,如今已经有很多行业应用了高性能计算,且高性能计算的负载正呈现出多样化发展的趋势,“当下,很多基础模型的预训练、自动驾驶、生命科学,以及工业制造、半导体芯片等行业和领域都应用了高性能计算。”吴结生指出。
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
存储 人工智能 缓存
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。
|
存储 安全 Cloud Native
阿里云支持米哈游新游《绝区零》全球开服!
阿里云支持米哈游新游《绝区零》全球开服!
4317 5
|
SQL 人工智能 自然语言处理
GPT- BI在中国一汽上线,大模型技术融入数智化转型
GPT- BI在中国一汽上线,大模型技术融入数智化转型
1740 1