阿里云新一代智能计算:灵骏来了!

简介: 灵骏,阿里云新一代智能计算!

首图-图标.png


【阅读原文】戳:阿里云新一代智能计算:灵骏来了!


「阿里云宣布正式推出

端到端智能计算解决方案“飞天智算平台”

启动张北、乌兰察布两座超级智算中心

为科研机构、科技企业提供智能计算服务

强大算力让AI更具想象力


在今天下午的飞天智算平台发布会上,阿里云新一代智能计算产品——灵骏」正式亮相!具备公共云、专有云等多种产品形态,可为人工智能等应用提供高效的绿色算力。


20220830153041-YWX_5242-308443828-opq308452567.png


人工智能是一个算力饥饿的领域,AI算力需求每3.5个月翻一倍,过去六年AI算力需求已增长了30万倍,面对这种爆发式的算力需求,简单粗暴的硬件堆砌不可持续,在这之上我们需要更加高效、更加绿色的智能算力。

—— 阿里云灵骏智能计算产品研发负责人曹政



灵骏:阿里云新一代智能计算产品

图片1.png

1 产品名称灵骏。寓意:智能算力如骏马奔腾,为科技创新和产业升级带来澎湃算力加速度。


2 产品特性:一云多芯,提供融合算力池,能进行超大规模融合算力调度,绿色低碳。


 一云多芯:支持国产化CPU/GPU芯片,通过自研“共中心架构”,解决多芯融合及跨代兼容问题。


 融合算力池:基于云原生技术体系,实现异构算力资源池化(eGPU),使资源利用率提升3倍,最小化数据搬迁成本,加速AI研发过程;多元化算力支持混合负载,满足人工智能等多领域应用混合部署。


 深度性能优化:建立万卡级计算系统的通信与调度能力,通过RDMA与自研系统软件(C4、KSpeed),大规模场景性能可提升2-5倍。


自研RDMA高速网络架构,将时延显著降低90%;自研通信库(C4),结合自研硬件,对超大规模AI计算系统提供无拥塞、高性能的通信环境;针对数据密集型场景,通过自研系统软件KSpeed,最高可将系统IO性能提升10倍。


 绿色低碳:支持自研单相浸没液冷技术,PUE最低可至1.09,能耗最高可降低50%。


3 应用场景:已在自动驾驶、医疗制药、科研智能等领域得到广泛应用,为人工智能技术在各行各业的探索到落地,提供坚实支撑。


20220830152519-WYQ_4165-308444267-opq308449069.jpg



01应用驱动 因云而生


2014年,淘宝商品图搜系统上线,只需一张照片,消费者就能搜到精准的商品,这种AI驱动的能力,带来了文字搜索无法企及的消费体验,很快就达到千万级的日均用户使用量,成为了世界上最大的图搜商品系统。以当时的计算架构,商品图搜系统的核心模型进行一次全量学习需要2.5个月左右,对快速发展的在线业务而言,计算效率从一个技术问题已然变成了一个客观存在的业务瓶颈,随之而来的是大数据、AI技术应用如雨后春笋般百花齐放。


为了充分释放业务的想象力,2018年,阿里云正式启动“灵骏”产品研发,旨在通过系统架构、计算框架和业务算法的全面创新,端到端提升计算效率,淘宝作为世界最大的商品图搜系统,成为“灵骏”应用实践的不二之选。


为了优化计算效率,阿里云的工程师们对AI类应用运行过程进行深入测试,对每一个线程、每一步操作进行解构,从而定位不同层次的效率瓶颈。通过分析发现以AI、大数据为代表的应用具备高密度、超大数据量的负载特征,并且各自有不同的通信模型,为这样的场景提供最匹配的计算资源,面临着规模、效率、资源利用率等三大挑战。



02探索突破 砥砺前行


从计算负载看,AI不仅需要逻辑算力(CPU),浮点算力(GPU)也同等重要;同时AI应用涉及到大量的统计运算,计算卡之间需要高频次、高密度的数据交换,对系统通信和I/O性能要求极高,确保更多的计算卡保持高效的数据交换,是第一个技术攻关点,这将直接影响算力规模和计算效率。同时,作为普惠技术,云计算对资源利用率有天然的高要求,基于云原生的技术导向,面向各种架构的物理节点进行资源共享技术开发,则成为另一个技术攻关点。


2018年,“灵骏”开发出第一代产品,助力淘宝商品图搜系统全量学习时间从之前的2.5个月降至8小时;2019年,第二代产品上线,资源共享技术方案把一个个孤岛资源变成可支持时空序列调度的资源池,在不增加硬件支出的情况下,支撑更大体量的业务。同年云栖大会上,阿里巴巴晒出AI业务规模:服务全球10亿人,日均处理超过10亿张图片,5000亿句自然语言。2021年,达摩院发布业界最大预训练模型M6,模型参数达到10万亿。


阿里云深入到应用的计算负载特征,通过“灵骏”和机器学习平台PAI在云上为多元化的新型计算场景定义智能算力,过程中充分发挥软硬一体技术优势,突破纯软件优化的局限,实现计算平台到物理节点端到端性能优化,从而将计算效率提升到全新的水平,代表着新一代智能计算技术的发展方向。



03智算时代 算力激发经济动能


数字经济时代,AI应用不再局限于扫脸核身,同时在多领域飞速渗透,而普惠的智能算力也正成为科技发展和产业创新的新型助推器!


AI让科学更智能

AI正成为科研助手。科学家们已通过AI完成2.14亿蛋白质结构预测,覆盖了近百万物种,蛋白质是生命功能的基本单位,其结构与功能紧密相关。蛋白质结构的研究将为健康、医疗等领域带来丰富的产业收益。而通过AI加速的分子动力学模拟、仿真等技术,让技术和研发人员具备通过算力还原不同物理/化学过程的能力,正为生物制药、电池技术、材料技术等领域带来颠覆性的效率提升。


阿里云具备丰富的AI平台和产品矩阵,在提供全生命周期开发服务的同时,通过平台聚合开发者和技术生态,推动跨学科、跨领域充分合作,激发创新活力。


AI让产业更智能

通过AI生成内容的技术飞速发展,AI数字人、智能场景生成等应用成为元宇宙领域的核心技术,有机会催生新一代的科技产业浪潮;以达摩院M6为代表的AI设计师已将服务落地,输入文字就能设计新款的连衣裙,在纺织、服装等场景带来巨大的想象力。


阿里云拥有丰富的产业互联网实践经验,通过云服务和前沿的AI技术对产业形成效率牵引,结合云原生的技术生态,加速经济效率,助力高质量发展。


算力,AI核心竞争力

前沿的AI技术,对算力的需求每3.5个月翻一倍,远超摩尔定律(处理器的性能大约每两年翻一倍),“灵骏”通过软硬一体优化带来的性能和拓展性的跨越式升级,得以轻松应对算力增长的挑战,并且通过云原生的方式支持各类高性能计算生态,通过统一的计算服务和AI平台,构建科技+产业协同发展的实践高地。8月2日,阿里云和小鹏汽车在乌兰察布合作建成中国最大自动驾驶智算中心“扶摇”,600PFLOPS算力规模使模型训练提速170倍,有望将完全自动驾驶的规模化落地进程往前推进5年。


推荐阅读:和小鹏一起,建中国最大自动驾驶智算中心!



04全速奔赴 算力未来


今天,数据已成为经济发展的重要生产资料,算力则担当了数字经济发展的“生产力”,人工智能与实体经济紧密融合,推动了产业智能化的趋势。阿里云新一代智能计算产品灵骏应时而生,独特的技术优势,不同行业丰富的应用场景,结合阿里云在大数据、AI等领域丰富的产品和平台服务,将撬动新型产业的发展势能,为高质量发展提供算力加速器!


点击此处,了解更多“灵骏”产品



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32714 80
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17766 21
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36697 21
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24772 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36678 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29850 52

热门文章

最新文章

下一篇
开通oss服务