阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾

简介: 阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家,和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第 9 代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。

2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家,和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第 9 代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。

以下内容为专场精华部分:

图:阿里云弹性计算产品线、存储产品线产品负责人 Alex Chen(陈起鲲)

全新产品家族发布

普惠计算服务,助力企业创新

阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)在演讲中介绍了阿里云弹性计算全新发布的产品家族,包括通用计算、加速计算、容器计算3种算力形态,同时介绍了包括面向开发者和小微企业的入门级实例、企业级通用实例、存储优化实例、HPC优化实例等。



Alex Chen在演讲中提到,阿里云弹性计算已经帮助超500万客户成功实现上云。面对各行业不同应用场景及算力需求,阿里云弹性计算通过强大的性能和灵活性,推动各行业的数字化转型。为包括微博、好未来、莉莉丝、易点天下、小红书、东方物探、望石智慧、元戎启行、巴黎奥运会、月之暗面、海艺AI等客户解决实际业务问题,应用场景覆盖视频直播、游戏研发、广告投放、石油勘探、药物研发、自动驾驶、人工智能等。在不断提升自身产品力的同时,阿里云弹性计算也持续优化客户体验,致力于让客户用云更简单。


图:阿里云弹性计算高级产品专家 姬少晨

系列产品发布升级

性能、稳定性、用户体验持续优化


阿里云弹性计算高级产品专家姬少晨发布了阿里云弹性计算第9代企业级实例(g9i & g9a)。



本次发布的九代实例(g9i)搭载了英特尔®至强® 6 处理器 P-Core,是Intel即将发布的全新一代企业级处理器,算力进一步提升。内存由8通道升级至12通道,内存频率也从5600MT/s升级至6400MT/s,整机内存带宽相比上一代提升70%,L3缓存提升50%,大幅提升数据吞吐场景性能。在IO能力上,网络连接数提升2倍,eRDMA延时降低到8微秒,整机IOPS提升20%。



而基于AMD处理器的第 9 代 ECS 实例,在阿里云ECS上已经演进了三代,每一次的迭代演进,都带来了巨大的性价比提升。最新发布的g9a实例产品,将会搭载阿里云最新CIPU架构和AMD最新Turin平台处理器,从IO吞吐到算力性能全面提升。


相比第8代AMD g8a实例,g9a 的算力性能提升20%以上,网络与存储带宽提升50%,内存带宽提升35%。在搜推广场景中,分布式训练性能预计提升30%,大数据性能提升20%,通用的企业级应用,例如查服性能提升20%。


如果说g9i专注在性能、安全、稳定等关键技术维度,那g9a则持续将性价比作为关键优势,并重点面向搜推广、大数据等业务场景。姬少晨表示:阿里云也将不断深耕技术、持续进行产品创新,在高速发展的AI时代,为客户提供更加稳定、强大、安全、弹性的计算服务。


图:阿里云弹性计算资深技术专家 杨航

阿里云弹性计算资深技术专家杨航对CIPU 2.0做了深度的技术解读,他提到CIPU 2.0聚焦“弹性、安全、稳定、性能、成本”这五个云计算核心业务价值,是真正地"应云而生"。


  • 弹性:ECS虚拟机和PaaS安全容器计算资源并池
  • 安全:CIPU 全方位构建 data in use,data in motion 和 data at rest ,保障数据全生命周期安全底线
  • 稳定:CIPU 针对数据 E2E RAS 以及云数据平面可运维提供关键能力支撑
  • 成本:CPU 每HT成本、IO虚拟化成本、CIPU 架构相对于 KVM 架构下降约10%



杨航也分享了CIPU 2.0如何进一步提升ECS的稳定、安全和性能竞争力:

  • CIPU 2.0显著降低了芯片失效率,使得ECS数据平面稳定性提升20%
  • CIPU 2.0全方位提升了云上数据全生命周期安全水位,通过统一TPM可信根增强、VPC E2E加密、EBS E2E加密等技术,实现data in use, data at rest, data in motion,保障数据全生命周期安全
  • CIPU 2.0基础带宽提升2倍至400Gbps,VPC网络性能由4000W pps升级至6000W pps,弹性RDMA也由3000W message/s升级至5000W message/s,使得ECS的存储和网络性能方面显著提升
  • CIPU 2.0 进一步聚焦数据密集型业务需求,DFS和CPFS的读+写达到800Gbps能力,满足大数据和AI等数据密集型业务对于云上分布式数据存储高性能业务需求;弹性RDMA的RX+TX 800Gbps能力,使得在跨psw/dsw等更大规模组网条件下,根本上解决物理交换机ECMP hash极化导致的带宽利用率低下问题,物理网络带宽利用率达到98%


图:阿里云弹性高性能计算(E-HPC)产品负责人 黄泽辉


阿里云弹性高性能计算(E-HPC)产品负责人黄泽辉介绍了E-HPC产品如何基于云计算的技术和规模优势,以弹性按需的基础设施,重新定义传统的“超级计算机”,实现从集群到计算服务的模式转变,帮助客户敏捷、灵活、普惠地使用HPC,加速科学研究和业务创新活动。



黄泽辉发布了专为 HPC 应用设计优化的实例产品 hpc8ae 和 hpc8i,以及E-HPC 托管版集群、E-HPC Instant 计算服务等最新集群产品和功能特性。



针对内存带宽优化的hpc8ae,能够针对流体动力学(CFD)、有限元等应用进行优化。hpc8ae采用了第四代 AMD EPYC处理器,最高3.75GHz主频,500GB/s内存带宽。而面向计算和网络维度优化的最新hpc8i实例,则是针对计算密集的应用,如隐式有限元分析、分子动力学和计算化学等场景进行优化。hpc8i实例采用最新的Intel Xeon (Emerald Rapids)处理器,全核睿频3.6Ghz,支持Intel丰富的软件工具生态系统,如Intel数学库和高级矢量扩展(AVX-512)。



对比传统线下 HPC 环境,阿里云E-HPC有着高性价比、灵活敏捷、可扩展至超大规模、按需弹性资源调用等优势,能够满足客户对HPC应用的多样化需求。


图:阿里云弹性计算高级技术专家 贺荣徽


阿里云弹性计算高级技术专家贺荣徽分享了如何通过技术和架构创新,实现普惠高性能的云上HPC服务。重点介绍了E-HPC在性能、成本和规模上的技术创新及不同场景下的端到端解决方案。



贺荣徽介绍了E-HPC产品设计的三个层面:最底层资源层,包括计算、存储、调度管理资源。三者整体组成一套集群网络,包括通用VPC网络和高性能eRDMA网络;中间服务层,基于HPC应用特点提供集群资源管理、应用管理等一系列服务化功能;最上层则根据业务特点提供了给IT运维角色使用的控制台、前后可视化处理的HPC portal、给第三方开发者使用的open API。


图:北京望石智慧科技有限公司首席架构师 王晓满

北京望石智慧科技有限公司首席架构师王晓满也受邀来到现场,该公司成立于2018年,是一家致力于用人工智能驱动新药研发的科技公司。王晓满分享了新药研发场景中的算力需求痛点:每一步任务需要调度的资源压力与成本巨大,调度方式还需瞬时且智能化。


为解决以上问题,望石智慧采用阿里云弹性高性能计算E-HPC产品的调度资源将实例拉开,自动启动算子,关联数仓表,快速完成整体数据流程。同时E-HPC可满足任意时刻高吞吐量的计算峰值需求,将计算成本降到原固定资源方案的 1/3,整个计算集群的管理成本只有原来的 10%,实现了新药研发效率和成本效益的双提升。


图:阿里云弹性计算产品专家 庞雄伟


阿里云弹性计算产品专家庞雄伟分享了倚天ECS实例在大数据、视频转码场景的最佳实践。



庞雄伟提到,倚天目前已支持数百款开源软件,助力数千客户业务上云并实现降本增效,商业化规模也已达数百万核。

在大数据场景中,倚天将Spark、Hive、Flink、Elasticsearch分别提升20%、20%、48%、30%。在视频场景下客户的直播、点播业务也有着80%的性价比提升。


图:阿里云弹性计算架构师 张先国


阿里云弹性计算架构师张先国则从技术Deep dive的角度,介绍了倚天的底层技术方案和倚天在AI、视频、大数据场景中的应用效果。并按照从易到难,介绍了三种部署倚天的方案和具体实现路径:

  • 方案一:倚天云产品,高性能,低成本,快速迁移。在数据库层面,RDS、PolarDB、ADB等产品已经有了倚天版的数据库,成本更低,性能更好
  • 方案二:采用ECS 扩展程序一键部署、性能加速。在创建实例时可选择倚天、勾选Linux操作系统,选择多个应用加速,系统会自动安装所有ARM版软件,性能提升10%-20%
  • 方案三:自带软件构建和适配ARM平台。客户如有自己的软件版本,则需从控制台创建倚天实例,选择阿里云linux 3 ARM版操作系统,推荐用自带操作系统的编译器,也可自行升级编辑


图:阿里云高级技术专家 王卓


阿里云编译器团队高级技术专家王卓介绍了倚天实例全栈场景优化效果、龙蜥社区发展现状、基础软件版本选择等内容。



他着重提到了龙蜥引进了ARM生态进行共建共创,还做到了软硬一体优化,符合行业开源治理合规诉求。Alibaba Cloud Linux 3目前也已经高度适配了倚天ECS,相对CentOS 9也有着显著的性能提升,还在分享中介绍了几项具体优化方法,比如内核中的64K大页,PGO优化,Alibaba Dragonwell中的对象头压缩特性,以及CoreBolt优化工具等。最后介绍了倚天性能优化镜像以及基于 ECS 扩展程序的开箱即用的优化方案,云上客户可以选择这些方案方便地获得性能收益。


牵头制定国内首个云超算国家标准

阿里云E-HPC 通过首批标准符合性测评

图:中国电子技术标准化研究院云计算标准负责人 陈行


专场还邀请到中国电子技术标准化研究院云计算标准负责人陈行莅临现场,发表题为《云超算与标准化》的主题演讲。陈行强调了云计算在“基础设施、融合应用、技术创新、国际合作”方面的重要意义,并指出云超算将是新一轮科技革命和产业变革的创新驱动力量。




陈行提到,在云超算快速发展的背景下,中国电子技术标准化研究院联合阿里云作为牵头单位,制定了”国内首个云超算国家标准“。标准明确了云超算服务涉及的基础资源、资源管理、运行调度等方面的技术要求,为云超算服务和产品的设计、实现、应用和选型提供了有效指导。阿里云弹性高性能计算(E-HPC)也成为首批通过云超算国家标准符合性测评的产品。

以上就是本次【通用计算专场:新品发布与行业实践】的精华内容,同时点击链接可回看本场session完整内容:https://yunqi.aliyun.com/2024/group?groupId=9456

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
26天前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
166 27
|
1月前
|
弹性计算 云栖大会
|
25天前
|
存储 人工智能 弹性计算
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
AI计算加速渗透、基础设施全面升级…云栖大会重磅发布全览
|
27天前
|
人工智能 自动驾驶 云栖大会
何小鹏驾驶“全球首款AI汽车”亮相云栖大会 深化与阿里云AI算力合作
小鹏汽车加速端到端自动驾驶落地 深化与阿里云AI算力合作
227 12
|
19天前
|
存储 监控 数据挖掘
飞轮科技携手观测云亮相云栖大会,全方位展示阿里云数据库 SelectDB 版核心优势
飞轮科技技术副总裁姜国强于「数据分析与洞察」专场分享[阿里云数据库 SelectDB 版在日志存储分析、实时报表生成、用户行为分析及 Lakehouse 场景应用方案
飞轮科技携手观测云亮相云栖大会,全方位展示阿里云数据库 SelectDB 版核心优势
|
28天前
|
云栖大会
|
1月前
|
弹性计算 大数据 云栖大会
请查收!2024云栖大会弹性计算邀请函
请查收!2024云栖大会弹性计算邀请函
请查收!2024云栖大会弹性计算邀请函
|
2月前
|
人工智能 云栖大会
|
5月前
|
人工智能 Cloud Native 关系型数据库
阿里云瑶池数据库训练营权益:2022-2023云栖大会主题资料开放下载!
阿里云瑶池数据库训练营权益:2022-2023云栖大会主题资料开放下载!
|
11月前
|
人工智能 自然语言处理 搜索推荐
2023云栖大会 | 阿里云发布通义千问2.0
今天,阿里云正式发布千亿级参数大模型通义千问2.0。在10个权威测评中,通义千问2.0多方面性能超过GPT-3.5,正在加速追赶GPT-4。 此外,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。 过去6个月,通义千问2.0在性能上取得巨大飞跃,相比4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。目前,通义千问的多方面性能已经超过GPT-3.5,加速追赶GPT-4。
2673 0
2023云栖大会 | 阿里云发布通义千问2.0