在日前某业内最权威的云计算评估报告中,阿里云作为国内唯一连续三年都入选该报告的厂商,在各项评比中都获得了优异的成绩。在最硬核的部分,也就是计算、存储、网络、安全领域,阿里云得分分别创下了新高,IaaS能力综合得分全球最高,全面展示了阿里云IaaS层产品能力,以及其底层的硬件基础设施能力。
IaaS(Infrastructure as a Service,基础设施即服务)是指把IT基础设施作为一种服务通过网络对外提供。一般包括计算、存储、网络和安全等基础产品。在云服务普及的时代,IaaS几乎是云服务的基石。
随着云计算商业模式越来越趋于成熟,基于通用服务器的各种云计算产品服务越来越多地受到来自性能、效率以及成本的压力;主流的云计算厂商所拥有的服务器规模越来越大;云计算面向特定场景的产品服务也越来越丰富。以阿里云为例,整体线上部署的自研磐久服务器数量超百万台,以后每年新增的90%也将是面向各种业务场景高度定制化的磐久服务器。这些因素共同决定了云计算厂商需要更深层次的软硬件创新,需要向基础设施的极致创新和效率要红利。
2020年,阿里云提出“做深基础”,在数据中心、服务器、交换机等领域加大自研力度,基于云的特点来构建整套基础体系。在2020杭州云栖大会上,阿里云智能总裁张建锋表示:“过去十二年,阿里云打造了中国唯一自研的飞天云操作系统。今后,阿里云会坚持自研,继续“向下生长”,从飞天到倚天,打造以云为基础的软硬件技术体系。这将成为我们在数字时代具备全球竞争力的决定性因素。”
01技术突破
阿里云服务器研发一直坚持从芯片、部件到整机系统的持续研发与创新,包括今年云栖大会发布的最新一代面向云原生架构的磐久服务器家族、自研存储部件Aliflash、自研定制加速部件AliFPGA以及震旦异构计算加速平台,通过整体推动阿里云新一代云原生硬件架构落地和服务器新品研发,为阿里云产品构筑从芯片到基础软件系统的核心技术竞争力。在过去的一年中,磐久服务器作为阿里云核心底层技术之一,在“做深基础”的战略指引下,基于云的特点来构建整套基础体系,不断挖掘软硬件融合红利:
1.因云而生 全新视角看阿里云服务器硬件方升架构
2021年3月31日,方升架构峰会在京举行,方升架构作为阿里云新一代服务器硬件架构,具有模块化、软硬一体、云原生化、风液冷统一等特性,面向云计算时代打造开放式新一代基础设施。阿里云结合云计算丰富业务场景需求,推出一系列自研服务器产品、部件及解决方案,包括高性能计算全栈解决方案、高性能存储和大容量存储解决方案等,全面打造高能效的云原生数据中心新基建,满足大规模云原生场景的业务需求。
2.震旦异构计算加速平台每秒处理107万张图片!阿里云打破MLPerf推理性能测试纪录
2021年4月21日,MLCommons™发布MLPerf™1.0版推理性能测试结果。阿里云服务器研发团队基于震旦异构计算加速平台的软硬件全栈优化技术获得历史性突破!在MLPerf图像分类(Image Classification)性能测试分类中取得多项第一,特别是在离线场景(Offline Scenario) 性能测试中,基于8张NVIDIA A100 GPU通过开放优化规则取得了每秒处理107.8万张图片的惊人成绩,超越了V0.5版本中由128张Google TPU V3在该测试中通过封闭优化规则取得的每秒处理103.9万张图片的最好结果,一举拿下了绝对性能纪录的宝座,这也是通用GPU计算平台首次超越百万级的性能纪录。
推荐阅读:震旦异构计算加速平台每秒处理107万张图片!阿里云打破MLPerf推理性能测试纪录
3.面向下一代云原生架构 阿里云推出自研“磐久”服务器家族
2021杭州云栖大会10月19日上午主论坛发布环节,阿里云正式推出面向云原生时代的“磐久”服务器家族,包括高性能计算系列、大容量存储系列、高性能存储系列。磐久服务器系列采用灵活模块化设计,可实现计算存储分离,且拥有风冷、液冷不同散热模式和归一化的主板,整机柜的设计让交付效率提升50%,更符合下一代云原生系统架构,可在在线交易及云原生应用场景中发挥重要作用。
推荐阅读:面向下一代云原生架构 阿里云推出自研“磐久”服务器家族
4.业界最高密度 阿里云发布新一代浸没式液冷GPU服务器集群解决方案
2021杭州云栖大会,阿里云携手英伟达,宣布将为客户提供搭载英伟达A100 GPU的新一代浸没式液冷服务器集群解决方案。作为全球领先的云服务提供商和数字经济的新基础设施,阿里云为英伟达异构算力服务领域丰富了新的解决方案,将为不同需求用户提供更丰富、更具性价比的GPU服务器集群解决方案。
推荐阅读:业界最高密度 阿里云发布新一代浸没式液冷GPU服务器集群解决方案
5.恭喜!阿里云震旦异构平台荣获MLPerf™推理V1.1边缘计算场景冠军
2021年9月,全球权威AI基准评测MLPerf公布了最新Inference(推理) V1.1榜单。阿里云震旦异构平台以稳定、强大的软硬协同优化能力,在边缘计算场景封闭组提交的所有三项性能结果均取得了业界第一的好成绩,再续其在通用硬件平台和基准软件基础上软件调优的辉煌。
推荐阅读:恭喜!阿里云震旦异构平台荣获MLPerf™推理V1.1边缘计算场景冠军
6.2021双11自研磐久服务器系列全新上阵
2021年阿里巴巴双11的关键词是“绿色科技”。聚焦低碳绿色,深耕自立自强高科技。从绿色低碳到体验提升,从硬核科技到技术温度,作为技术底座的阿里云基础设施,磐久服务器新一代硬件和技术全面应用于双11核心业务场景,提供行业领先的计算及存储生产力,场景化性能提升30%以上。
推荐阅读:2021双11自研磐久服务器系列全新上阵
02 学术进展
技术和产品研发离不开基础研究和对外合作交流的展开,过去一年中磐久服务器技术团队在各种学术会议和期刊上发表论文15篇,其中HPCA、PPoPP、DesignCon和ICLR等顶会论文5篇,覆盖计算机体系结构、电路设计和人工智能等多个领域,用另一种方式对行业内具有突破性、前瞻性的课题发起挑战。
1.HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优
HPCA高性能计算架构会议是体系结构/高性能计算领域最重要的学术会议之一,论文专业领域包含CPU体系结构、高性能计算、AI 芯片、I/O、安全、新介质研究等。来自阿里云基础设施服务器研发团队的研究人员在HPCA2021上发表2篇论文,在数据中心资源利用和增强数据中心稳定性等领域提出了创新方案,从本质上高效地解决此问题,这也是阿里云服务器研发团队连续两年在此顶级学术会议上发表一作。
推荐阅读:HPCA梅开二度,看阿里云专家解读服务器稳定性和性能调优
2.阿里云深入液冷集群前沿研究 论文入选电路设计顶会DesignCon 2021
2021年8月,因疫情原因几经延期的国际高速电路设计领域顶会DesignCon 2021在美国加州圣何塞市举行,同期举行的学术会议环节公布论文入选结果,阿里云服务器研发团队基于液冷服务器信号完整性研究的《Signal Integrity Analysis in Immersion Liquid Cooling》论文入选,这是该会议SI领域的第一篇浸没式液冷技术相关论文;这也是阿里云在服务器液冷技术大规模商业化部署实践的同时,深入硬核基础研究取得的又一进展。
推荐阅读:阿里云深入液冷集群前沿研究 论文入选电路设计顶会DesignCon 2021
3.祝贺!阿里云液冷技术荣获2021 CCF科学技术奖科技进步杰出奖
10月14日,2021年度“CCF(中国计算机学会 China Computer Federation)科学技术奖”结果公示,阿里云申报的“全浸没式液冷云计算数据中心创新及产业化“CCF科学技术奖”科技进步杰出奖。该项目方案从降低数据中心能耗和提升散热性能出发,采用全浸没液冷技术,提出了完全冗余且可并发维护全液冷数据中心架构,兼具可扩充性和易维护性,大幅提升了机柜功率密度,并主导了我国浸没式液冷数据中心技术的多项标准制定。
推荐阅读:祝贺!阿里云液冷技术荣获2021 CCF科学技术奖科技进步杰出奖
03 产业合作
服务器研发团队长期跟踪服务器基础设施领域技术、产品和市场等方面的最新发展态势,结合自身技术研发需求和上下游的伙伴能力展开多维度交流合作。此外,服务器研发团队还积极沟通和参与ODCC、OCP、CXL、MLCommons和RISC-V等多个行业组织的活动,共同打造特色明显、具有专业领域影响力和竞争力的行业组织与伙伴关系,实现服务器研发领域产品、规范和知识产权等成果的共享,加速创新技术的落地和实践。
1.《边缘计算技术白皮书2021》发布:云边一体、智能运维
4月15日,ODCC边缘计算大会在京举行,中国信通院、阿里巴巴、中国电信研究院、中国移动研究院、Intel等各行各业交流碰撞行业新趋势,会上同期发布了《边缘计算白皮书(2021)》,业界共同分享及探讨了边缘计算的产业发展新趋势。阿里云作为主要发起方参与编写了《边缘计算技术白皮书(2021)》,在书中提出了边缘计算的范畴,包含边缘云、MEC、端边缘,彼此之间相互协同运作。
推荐阅读:《边缘计算技术白皮书2021》发布:云边一体、智能运维
2.阿里云震旦异构计算加速平台入选WAIC2021十大镇馆之宝
7月6日,震旦异构计算加速平台在2021世界人工智能大会上首次线下亮相,适配GPU、ASIC等多种异构AI芯片,优化编译代码,深挖和释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云边端多场景快速部署,大幅提升AI应用开发效率。通过震旦平台,可最大化地通过软件层来优化提升算力,挖掘硬件潜力,充分利用新旧AI硬件释放平台算力。
推荐阅读:阿里云震旦异构计算加速平台入选WAIC2021十大镇馆之宝
3.阿里云基础设施论“道”2021开放数据中心峰会
9月15日,2021 ODCC(开放数据中心委员会)年度峰会在北京国家会议中心揭幕,此次峰会以“推动高质低碳,筑基美好生活”为主题,现场重磅发布43项研究成果。阿里云基础设施组团亮相,斩获多项殊荣,其中阿里云基础设施服务器高级技术专家曹洪浩获评ODCC 2021优秀项目经理奖——“非凡之星”奖。方升开放项目获评ODCC 2021优秀项目奖——“匠心之作”奖。
4.浸没液冷智算产业发展论坛成立 阿里云践行科技减碳新目标
12月14日,2021 ODCC(开放数据中心峰会)冬季全会上,中国液冷产业迎来又一历史性时刻,由中国信通院(云大所)、阿里巴巴和OPPO共同发起的行业首个“浸没液冷智算产业发展论坛”宣布正式成立。在智能算力的性能需求与功耗匹配瓶颈日益突显的情况下,在“双碳”目标背景下,“浸没液冷智算产业发展论坛”将打造领先的绿色高效智算中心方案,形成规模化的浸没液冷智算产业生态,为全社会的智能计算需求普及高效绿色安全的浸没液冷智算中心方案。
推荐阅读:浸没液冷智算产业发展论坛成立 阿里云践行科技减碳新目标
▼
如阿里云基础设施负责人周明在云栖大会上所说“因云而生的基础设施将在更加稳定安全、自研创新和绿色低碳的道路上越走越远,越走越深。”云深处,新世界,作为阿里云基础设施的重要组成,自研磐久服务器是阿里云基础设施工程能力的综合体现之一,从技术安全和资源安全考虑,响应绿色低碳国家战略,结合达摩院前沿基础技术,持续构建领先的服务器基础设施,为客户提供更具技术竞争力的多种云服务能力。
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。