阿里云弹性计算首席架构师分享云上应用架构演进三大方向

简介: 从基础设施和应用层出发,依托云计算构建更可靠、更敏捷和更智能的IT架构,将为企业释放巨大技术红利。

封面-蔡俊杰.jpg

12月10日,在2021云上架构与运维峰会上,阿里云智能弹性计算首席架构师蔡俊杰发表了主题为“可靠、敏捷、智能——云上应用架构演进”的演讲,分享其在“云上架构”方向丰富的行业经验。以下为他的演讲精华:


 

一、直面机遇与挑战,技术驱动业务创新


时代发展到今天,各行各业的企业均面临着不同的机遇和挑战。

幻灯片3.JPG


首先的关注点就是社会的生活方式与生产方式的全面的数字化,无论是传统企业还是互联网企业,他们的生产系统、办公系统、商业销售、客户交互,都会不可逆转地全面线上化,比如今的外卖平台或者出行交通系统,都可以用手机操作来达成线上交易。


其次企业所面临的外部环境变化极快。比如消费者的喜好和需求,随着消费层级及大环境在不断变化,进而很多零售企业也需要不断地加快产品上线,提高产品的核心竞争力,To C的互联网企业也如此。10月的云栖大会上,阿里云的客户映客分享,其新应用上线的频率高达1次/周。


即便不考虑消费者,竞争对手也在不断地互相拼速度。当下现状还伴随着不可控的疫情影响,以及监管政策、地缘政治等时刻影响着行业环境。


人工智能、5G、大数据等新技术、同样也给了企业更多的能力和工具创新、实现自我变革和发展。


企业全面数字化,意味着企业的关键业务乃至“身家性命”都已经全部放在IT系统之上,因此企业需要系统足够稳定可靠,变化迅速的市场和激烈的竞争环境,也需要更敏捷的研发效率和应用架构来支持业务创新,从而在市场上赢得先机。更需要利用好AI、大数据等新技术,优化业务管理和运营,实现智能化的业务升级。


以上,都需要一个优秀的IT架构来支撑一个优秀的架构应该具备三个方面的特征:可靠、敏捷和智能

幻灯片4.JPG


 

云如何帮助企业构建优秀的IT架构?


每个架构模式都有其适合的场景,企业所处阶段的不同、人力资源的多寡、开发人员的技能高低等,都会影响架构的选择。没有最好的架构,只有最适合的架构。并且架构需要持续演进,才能够支持业务发展。

image.gif

幻灯片5.JPG

不管是从业务需求场景还是技术趋势来说,架构的发展要求整体来讲都是要更可靠、更敏捷、更智能


越来越多的企业,重视高可用架构的构建,使用双活、多可用区、多地域、混沌工程等丰富的手段来提升应用的可靠性。微服务、Serverless也是近年来非常的热门话题。以上均是相较之前更为敏捷的IT架构,某种程度上,也可以称作其是更可靠的架构。同时移动互联网、物联网的到来也让数据大爆发,大数据和AI等大计算需求场景也在日益增加。


那么云计算如何能帮助客户构建一个可靠、敏捷和智能的架构呢?


01 可靠

在可靠的层面,可以分为两部分:基础设施层的可靠以及应用层的可靠


幻灯片6.JPG

基础不牢、地动山摇,这是在架构师中流传很广的一句话。阿里云提供了非常可靠的基础资源,是全球第一个提供单实例可用性SLA 99.975%、多可用区多实例可用性99.995%的云厂商。以上都得益于阿里云自主研发的飞天底座,其中有大量的技术创新,比如准确率达到70%以上的智能故障预测、95%以上客户无感的热迁移技术等。


阿里云自研的神龙架构,也让整个系统的性能十分线性和平稳,客户也能够在使用阿里云产品的同时体验到了可预期的高性能。


当然,单实例和单可用区的可用性只能保证当前地域的高可靠,但不能抵抗极端天气,工地施工导致光纤被挖断等导致的地域性故障。因此,客户还需要做好应用层的高可用,使用多可用区、多地域部署等容灾方案。


我们建议使用成熟的托管型产品代替自建,比如数据库和中间件类产品,阿里云在这些产品上投入巨大,通常要比自建更加可靠和方便。最终高可用的应用必定是一个面面俱到的架构设计,是高可靠的基础资源,加上高稳定的托管产品,再加上应用本身的高可用设计组合而成的

image.gif幻灯片7.JPG


基础设施除了做到自身高可靠,还需要透明开放。很多客户上云之后,觉得基础设施层变成了一个黑盒,因此要求提供方能清晰地告诉他们底层的基础设施在发生什么,以便他们能做更好的主动运维。


其实这个需求非常合理,因此,ECS会把这些信息尽可能多地开放给用户,封装成不同的接口和事件,提供给用户,比如用户可以随时获取云服务器、操作系统等基础设施的最新情况。系统预测到客户方的机器可能会宕机、检测到CPU和内存用到警戒线了,都会发送事件,客户可以选择订阅。


有用户反馈,最吸引他能长期使用阿里云产品的一点就是,阿里云有非常丰富和全面的接口。阿里云的接口,迄今为止是国内最全面、最丰富、最细致的,甚至在全球范围内,也是毫不逊色的。


02 敏捷

这个世界变化太快,怎么办?所谓天下武功,唯快不破!面对变化,唯一的办法就是比变化更快


这就需要一个极度敏捷的架构。同样,企业需要在两个层面上实现敏捷:应用层的敏捷和基础设施层的敏捷

幻灯片8.JPG


企业都在构建敏捷灵活的组织架构和软件架构,这里面的其中一个核心思想是让研发团队之间的依赖更少、更容易地独立迭代演进,于是企业都开始采用微服务架构,也是符合云原生趋势的应用架构。


其实应用架构的敏捷也是依托于基础设施的敏捷。越是敏捷的架构,越能快速响应不寻常的业务峰值,处理过程也就越平滑,不仅能够降低成本,客户体验也是最好的。比如12306、比如微博热点,这种瞬时级别的流量,在线下的数据中心里,即便上层架构再敏捷,也很难在短时间交付和部署如此大的计算量。


敏捷的基础设施,需要做到两点:敏捷交付和高效管理

幻灯片9.JPG


阿里云作为领先的基础设施,首先要做到的就是快速交付


阿里云弹性计算提供了多种开箱即用的基础资源,仅云服务器就有上百款规格,并且提供极致的弹性能力。今年7月,阿里云作为首个也是唯一一个通过信通院大规模云平台性能测试的云厂商,在信通院工作人员的见证下,18分钟扩容了1万台云服务器,而这还不是阿里云最快的速度。


2021年10月的云栖大会上,阿里云弹性容器实例ECI的研发同学,现场演示了在6秒内扩容了3000个POD。借助阿里云弹性计算强大的弹性伸缩能力,客户可以快速地交付和部署底层资源,轻松应对流量峰值或者扩容新业务。


针对不同的资源交付方式,阿里云还提供了丰富的付费模式,客户可以兼顾灵活与实惠

幻灯片10.JPG


要真正实现敏捷,客户在管理和使用计算资源的时候,还需要做到非常高效,这就需要各种自动化能力支持。从迁移、部署、运维到容量管理,阿里云提供了一整套覆盖资源全生命周期的自动化运维工具。


比如,利用阿里云的资源编排服务ROS,可以自动化部署几千几万台云服务器。疫情期间,钉钉就使用ROS在短短2小时内新增部署了超过1万台云服务器,平稳渡过流量洪峰。


03 智能

全方位的智能包括业务应用层的智能和基础设施层的智能。

幻灯片11.JPG


在业务层,企业需要根据自己的业务,引入相对应的机器学习、大数据等相关的技术,实现智能客服、自动驾驶等能力,这些都需要大量的数据和算力作为基础。为此,阿里云弹性计算针对这些场景提供了量身定做的大数据和本地盘实例,以及GPU和NPU等实例,为上层业务创新提供最适合的基础设施。


PaaS层面,阿里云提供了丰富的人工智能服务、机器学习和大数据框架等,客户可以轻松构建上层的应用智能。


基础设施层,阿里云的调度系统、故障预测和运维系统等,都广泛使用人工智能技术,使阿里云成为全球领先的IaaS技术平台。同时在弹性计算服务的用户体验上,我们也利用人工智能技术为客户提供一个更为聪明的基础设施。

幻灯片12.JPG


比如智能弹性服务,以往客户可能需要根据自身的业务特点,在需要的时候提前开好机器给上层业务使用,或者使用阿里云的弹性伸缩服务设置好策略,让其定时开启。


阿里云弹性伸缩产品最新的预测模式,可以根据用户伸缩组最近1-14天的CPU使用率、内网出入流量等进行建模,通过机器学习算法预测未来2天整体的使用情况,并自动进行扩缩容操作。使用了这个功能,常规的扩缩容客户基本上不用费心。


其次是阿里云的智能诊断与自助修复工具,当阿里云用户遇到ECS相关的问题时,只能通过提交工单或者联系服务同学来解决,周期较长,一定程度上影响了用户体验。实例健康诊断工具,利用后端的NLP等AI能力,可以帮助用户快速定位ECS内外部可能存在的问题,并提供修复方案,将问题的解决周期从24小时缩短至分钟级。在云服务器领域,阿里云是第一个为用户开放此全覆盖诊断能力的云厂商


再比如阿里云的智能资源优化服务,它可以根据用户的资源使用情况,为用户识别出资源错配的情况,并根据业务负载为用户推荐适合的实例。倘若客户资源使用率长期偏低,造成了成本浪费;CPU负载持续偏高,可能会导致业务不稳定,它就会推荐您升级配置或者新增资源。

幻灯片13.JPG


整体来看,阿里云弹性计算已经不仅仅是一个提供计算资源的平台,而进化成了一个支持应用全生命周期服务的云平台。阿里云通过强劲可靠、覆盖全场景的云服务器,高效智能的自动化运维套件,还有灵活弹性的资源供给,帮助客户构建可靠、敏捷、智能的云上架构。今年,阿里云还推出了面向办公场景的无影云电脑、以及面向合作伙伴服务上云的计算巢平台

幻灯片14.JPG


把云用好来构建一个优秀的应用架构,给业务带来的价值是多方面的,包括帮助业务永续、平稳运行,降低了业务的风险;降低成本;提高效率;也正面提升了团队的人效和幸福感。


蔡俊杰也在末尾给大家分享了两个实际案例

客户案例.png


原来,申通快递使用线下机房作为计算及数据存储平台,逢双11资源需求就会膨胀,大促之后则闲置浪费。上云后,几乎全部的资源都是按量购买,稳步度过双11后即刻释放,真正做到了开箱即用,不产生一天浪费。2020年双11与2019年双11当天对比,相比此前传统IDC架构方案,使用云上的神龙裸金属服务器+容器服务方案,帮助申通快递在业务量大幅提升的情况下,IT投入反而降低了30%。


吉利汽车制造企业通过使用神龙超级计算集群 SCC 在同等硬件基础上效率提升20%,任务排队时间缩短了3倍左右,集群规模随着业务弹性伸缩,最终显著提升仿真效率近三成,缩短车型设计和推出市场时间若干个月。


 

二、从上云到用好云,把握技术红利


用好云.png


上云已经成为了业界的共识


云计算虽已发展十余年,但这仅仅还是开始。我们观察到,很多的客户还没有把云的红利与优势充分地利用起来,比如云改变得最多的运维领域,大部分客户还处于半手工半自动化的阶段。所以,现在很多企业的关注重点,已经从上云变成了用好云。我们相信,未来十年,用好云,将为企业释放巨大的技术红利


福利时间12月21日14:00-17:00,澎湃算力,无处不在——2021阿里云弹性计算年度峰会,将开启线上直播。结合企业上云大势和云计算的技术红利浪潮,本次峰会将在前沿技术、产品生态、上云实践等方面带来最新的业态解读与创新实践分享。


点击大会官网,欢迎预约,线上观看峰会直播。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
打赏
0
5
2
0
3492
分享
相关文章
《docker基础篇:2.Docker安装》包括前提说明、Docker的基本组成、Docker平台架构图解(架构版)、安装步骤、阿里云镜像加速、永远的HelloWorld、底层原理
《docker基础篇:2.Docker安装》包括前提说明、Docker的基本组成、Docker平台架构图解(架构版)、安装步骤、阿里云镜像加速、永远的HelloWorld、底层原理
359 90
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
744 243
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
云端问道9期实践教学-省心省钱的云上Serverless高可用架构
详细介绍了云上Serverless高可用架构的一键部署流程
57 10
天财商龙:云上卓越架构治理实践
天财商龙成立于1998年,专注于为餐饮企业提供信息化解决方案,涵盖点餐、收银、供应链和会员系统等。自2013年起逐步实现业务上云,与阿里云合作至今已十年。通过采用阿里云的WA体系,公司在账号管理、安全保障、监控体系和成本管控等方面进行了全面优化,提升了业务稳定性与安全性,并实现了显著的成本节约。未来,公司将持续探索智能化和全球化发展,进一步提升餐饮行业的数字化水平。
云端问道9期方案教学-省心省钱的云上Serverless高可用架构
本文介绍了省心省钱的云上Serverless高可用架构,主要分为两个部分:1. Serverless的发展历程、特点及高可用架构;2. SAE(Serverless Application Engine)产品介绍。Serverless作为一种云计算模式,让用户无需管理底层基础设施,自动弹性扩展资源,按需付费,极大提高了资源利用率和业务灵活性。SAE作为Serverless计算服务,提供了简便的应用部署、运维自动化、丰富的弹性策略和可观测性等功能,帮助企业降低运营成本、提升研发效率。通过极氪汽车、南瓜电影等客户案例展示了SAE在实际应用中的优势。
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品
阿里云 SAE 邀您参加 Serverless 高可用架构挑战赛,赢取精美礼品。
后端服务架构的微服务化转型
本文旨在探讨后端服务从单体架构向微服务架构转型的过程,分析微服务架构的优势和面临的挑战。文章首先介绍单体架构的局限性,然后详细阐述微服务架构的核心概念及其在现代软件开发中的应用。通过对比两种架构,指出微服务化转型的必要性和实施策略。最后,讨论了微服务架构实施过程中可能遇到的问题及解决方案。
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
83 3

热门文章

最新文章