当⻉借⼒阿⾥云落地云原⽣架构转型,运维降本、效率稳定性双升

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 随着业务飞速发展,当贝的传统 IT 资产也渐显臃肿,为了避免制约发展的瓶颈,痛定思痛,技术团队果断变革:核心业务云原生化之后,运维效率、整体稳定性和研发效率均得到了全面提升。本文主要简述当贝技术团队云原生之路的背景诉求、落地方法和收获成果。

前言


当贝成立于 2013 年 8 月,中国知名的智能大屏增值服务提供商之一,中国大屏应用软件分会会长单位,是一家横跨软件、硬件和操作系统全生态的大屏端互联网平台型公司,致力于成为亿万家庭 AIoT 的核心入口和生活娱乐中心,连续多年入选未来独角兽榜单,国家级专精特新“小巨人”企业。

image.png

当贝云原生架构实践历程


传统运维体系的三大痛点

随着当贝的业务规模飞速发展,背后的 IT 技术也在不断更新迭代,IT 资产规模也在高速上升,不可避免地迎来一些挑战。其中,以运维体系的挑战最为鲜明,经团队总结,有以下三个较为突出的痛点。


▷▶︎ 人工运维效率低,风险大,成本高,资产管理困难

当贝对系统稳定性、业务连续性有着极高要求。随着流量快速增加,特别是在一些如春节联欢晚会这种情况下,流量往往以十倍乃至数十倍激增,对稳定性和容量规划形成极大压力。


同时,当生产环境发生异常,在传统的运维体系下,有着依赖链路复杂、排查难度大、定位时间久、牵扯人员广等核心痛点。


对此,整个服务端部门定下了 1-5-10 快恢及 99.95%可用性两大要求,精准洞察问题核心,同时指导了解决思路。


在当贝各项业务高速发展的情况下,落实这两大要求,是整个服务端团队迫在眉睫且必须打赢的攻坚战。


▷▶︎ 自建可观测体系落地复杂,易用性和稳定性差,运维成本高

任何成规模的 IT 系统,可观测体系都是极其重要的底层基石,它使 IT 架构的整体设计如依赖拓扑、调用链路追踪、技术标准、运行状况、稳定性等诸多信息清晰呈现,除了定位排查以外,更有助于提前发现历史的架构设计缺陷、系统瓶颈并及时解决,在保证业务连续的同时,高效支撑业务发展与迭代。


在早期阶段,为保证各项系统快速上线、业务高速迭代,存在一些技术架构考虑不周、设计不足的情况,具体表现为选型不一、业务高度耦合、调用链路过长、云资源选择不合理、管理不清晰等。这些因素组合在一起,形成庞大的历史包袱,在过去传统的运维体系下,曾自建一些可观测组件或框架,但却面临着稳定性差、运维成本高难度大、易用性差、体系不统一等各方面问题,以至于未能完全发挥其应有的价值。


如今,在当贝业务规模持续加速成长的背景下,亟需落地一套全面易用、安全稳定、性价比高的可观测体系,以支持公司行稳致远。


云原生架构的建设

面对传统运维体系十分突出的三大核心痛点,为避免其在未来对当贝可持续发展的战略形成制约,当贝技术团队进行了广泛研究、深入分析、积极调研,最终将目光瞄准在了云原生架构上。


正如阿里云在《云原生架构白皮书》中所言:云计算的下一站,是云原生;IT 架构的下一站,是云原生架构。


当贝技术团队极为认同这个观点,云原生是一个确定的技术发展趋势,越来越多的公司拥抱云原生,利用云原生实现更高效率的发展及创新。


经全局视角下的充分评估,当贝技术团队在研发总监张子枭的领导下,提出云原生化、中台化、微服务化、数字化四大技术战略目标,决定全面转型云原生架构。


只有利用云原生架构,完全解决传统运维体系风险高、效率低下的痛点,才能具备对部分积弊已久、陈疾顽疴的老系统进行中台化和微服务化改造。


而在云厂商的选择上,考虑到阿里云是国内云计算的布道师与发扬者,实力全球领先,对云原生技术发展的贡献有目共睹,同时其汇聚了业内最顶尖的人才、最丰富的经验案例、最可靠的成熟度,以及其“客户第一”的价值观,当贝技术团队最终选择借力阿里云落地云原生架构转型。

image.png


1.png

▷▶︎ 容器化上云

在云原生架构基础设施领域,Kubernetes 是当之无愧的领头羊。


相比于依赖虚机自建集群而言,由阿里云提供的 ACK 服务,有着更优弹性、更优韧性、免运维、更高效的资源管理等优点,同时无缝集成了大量阿里云产品。

image.png

依赖 ACK 及其集成的大量产品,当贝技术团队极快地完成了核心服务的容器化改造,并顺利完成灰度发布、全面切流等工作。值得一提的是,在新架构落地过程中,当贝技术团队不可避免地会遇到疑难杂症困扰,但正因为有阿里云大量的经验案例支撑、最佳实践指导,包括容量规划、可观测、安全防护、稳定性等诸多方面,使整个上云进程始终处于可靠状态。


完成上云后,这些核心服务从开发态测试态,变更与运行态,贯穿服务整个生命周期,效率都得到了极大提升。


利用云原生 Devops,项目发布与协同效率提升 300%,完全避免人工运维干预的高风险性;利用 ACK 服务与服务器资源天然解耦的特性,完全摆脱了基础设施运维的低效困扰;利用 HPA+CronHPA,从容应对流量高峰低谷……


不仅如此,这些核心服务整体资源利用率提升了 20%,运维效率更是提升了 500% 以上,使更大规模的 IT 资源管理成为可能。


在深度参与上云改造的过程中,当贝技术团队沉淀了大量的知识与经验,为公司技术储备添砖加瓦,同时仍在积极探索云原生技术。


▷▶︎ 云原生网关

在引入 ACK 作为云原生的基础设施的同时,当贝技术团队也引入了 MSE 云原生网关作为流量管理组件。

image.png

在云原生网关将流量网关、微服务网关、安全网关三合一之后,不仅链路减少、性能提升,服务治理的复杂度也大幅下降,稳定性大幅提升。


借助于云原生网关的高集成性,上云后的核心服务毫无侵入地就获得服务治理、安全防护、监控告警等能力,相比于当贝在过去传统运维体系下自建网关而言,云原生网关更具备着高可用、高性能、弹性伸缩、更易用等优势,做到了网关层面完全免运维,减少人工干预的同时,大大提升了 IT 系统的整体稳定性。


正是借助 ACK+MSE 云原生网关的组合,当贝技术团队在几乎无需运维成本的情况下,实现了 1-5-10 和 99.95%的两大目标。


随着当贝 OS、当贝音乐等核心服务上云后的稳定性、业务连续性、研发效能大幅提升,用户体验也得到了极大提升,为当贝业务长期发展,奠定了良好的技术基础。


至今,当贝技术团队仍在积极推进剩余各项业务系统上云,不遗余力地完成全面转型云原生架构的目标,充分挖掘云的价值。


▷▶︎ 可观测体系

建立全面易用、安全稳定的可观测体系同样是实现 1-5-10 和 99.95% 目标的重要手段,更是达成中台化、微服务化的关键支撑。


在确定全面转型云原生架构之前的评估环节,当贝技术团队就已经深入调研了阿里云的可观测体系解决方案。

image.png

在对比了过去运维团队自建的可观测组件,如日志服务、链路追踪等后,发现其存在易用性差、稳定性差,且运维成本高昂、版本老旧等诸多问题,且对 ACK、MSE 云原生网关等云原生组件的支持存在适配成本。


可观测组件的初衷是为了提升稳定性、保障业务持续性、呈现链路拓扑等信息,以最终实现提升研发效能,让每个人都可以做到心中有数。


如果在该组件本身投入大量运维成本、研发成本,最终只会本末倒置,南辕北辙。


因此,当贝团队最终决定采用阿里云的可观测解决方案,主要以 ARMS、SLS、Grafana、Prometheus 、云监控等产品,依赖它们与 ACK、MSE 等云原生组件高度集成的能力,构建了当贝在云原生下的可观测体系。

image.png


建设成果


在面对传统运维体系的效率低下、风险大、成本高、稳定性差等突出问题上,为避免其成为当贝业务发展的长期制约,当贝技术团队果断采取了全面上云的架构转型,在核心服务上云后,极大地解决了传统运维体系所带来的痛点,整体运维成本下降 80%,提效 500%,研发效率和稳定性都有极大提升。


最关键的成果,运维效率和风险两大制约的解除,基于此,当贝极快地推动了中台化、微服务化的落地,至今已基本完成。


未来展望


当贝在云原生技术上的转型与探索,不仅释放了内部生产力,更大大提升了用户体验,为公司长期可持续发展的战略打下了牢固的技术基础。


但这只是当贝技术团队在云原生道路上的起点,随着业务发展及微服务化的深入,未来还会面临更多的挑战。当贝希望逢山开路,遇水搭桥,丰富更多家庭的客厅生活,为更多家庭带来乐趣。



相关实践学习
容器服务Serverless版ACK Serverless 快速入门:在线魔方应用部署和监控
通过本实验,您将了解到容器服务Serverless版ACK Serverless 的基本产品能力,即可以实现快速部署一个在线魔方应用,并借助阿里云容器服务成熟的产品生态,实现在线应用的企业级监控,提升应用稳定性。
云原生实践公开课
课程大纲 开篇:如何学习并实践云原生技术 基础篇: 5 步上手 Kubernetes 进阶篇:生产环境下的 K8s 实践 相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
相关文章
|
2月前
|
运维 Cloud Native 持续交付
构建未来:云原生架构在企业数字化转型中的关键作用
【2月更文挑战第29天】 随着企业加速迈向数字化,云原生架构已成为支撑创新与灵活性的骨干。本文深入探讨了云原生技术如何优化资源利用,提高服务可靠性,并支持快速迭代。分析了容器化、微服务、持续集成/持续部署(CI/CD)等关键技术的实践应用,并讨论了企业在采纳这些技术时面临的挑战与策略。通过实际案例,本文揭示了云原生架构如何助力企业实现敏捷性,从而在市场竞争中保持领先。
|
2月前
|
敏捷开发 Cloud Native 持续交付
构建未来:云原生架构在企业数字化转型中的关键作用
【2月更文挑战第29天】 随着企业加速迈向数字化,云原生架构作为支撑快速迭代、灵活扩展及持续交付的关键技术框架,正变得日益重要。本文将探讨云原生技术如何助力企业实现敏捷开发、提升运维效率和优化资源利用,同时分析其在推动业务创新与增长方面的潜力。通过深入剖析云原生的核心组件,如容器化、微服务、持续集成/持续部署(CI/CD)等,揭示其对企业IT架构现代化的影响,并讨论实施云原生策略时面临的挑战与应对措施。
|
2月前
|
Cloud Native Devops 持续交付
构建未来:云原生架构在企业数字化转型中的关键作用
随着企业加速其数字化进程,云计算已成为支撑创新和灵活性的基石。本文深入探讨了云原生架构如何为企业提供敏捷性、可扩展性和成本效益,以及它如何成为支持现代应用程序开发和服务交付的核心。我们将分析云原生的关键组件,包括容器化、微服务、持续集成/持续部署(CI/CD)和DevOps文化,并讨论这些技术如何协同工作以提高企业运营效率和响应市场变化的能力。此外,我们还将审视采用云原生架构的潜在挑战和克服这些挑战的策略。
|
2月前
|
监控 Cloud Native 持续交付
构建未来:云原生架构在企业数字化转型中的关键作用
【2月更文挑战第30天】 随着企业加速其数字化转型步伐,云原生架构已不仅仅是一种趋势,而是一种必然。本文将探讨云原生技术如何为企业提供必要的敏捷性、可扩展性和弹性,以支持不断变化的市场需求。通过深入分析容器化、微服务和持续集成/持续部署(CI/CD)等关键概念,我们将揭示这些技术如何协同工作,帮助企业实现快速迭代和高效运营。
|
2月前
|
运维 Cloud Native 持续交付
构建未来:云原生架构在企业数字化转型中的关键作用
【2月更文挑战第30天】 随着企业加速其数字化转型步伐,云原生架构作为支撑现代应用开发、部署及运维的先进模式,已成为推动创新与实现敏捷性的关键技术。本文将探讨云原生技术的核心组件,包括容器化、微服务、持续集成/持续部署(CI/CD)和动态编排,并分析这些技术如何共同作用以支持企业的敏捷运营。通过深入剖析云原生架构的优势及其在不同行业中的应用案例,文章旨在为决策者提供实施云原生解决方案的洞见,以加速其业务增长并优化用户体验。
|
2月前
|
人工智能 运维 监控
构建高性能微服务架构:现代后端开发的挑战与策略构建高效自动化运维系统的关键策略
【2月更文挑战第30天】 随着企业应用的复杂性增加,传统的单体应用架构已经难以满足快速迭代和高可用性的需求。微服务架构作为解决方案,以其服务的细粒度、独立性和弹性而受到青睐。本文将深入探讨如何构建一个高性能的微服务系统,包括关键的设计原则、常用的技术栈选择以及性能优化的最佳实践。我们将分析微服务在处理分布式事务、数据一致性以及服务发现等方面的挑战,并提出相应的解决策略。通过实例分析和案例研究,我们的目标是为后端开发人员提供一套实用的指南,帮助他们构建出既能快速响应市场变化,又能保持高效率和稳定性的微服务系统。 【2月更文挑战第30天】随着信息技术的飞速发展,企业对于信息系统的稳定性和效率要求
|
2月前
|
运维 Cloud Native 持续交付
构建未来:云原生架构在企业数字化转型中的关键作用
【2月更文挑战第30天】 随着企业加速迈向数字化,云原生架构已成为支撑其转型战略的核心技术之一。本文深入探讨了云原生技术如何通过提供灵活、可扩展的解决方案,助力企业在竞争激烈的市场中保持敏捷性和创新能力。文章分析了云原生架构的关键组件,包括容器化、微服务、持续集成/持续部署(CI/CD)等,并讨论了这些技术如何协同工作以提高企业的运营效率和响应速度。此外,文中还将展示云原生实践案例,以证明其在实现业务目标方面的有效性。
|
6天前
|
弹性计算 Cloud Native 安全
云原生架构的未来展望:如何引领企业转型与创新
【5月更文挑战第7天】随着云计算技术的不断发展,云原生架构已经成为企业数字化转型的关键驱动力。本文将深入探讨云原生架构的优势、挑战以及未来发展趋势,为企业提供一种全新的技术视角,以实现更高效、灵活和可扩展的业务运营。
|
14天前
|
运维 Cloud Native 安全
【专栏】随着信息技术发展,运维正向自动化、智能化转型,云原生运维成为主流,大数据驱动运维决策,而安全运维日益重要
【4月更文挑战第29天】随着信息技术发展,运维正向自动化、智能化转型,云原生运维成为主流,大数据驱动运维决策,而安全运维日益重要。面对技术更新快、人才短缺和复杂性增加的挑战,企业需建立培训体系,加强人才培养,优化运维管理,以适应未来运维需求。随着这些趋势,运维领域将迎来更广阔的发展前景。
|
14天前
|
Cloud Native 安全 持续交付
探索云原生架构的未来:企业数字化转型的加速器
【4月更文挑战第28天】 随着企业加速其数字化转型的步伐,云原生架构作为一种创新的技术模式,正日益成为推动这一进程的关键因素。本文将深入探讨云原生技术的核心组件、实施策略以及面临的挑战,旨在为企业提供一个关于如何利用云原生架构促进业务敏捷性、可扩展性和创新能力的参考框架。通过分析最新的行业趋势和案例研究,我们将揭示云原生如何塑造企业应用开发的未来,并带来持续的业务价值。