“运维”二字,一言以蔽之,就是维护系统的稳定性运行。传统运维是从关注代码构建、应用测试、集成部署实施、线上性能故障排查,再到后期的集群扩容、缩容的所有环节的角色。云时代的到来,带来了更加高效、便捷、节省资源的IT运维方式。运维可以借助云计算技术来实现资源的智能化编排、数据统一备份、可观测运维等,进一步提高效率。
在724运维日的前一天,阿里云存储团队、阿里云弹性计算团队、阿里云开发者关系团队、CSDN在阿里西溪园区联合举办了面向运维人的技术沙龙,吸引了众多开发者来到现场。多位来自阿里云的技术专家与开发者共同畅聊智能运维前沿技术,探讨如何实现数据可控、运维简化。
1、ROS资源编排:基于laC理念的自动化部署利器
云原生时代,服务上云已成为大趋势,基础设施的概念不再局限于 IaaS 层,开发者的焦点逐渐聚集到了应用上,即以应用为中心。为了提升基础设施的灵活性、部署速度/规模、上线时间,以自动化运维替代传统人肉运维成为必然。应运而生的基础设施即代码(Infrastructure as Code,以下简称“IaC”),不仅以自动化替代手工提高了工作效率,还带来了环境一致性、可复制性以及可追溯性等诸多优点。可以说,IaC开启了基础设施管理的一个新世界。
阿里云智能弹性计算技术专家覃杨名,在现场介绍了资源编排服务ROS的自动化部署能力,指出用户可以通过使用 Json/Yaml 格式的模版描述多个云计算资源(如 ECS、RDS、SLB)的配置、依赖关系等,并自动完成所有云资源在多个不同地域以及多个账户中的部署和配置,实现IaC。
鉴于多云环境下的部署问题成为企业拥抱云原生、容器化和微服务时难以逾越的鸿沟, ROS为Terraform(一个开源的自动化资源编排工具)提供了托管能力,可以创建Terraform类型的模板和资源栈,编排阿里云、AWS或Azure的资源,从而轻松实现多云部署。
2、云上统一灾备技术及实践分享
云端数据存储与传统数据存储一样,都需要面对勒索、泄漏、误删等安全风险,传统数据存储所使用的数据加密、校验等手段在云上也同样适用。云环境下,灾备体系依旧是行之有效的数据安全防护手段。从安全存储的角度出发,保护数据最好的方式就是做好容灾备份和加密访问。云灾备方案具有低成本、速度快、常态演练、多种模式、安全可靠的优势,将成为未来灾备领域发展的主要方向。
阿里云智能技术专家金鑫指出,基于混合云备份HBR构建的阿里云统一灾备平台,支持AES-256 / KMS加密,可以为阿里云ECS整机、ECS数据库、文件系统、NAS、OSS、Tablestore以及自建机房内的文件、数据库、虚拟机、大规模NAS等提供备份、容灾保护以及策略化归档管理。
为了减轻运维压力,混合云备份HBR支持全自动备份任务和主动监控,可灵活定制全量、增量(差量)、日志、实时备份策略;短信和邮件多通道告警;备份历史任务、错误日志报告控制台多方位展示。也就说,只需要一次策略配置,就可以全托管备份流程;端到端备份任务自动监控,如果出错会自动告警,有助于减少运维人力投入、保障数据安全。
3、日志服务SLS多端融合全链路可观测
以容器、微服务、DevOps为代表的云原生技术的广泛兴起,使得业务系统的复杂度呈指数级上升,导致传统的监控模式难以满足新形势下的运维需求。相比传统的告警、监控,可观测性能够以更加“白盒”的方式看透整个复杂的系统,帮助我们更好地观察系统的运行状况,快速定位和解决问题。为了从浩如烟海的原始日志中提取出价值更高的数据,推断系统的运行状态,构建全链路可观测性迫在眉睫。
阿里云智能日志服务技术专家千乘表示,Logs、Traces、Metrics作为IT可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。全链路的可观测性一直都是DevOps环节中的重要步骤,除了通常的监控、告警、问题排查外,还承担用户行为回放/分析、版本发布验证、A/B Test等功能。
云原生观测分析平台——日志服务SLS,提供多端融合全链路可观测能力,包含基础设施/移动端/前端监控、分布式链路追踪Trace、智能告警等功能,可对Log、Metric、Trace等数据进行统一存储和融合分析,并内置自动巡检、异常实时通知、根因定位等功能,帮助企业快速排障。
4、云产品可观测Alibaba Cloud Lens
传统监控手段仅仅能够做到问题被动发现,而可观测性则要求不仅发现问题,更对于问题现象背后本质给出明晰解释。可观测性背后指标、日志、事件、链路数据,以及诊断工具的结合使用,为事前预防、事中处理、事后复盘提供了重要决策依据,能够架起开发人员和运维人员合作的桥梁。Gartner报告指出,到2026年,70%成功实现可观测性的企业,将能降低决策延迟,建立竞争优势。随着云上企业使用云产品类型的不断增加,云产品可观测对于构建全栈的可观测方案尤为重要。
阿里云智能日志服务产品专家孟威认为,在云原生观测场景下,指标覆盖不全、业务侵入性大、数据关联性差、缺乏基于业务视角异常感知机制等问题日益凸显,可以完美应对这些问题的云产品可观测Alibaba Cloud Lens,复用了日志服务 SLS 的存储分析平台,涵盖用量分析、访问分析、异常检测、安全分析、性能监控、数据保护六个模块,让企业在保障业务敏捷性的前提下,实现对OSS/SLS/EBS/ALB等云产品的精细化运维分析,帮助用户快速构建云产品的可观测能力、用好云。
在本次活动上,阿里云存储团队作为主办方,再一次介绍了目前火热进行中的数据洞察创新挑战赛,本次大赛的智能运维赛道,旨在鼓励开发者利用阿里云存储产品和服务,开发出创新的应用和解决方案。(大赛地址>>)
通过这次活动,大家不仅对阿里云智能运维方案有了更深入的了解,也对自动化部署、云灾备、可观测有了更深层次的认知。总而言之,运维需要全天候的保障系统稳定、维护业务正常运行,值此之际,祝愿天下运维者俱欢颜!