《2021 阿里云可观测技术峰会演讲实录合辑（上）》——四、阿里云ACK容器服务生产级可观测体系建设实践【下】-阿里云开发者社区

《2021 阿里云可观测技术峰会演讲实录合辑（上）》——四、阿里云ACK容器服务生产级可观测体系建设实践【下】

2023-05-22 126

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

函数计算 FC，180元额度 3个月

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

可观测可视化 Grafana 版，10个用户账号 1个月

简介： 《2021 阿里云可观测技术峰会演讲实录合辑（上）》——四、阿里云ACK容器服务生产级可观测体系建设实践【下】

接上篇：

https://developer.aliyun.com/article/1222690?spm=a2c6h.13148508.setting.26.4f394f0em1x0Jq

阿里云近期推出了Prometheus for ACK Pro，它是Prometheus的升级服务，能够在同一张大盘上看到多个数据源，包括集群事件日志、基于ebpf的无侵入式的应用指标、网络指标等，提供一致性的体验。用户可以通过一张大盘的关联分析逻辑，从总览到细节，通过多数据源、多角度的可观测能力进行不同角度的排查。

在ACK可观测体系里，Tracing体系提供了最终定位根因的能力，它分为两部分:

第一部分是应用层的Tracing，提供ARMS APM能力，支持OpenTracing、OpenTelemetric协议，可以支持多种语言的应用。

针对Java也提供了无侵入式的APM能力，只需要在Pod上打上annotation，Java应用的Pod即可享受实时的监控数据服务，可以查看实时的应用水位、JVM的性能指标、应用上下游分布式和微服务的全局调用top图等，也支持Profiling以及代码堆栈级的调用监控能力。不同语言可以汇聚成同一张分布式调用追踪大图，自上而下地查看一次分布式调用，从而定位、诊断问题。

第二部分是集群网络和调用Trace。

近期我们推出了基于eBPF网络层面的Tracing能力。通过eBPF插桩技术，在内核层面实现了零代码改动且非常低性能消耗的网络Tracing能力。提供了全局拓扑、快速定位问题调用链的网络拓扑展示以及资源层面展示，也支持在统一的全局架构视图中集合Metrics、Tracing和Logging多个角度进行可观测能力观察。

事件驱动的AIOps体系，用户可以将事件作为统一的驱动数据源进行问题的发现、触达以及AI智能化运维操作的桥梁。以ACK事件中心为核心，构造了统一的事件格式规范，K8s的事件会以统一的事件配置格式提供给用户，最后以事件中心为核心，通过统一的事件处理流提供给用户。用户可以通过订阅事件做事件的智能化运维以及构建其体系。用户可以通过某个应用的业务进行业务事件推送，并对业务事件进行智能化运维处理，比如智能的扩容或缩容等。

此外，我们也提供了ACK报警中心，通过统一的报警配置为用户构建AIOps的体系，帮助用户快速建立运维的订阅、收发和问题排障、处理体系。

报警中心会为用户提供统一的配置，帮助用户快速建立ACK场景上异常诊断的异常规则集。ACK报警中心提供了开箱即用的报警能力，沉淀了常用的容器场景异常规则集，开箱即用。其次，可以通过报警消息的细粒度订阅关系构建ITOps体系，不同的异常可以通过报警中心的订阅配置关系投递到真正能够解决异常的人手里。ACK也沉淀了标准的异常以及对应标准异常处理的SOP手册，发现报警时，会提示异常类型，以及为用户提供处理异常的标准SOP修复流程。

越来越多的用户面临了上云阶段或上云后治理阶段的降本增效问题，主要存在以下几个方面的痛点：

• 上云之前——如何上云，难规划；

• 上云之后——云产品种类丰富，集群资源类型也丰富，计费难；

• 高度SaaS化的应用部署在同一个集群中进行共享，成本分账难；

• 每年都会有新的业务生成和下线，集群和资源的使用关系是动态的，难以进行持续的优化和治理；

• 此前一般使用Excel表对能力进行管理，在云原生的场景下有丰富的用户应用和有丰富的账单资源类型，难以管理。

ACK提供了云原生企业IT成本治理方案，通过多维度的成本分摊和估算模型，为集群的资源进行成本估算和分摊。可以通过根因的下钻和趋势的预测进行成本洞察，集群上多个应用业务的成本可以细粒度下钻，进行成本拆分。对多集群场景上的成本提供了成熟的解决方案覆盖，以及提供企业云原生 IT成本治理的专家服务。

此外，我们还推出了内置的应用资源画像以及应用资源的智能推荐，可以为资源推荐合适的成本以及进行预算控制，最后会根据不同的场景进行成本优化，如大数据、AI、游戏等。

最后，支持多样化场景，包括多云和混合云等都能在统一的平面进行展示和管理。

客户案例

中华财险作为互联网金融的头部公司，有千核级别的集群规模，同时管理运维多个SaaS化线上业务，具有高度多租化、对业务稳定性要求高、对业务资源/成本趋势敏感度高等行业特点。

中华财险从传统IT架构到云原生化的过程中，面临着容量规划难、算清成本难、闲置资源难发现以及成本优化和业务稳定性难以平衡的挑战。

我们通过ACK的成本治理解决方案为它进行了压测、容量规划，通过ACK成本分析进行业务分账的账单管理和分析，解决了闲置资源的优化，为其提供了分配资源的优化策略，最后通过容器服务提供了细粒度的容器部署以及弹性策略等优化手段。

上云前，客户集群的资源分配闲置率高达30%+，而通过我们提供的成本治理方案，闲置率降至10%以下，为行业领先水平。

《2021 阿里云可观测技术峰会演讲实录合辑（上）》——四、阿里云ACK容器服务生产级可观测体系建设实践【下】

云原生

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像