• 观测复杂度提升:云原生微服务化虽然带来了很高的 HA,但也提升了系统的复 杂度,加大了可观测的难度。核保通过率、交单成功率、用户的日活/月活散落 在各个业务模块里,业务需要提供全局视角,以观察整个保单生命周期里重要 业务节点的运行情况,并获取研发态的具体情况;
• 技术选型困难:由于历史原因,友邦内部应用技术选型不一,版本各异,导致可 观测技术和调用链追踪面临很大的困难;
• 统一观测困难:友邦是一家金融公司,开发系统和应用运维完全分开,日志也 完全分开存储和维护,因此无法将以上数据在同一个大盘里呈现;
• 指标治理:IaaS 层、PaaS 层和应用层有很多指标,单数据库方面就可能有超过 200 多个指标。如果希望指标达到比较容易理解与追踪的数量,则需要不断地 进行回顾、删减;
• 快速故障定位:在 IDC 机房时代,没有直观的方式让应用查看自己的资源是否 足够。虽然已经有商业 APM 工具,但其价格高昂,不属于经济有效的方式。问 题发生时,因为只有少量应用安装了 APM ,所以调用链不完整,无法实现快速 故障定位。
以上内容摘自 《2021 阿里云可观测技术峰会演讲实录合辑(上)》 电子书,点击https://developer.aliyun.com/ebook/download/7766 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。