阿里云服务网格ASM集成SLS告警

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介: 随着微服务的流行,微服务的架构也在不断的发展演进,Spring Cloud 与 Dubbo为代表的微服务开发框架也得到了普及和落地;在云原生时代,无侵入的服务网格(Service Mesh)开始走向成熟,相对于传统微服务架构,服务网格具有可观察性、流量控制、安全性三大优势。服务网格将之前服务治理中的复杂性从应用中分离出来,将这些复杂性放到了服务代理中,包括流量控制,断路,服务发现,安全性,可观测性等;开发时应用只需要关心业务功能实现,让责任划分变得更加清楚。

1. 前言

随着微服务的流行,微服务的架构也在不断的发展演进,Spring Cloud 与 Dubbo为代表的微服务开发框架也得到了普及和落地;在云原生时代,无侵入的服务网格(Service Mesh)开始走向成熟,相对于传统微服务架构,服务网格具有可观察性、流量控制、安全性三大优势。服务网格将之前服务治理中的复杂性从应用中分离出来,将这些复杂性放到了服务代理中,包括流量控制,断路,服务发现,安全性,可观测性等;开发时应用只需要关心业务功能实现,让责任划分变得更加清楚。

阿里云服务网格是阿里云提供的全托管式服务网格平台,兼容Istio。在可观测性方面,与SLS深度集成,提供了日志采集、可视化、告警一站式可观察性解决方案。本文主要介绍介绍服务网格新推出的控制面日志采集和告警配置,同时也会涵盖数据面访问日志的采集和可视化;未来数据面的访问日志的告警也将推出更多内置告警规则,实现可以在SLS上一站式进行告警管理。

2. 阿里云服务网格(ASM)介绍

阿里云服务网格(Alibaba Cloud Service Mesh,简称ASM)提供一个全托管式的服务网格平台,兼容社区Istio开源服务网格,用于简化服务的治理,包括服务调用之间的流量路由与拆分管理、服务间通信的认证安全以及网格可观测性能力,从而极大地减轻开发与运维的工作负担。


ASM中的控制平面组件完全有阿里云托管,兼容Istio,用户只需要挂住业务应用的开发部署。 对于ACK托管集群,专有集群,Serverless集群,混合云或者多云场景,提供一致的流量控制,安全和可观测性管理,控制平面核心组件由阿里云托管,最大限度降低用户资源的开销和运维成本。

在可观测性方面,ASM支持使用SLS控制平面和数据平面的日志,并提供了内置的仪表盘及告警,未来将增加更多内置告警的内置告警规则,借助SLS强大的告警管理和通知功能,用户可以更加对ASM的运行状态更加了解,并及时获得告警通知以进行下一步操作。

3. SLS告警介绍

日志服务SLS是云原生观测与分析平台,为Log、Metric、Trace等数据提供大规模、低成本、实时的平台化服务。日志服务提供一站式数据采集、加工、查询与分析、可视化、告警、消费与投递等功能。

SLS告警是一站式的告警监控、降噪、事务管理、通知分派的智能运维平台。SLS告警的核心功能组件主包括数据存储,告警监控,告警管理,行动管理和开放告警几个子系统。

SLS告警来源主要包括自定义告警,系统内置告警和开放告警。各类告警源产生告警后,告警会发送给告警管理系统,通过告警管理系统,用户可以进行合并,抑制,静默等处理;然后告警会到通知管理系统,在通知管理中,可以设置根据不同的告警属性将将通知分派到不同的通知渠道。

4. ASM可观测性日志采集及可视化

ASM可观测性的日志主要包括控制平面和数据平面的日志:

  • 控制平面日志ASM提供了基于SLS的告警功能;
  • 数据平面日志主要包括入口网关日志,Envoy Access Log,在数据平面日志中ASM提供了基于SLS的内置仪表盘功能。

4.1. 数据平面入口网关日志采集及可视化

接入数据平面入口网关日志可以参考服务网格接入入口网关日志。主要包括安装日志服务组件和采集配置,完成采集后,在ASM控制台内嵌了入口网关概览、入口网关访问中心、入口网关监控中心三个仪表盘。


4.2. Envoy Access Log采集及可视化

接入Envoy Access Log可以参考使用日志服务采集数据平面入口网关日志,主要步骤包括安装日志服务组件和采集配置,完成采集后可以在ASM控制台查看访问日志监控中心和访问日志详细记录。


4.3. 控制平面日志采集及告警

ASM支持将控制平面的日志采集到SLS,然后根据日志进行告警配置,接下来着重介绍下如何开启控制面日志采集及告警。

4.3.1 在ASM控制台开启告警

  1. 在ASM控制台,找到关心的服务网格实例,点击进入,启用控制平面日志采集的开关,如图所示:

  1. 点击告警设置,在告警弹出框中选择行动策略,可以默认选择“SLS服务网格内置行动策略”,然后开启告警。

4.3.2 在SLS控制台配置告警通知人

  1. 在SLS控制台首页,页面上方找到日志应用,点击“告警管理中心”

  1. 点击全局配置

  1. 在左边菜单找到用户管理->用户组管理,点击右侧修改按钮,在SLS服务网关内置用户组中添加相应的联系人,即可接收告警产生后的通知。


告警管理中心是SLS下基于业务的统一智能告警运维平台,可以在全局配置->通知策略->行动策略中找到“SLS服务网关内置行动策略”,点击修改可以查看其告警通知接收人,通知模板等。

在接收到告警后,可以根据告警中的内容提示进行一些处理建议

错误信息

处理建议

Internal:Error adding/updating listener(s) 0.0.0.0_443: Failed to load certificate chain from <inline>, only P-256 ECDSA certificates are supported

该告警信息表示数据面集群不支持您为数据面配置的证书,当前仅支持P-256 ECDSA证书。您需要重新配置证书,具体操作,请参见通过服务网关启用HTTPS安全服务

Internal:Error adding/updating listener(s) 0.0.0.0_443: Invalid path: ****

该告警信息表示您为数据面配置的证书路径有误或证书不存在,您需要检查证书挂载路径是否与Gateway中配置的路径相符。具体操作,请参见通过服务网关启用HTTPS安全服务

Internal:Error adding/updating listener(s) 0.0.0.0_xx: duplicate listener 0.0.0.0_xx found

该告警信息表示您为网关配置的监听端口重复,请检查您的Gateway,删除重复的端口。

Internal:Error adding/updating listener(s) 192.168.33.189_15021: Didn't find a registered implementation for name: '***'

该告警信息表示在Sidecar和Ingressgateway中无法找到您通过EnvoyFilter针对15021这个Listener patch的配置中引用的***,您需要删除该引用。

Internal:Error adding/updating listener(s) 0.0.0.0_80: V2 (and AUTO) xDS transport protocol versions are deprecated in grpc_service ***

该告警信息表示即将弃用您数据面的XDS V2协议,这通常是因为您的数据面Sidecar的版本与控制平面不符所致。升级数据平面的Sidecar可以解决该问题,您需要删除Pod,该Pod自动重新创建后会自动注入最新版本的Sidecar。

5. 总结

本文主要描述了如果在阿里云服务网格中开启数据面访问日志及控制面日志,并且简单介绍了数据面日志中的内置仪表盘和控制面日志的告警配置。借助SLS告警,用户可以一站式的进行告警的管理,可以有效的提供运维效率。目前SLS支持了ASM控制面日志告警,未来,在ASM数据面日志采集和可视化基础上,SLS将提供更多的内置告警规则,在ASM控制台可以实现一键开启内置告警规则,完善服务网格可观测性的闭环,用户也可以在SLS上实现统一的告警管理,敬请期待。


6. 参考

  • 什么是日志服务告警【链接
  • 什么是服务网格ASM【链接
  • 启用控制平面日志采集和日志告警【链接
  • 使用日志服务采集数据平面入口网关日志【链接
  • 使用日志服务采集数据平面的AccessLog【链接
  • 创建行动策略【链接
  • SLS告警-学习路径【链接
  • 基于SLS实现统一告警最佳实践【链接
  • SLS(日志服务)云原生观测分析平台链接
  • SLS新版告警文档首页【链接
  • 欢迎扫群加入阿里云-日志服务(SLS)技术交流(集团同学请直接搜索群号11702236加入), 获得第一手资料与支持

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
目录
相关文章
|
5月前
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
本文围绕企业级告警体系构建展开,探讨了监控与告警在系统稳定性中的重要作用。通过梳理监控对象、分析指标、采集数据及配置规则等环节,提出告警体系建设的通用流程,并针对多平台告警、误报、告警风暴等问题提供解决思路。结合阿里云可观测产品,分享了某电商企业的实践案例,展示了如何通过标签规范、日志标准和统一管理平台实现高效告警处置,为构建全面且实用的告警体系提供了参考指南。
430 1
|
4月前
|
自然语言处理 监控 安全
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
阿里云可观测官方发布了Observable MCP Server,提供了一系列访问阿里云可观测各产品的工具能力,包含阿里云日志服务SLS、阿里云应用实时监控服务ARMS等,支持用户通过自然语言形式查询
507 0
阿里云发布可观测MCP!支持自然语言查询和分析多模态日志
|
6月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
289 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
6月前
|
存储 消息中间件 缓存
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
基于阿里云SelectDB,MiniMax构建了覆盖国内及海外业务的日志可观测中台,总体数据规模超过数PB,日均新增日志写入量达数百TB。系统在P95分位查询场景下的响应时间小于3秒,峰值时刻实现了超过10GB/s的读写吞吐。通过存算分离、高压缩比算法和单副本热缓存等技术手段,MiniMax在优化性能的同时显著降低了建设成本,计算资源用量降低40%,热数据存储用量降低50%,为未来业务的高速发展和技术演进奠定了坚实基础。
262 1
MiniMax GenAI 可观测性分析 :基于阿里云 SelectDB 构建 PB 级别日志系统
|
7月前
|
缓存 运维 监控
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
阿里云在百万服务器运维领域的丰富经验打造。
Anolis OS深度集成运维利器 阿里云操作系统控制台上线
|
6月前
|
域名解析 应用服务中间件 网络安全
阿里云个人博客外网访问中断应急指南:从安全组到日志的七步排查法
1. 检查安全组配置:确认阿里云安全组已开放HTTP/HTTPS端口,添加规则允许目标端口(如80/443),授权对象设为`0.0.0.0/0`。 2. 本地防火墙设置:确保服务器防火墙未阻止外部流量,Windows启用入站规则,Linux检查iptables或临时关闭防火墙测试。 3. 验证Web服务状态:检查Apache/Nginx/IIS是否运行并监听所有IP,使用命令行工具确认监听状态。 4. 测试网络连通性:使用外部工具和内网工具测试服务器端口是否开放,排除本地可访问但外网不可的问题。 5. 排查DNS解析:确认域名A记录指向正确公网IP,使用`ping/nslookup`验证解析正
221 2
|
6月前
|
安全 持续交付 云计算
课时5:阿里云容器服务:最原生的集成Docker和云服务
阿里云容器服务以服务化形式构建容器基础设施,大幅提升开发效率,简化应用部署流程。通过Docker容器和DevOps工具(如Jenkins),实现自动化部署与迭代,优化企业内部复杂部署问题。该服务支持GPU调度、混合云架构无缝迁移,并与阿里云产品体系无缝集成,提供安全防护、网络负载均衡等多重功能支持。凭借微服务架构,帮助企业突破业务瓶颈,提高资源利用率,轻松应对海量流量。
230 0
课时5:阿里云容器服务:最原生的集成Docker和云服务
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
企业级API集成方案:基于阿里云函数计算调用DeepSeek全解析
DeepSeek R1 是一款先进的大规模深度学习模型,专为自然语言处理等复杂任务设计。它具备高效的架构、强大的泛化能力和优化的参数管理,适用于文本生成、智能问答、代码生成和数据分析等领域。阿里云平台提供了高性能计算资源、合规与数据安全、低延迟覆盖和成本效益等优势,支持用户便捷部署和调用 DeepSeek R1 模型,确保快速响应和稳定服务。通过阿里云百炼模型服务,用户可以轻松体验满血版 DeepSeek R1,并享受免费试用和灵活的API调用方式。
478 12
|
6月前
|
运维 Prometheus 监控
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
基于阿里云可观测产品构建企业级告警体系的通用路径与最佳实践
253 1

相关产品

  • 日志服务