使用sls logtail的netping功能探测网络质量

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 随着多云,多region业务部署越来越普遍,对于复杂的网络链路而言,延迟/丢包成为客户关注的一个重点。sls的logtail作为可观测性的组件,目前集成了icmping和tcping的功能,帮助业务快速发现网络侧的延迟和丢包问题,提升网络可观察性。

背景

随着多云,多region业务部署越来越普遍,对于复杂的网络链路而言,延迟/丢包成为客户关注的一个重点。

sls的logtail作为可观测性的组件,目前集成了icmping和tcping的功能,帮助业务快速发现网络侧的延迟和丢包问题,提升网络可观察性。



以下操作需要先开通 阿里云日志服务SLS


sls日志服务参考帮助文档:https://help.aliyun.com/document_detail/48869.html


操作步骤

Step1 确保logtail为较新的版本

需要确保logtal的版本 >=1.0.31 (2022年4月02日发布)

升级方法参考 https://help.aliyun.com/document_detail/28982.html#section-brd-r34-3wg

如果已经是最新的版本,可以跳过这一步

Step2 创建MetricStore

image.png


image.png


Step3 配置Netping

image.png

选择自定义数据插件

image.png



image.png


image.png


netping_config_json 样例

{

   "inputs": [

       {

           "detail": {

               "tcp": [

                   {

                       "port": 80,

                       "src": "192.168.0.103",

                       "count": 3,

                       "target": "www.baidu.com"

                   }

               ],

               "interval_seconds": 60,

               "icmp": [

                   {

                       "src": "192.168.0.103",

                       "count": 3,

                       "target": "www.baidu.com"

                   }

               ]

           },

           "type": "metric_input_netping"

       }

   ]

}

其中 src要设置为要执行ping的ip地址,只有机器组里的机器,匹配到src是自己的ip的,才会执行对应的ping指令

建议单个src的ping的数量不要超过200个

Step 4 查询Metric


使用promql查询ping的结果

image.png


相关指标说明

指标名称

说明

ping_success

单次执行icmp ping的成功数

ping_failed

单次执行icmp ping的失败数

ping_total

单次执行icmp ping的总数(count)

ping_rtt_avg_ms

单次执行icmp ping的平均响应时间,单位毫秒

ping_rtt_max_ms

单次执行icmp ping的最大响应时间,单位毫秒

ping_rtt_min_ms

单次执行icmp ping的最小响应时间,单位毫秒

ping_rtt_stddev_ms

单次执行icmp ping的标准差时间,单位毫秒

ping_rtt_total_ms

单次执行icmp ping的总响应时间,单位毫秒

tcp_success

单次执行tcp ping的成功数

tcp_failed

单次执行tcp ping的失败数

tcp_total

单次执行tcp ping的总数(count)

tcp_rtt_avg_ms

单次执行tcp ping的平均响应时间,单位毫秒

tcp_rtt_max_ms

单次执行tcp ping的最大响应时间,单位毫秒

tcp_rtt_min_ms

单次执行tcp ping的最小响应时间,单位毫秒

tcp_rtt_stddev_ms

单次执行tcp ping的标准差时间,单位毫秒

tcp_rtt_total_ms

单次执行tcp ping的总响应时间,单位毫秒

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
目录
相关文章
|
8月前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
488 89
|
2月前
高性能网络库设计之日志组件
高性能网络库设计之日志组件
90 2
|
2月前
|
存储
WGLOG日志管理系统可以采集网络设备的日志吗
WGLOG日志审计系统提供开放接口,支持外部获取日志内容后发送至该接口,实现日志的存储与分析。详情请访问:https://www.wgstart.com/wglog/docs9.html
|
3月前
|
数据采集 人工智能 运维
甭再盯死日志了,AI已经悄悄替你盯着网络流量了
甭再盯死日志了,AI已经悄悄替你盯着网络流量了
151 0
|
5月前
|
运维 监控 安全
如何高效进行网络质量劣化分析与流量回溯分析?-AnaTraf
在数字化时代,网络质量分析与流量回溯对保障业务运行至关重要。网络拥塞、丢包等问题可能导致业务中断、安全隐患及成本上升。传统工具常缺乏细粒度数据,难以溯源问题。流量回溯分析可还原现场,助力精准排障。AnaTraf网络流量分析仪作为专业工具,能高效定位问题,提升团队响应力,降低运营风险。
如何高效进行网络质量劣化分析与流量回溯分析?-AnaTraf
|
3月前
|
监控 安全 Linux
AWK在网络安全中的高效应用:从日志分析到威胁狩猎
本文深入探讨AWK在网络安全中的高效应用,涵盖日志分析、威胁狩猎及应急响应等场景。通过实战技巧,助力安全工程师将日志分析效率提升3倍以上,构建轻量级监控方案。文章详解AWK核心语法与网络安全专用技巧,如时间范围分析、多条件过滤和数据脱敏,并提供性能优化与工具集成方案。掌握AWK,让安全工作事半功倍!
73 0
|
4月前
|
存储 运维 监控
为什么网络日志如此重要?
日志审计是网络安全的重要组成部分,通过分析网络日志,可快速定位故障、解决危机并提升系统安全性。网络日志记录了文件访问、用户登录等详细信息,甚至受某些法规约束需包含额外数据。日志审计无法被绕过,其在检测安全漏洞、法律取证和员工行为监控中作用显著。推荐一款工具EventLogAnalyzer,具备日志采集、分类存储、事件报警等功能,满足企业需求。购买时需注意品牌、功能及试用期,以选择最适合的产品。
152 11
|
8月前
|
运维 监控 网络协议
面对全球化的泼天流量,出海企业观测多地域网络质量
网络监控与分析在保证网络可靠性、优化用户体验和提升运营效率方面发挥着不可或缺的作用,对于出海企业应对复杂的网络环境和满足用户需求具有重要意义,为出海企业顺利承接泼天流量保驾护航。
364 214
|
6月前
|
存储 SQL Oracle
|
6月前
|
运维 监控 虚拟化
除了实时性能监控,Hyper-V还支持日志记录和警报功能你知道吗?
Hyper-V不仅支持实时性能监控,还具备强大的日志记录和警报功能。通过事件查看器可访问详细的日志文件,涵盖虚拟机管理、配置及Hypervisor事件,帮助故障排查和性能分析。警报功能支持预定义和自定义规则,可通过多种方式通知管理员,确保及时响应问题,保障虚拟化环境的稳定运行。

热门文章

最新文章