背景
随着多云,多region业务部署越来越普遍,对于复杂的网络链路而言,延迟/丢包成为客户关注的一个重点。
sls的logtail作为可观测性的组件,目前集成了icmping和tcping的功能,帮助业务快速发现网络侧的延迟和丢包问题,提升网络可观察性。
以下操作需要先开通 阿里云日志服务SLS
sls日志服务参考帮助文档:https://help.aliyun.com/document_detail/48869.html
操作步骤
Step1 确保logtail为较新的版本
需要确保logtal的版本 >=1.0.31 (2022年4月02日发布)
升级方法参考 https://help.aliyun.com/document_detail/28982.html#section-brd-r34-3wg
如果已经是最新的版本,可以跳过这一步
Step2 创建MetricStore
Step3 配置Netping
选择自定义数据插件
netping_config_json 样例
{
"inputs": [
{
"detail": {
"tcp": [
{
"port": 80,
"src": "192.168.0.103",
"count": 3,
"target": "www.baidu.com"
}
],
"interval_seconds": 60,
"icmp": [
{
"src": "192.168.0.103",
"count": 3,
"target": "www.baidu.com"
}
]
},
"type": "metric_input_netping"
}
]
}
其中 src要设置为要执行ping的ip地址,只有机器组里的机器,匹配到src是自己的ip的,才会执行对应的ping指令
建议单个src的ping的数量不要超过200个
Step 4 查询Metric
使用promql查询ping的结果
相关指标说明
指标名称 |
说明 |
ping_success |
单次执行icmp ping的成功数 |
ping_failed |
单次执行icmp ping的失败数 |
ping_total |
单次执行icmp ping的总数(count) |
ping_rtt_avg_ms |
单次执行icmp ping的平均响应时间,单位毫秒 |
ping_rtt_max_ms |
单次执行icmp ping的最大响应时间,单位毫秒 |
ping_rtt_min_ms |
单次执行icmp ping的最小响应时间,单位毫秒 |
ping_rtt_stddev_ms |
单次执行icmp ping的标准差时间,单位毫秒 |
ping_rtt_total_ms |
单次执行icmp ping的总响应时间,单位毫秒 |
tcp_success |
单次执行tcp ping的成功数 |
tcp_failed |
单次执行tcp ping的失败数 |
tcp_total |
单次执行tcp ping的总数(count) |
tcp_rtt_avg_ms |
单次执行tcp ping的平均响应时间,单位毫秒 |
tcp_rtt_max_ms |
单次执行tcp ping的最大响应时间,单位毫秒 |
tcp_rtt_min_ms |
单次执行tcp ping的最小响应时间,单位毫秒 |
tcp_rtt_stddev_ms |
单次执行tcp ping的标准差时间,单位毫秒 |
tcp_rtt_total_ms |
单次执行tcp ping的总响应时间,单位毫秒 |