指标含义
监控数据入口请参考
LogHub监控章节。
- 写入/读取流量
- 含义:每个日志库(Logstore)写入、以及读取实时情况。统计该Logstore通过ilogtail和SDK、API等读写实时流量,大小为传输大小(压缩情况下为压缩后),每分钟统计一个点。
- 单位:Bytes/min
原始数据大小
- 含义:每个Logstore写入数据原始大小(压缩前)
- 单位:Byte/min
总体QPS
- 含义:所有操作QPS,每分钟统计一个点
- 单位:Count/Min
操作次数
- 含义:统计用户的各种操作对应的QPS,每分钟统计一个点
- 单位:次/分钟(Count/Min)
- 所有的操作包括:写入操作:PostLogStoreLogs :0.5API以后版本接口。
- PutData : 0.4 API以前版本接口。
根据关键字查询:
- GetLogStoreHistogram: 查询关键字分布情况,0.5API以后版本接口。
- GetLogStoreLogs: 查询关键字命中日志,0.5API以后版本接口。
- GetDataMeta : 同GetLogStoreHistogram,为0.4API以前版本接口。
- GetData : 同GetLogStoreLogs,为0.4API以前版本接口。
批量获取数据:
- GetCursorOrData:该操作包含了获取Cursor和批量获取数据两种方法。
- ListShards:获取一个Logstore下所有的Shard。
List操作:
- ListCategory:同ListLogStoreLogs,为0.4API以前版本接口。
- ListTopics:遍历一个Logstore下所有的Topic。
服务状态
- 含义:该视图统计用户的各种操作返回的HTTP 状态码对应的QPS,方便用户根据错误的返回码来判断操作异常,及时调整程序。
- 各状态码:200:为正常的返回码,表示操作成功。
- 400:错误的参数,包括Host,Content-length,APIVersion,RequestTimeExpired,查询时间范围,Reverse,AcceptEncoding,AcceptContentType,Shard ,Cursor,PostBody,Paramter,ContentType等方面的错误。
- 401:鉴权失败,包括AccessKeyId不存在、签名不匹配、或者签名账户没有操作权限,请到SLSweb上查看project权限列表,是否包含了该AK。
- 403: 超过预定Quota,包括能够创建的Logstore个数、Shard总数、以及读写操作的每分钟限额,请根据返回的Message判断发生了哪种错误。
- 404:请求的资源不存在,包括project、 Logstore、Topic 、User等资源。
- 405:错误的操作方法,请检查请求的URL路径。
- 500:服务端错误,请重试。
- 502:服务端错误,请重试。
客户端解析成功流量
- 含义:Logtail收集成功的日志大小,为原始数据大小
- 单位:字节
客户端(Logtail)解析成功行数
- 含义:Logtail收集成功的日志的行数
- 单位: 行
客户端解析失败行数
- 含义:Logtail收集日志过程中,采集出错的行数大小,如果该视图有数据,表示有错误发生
- 单位:行
客户端错误次数
- 含义:Logtail收集日志过程中,出现所有收集错误的IP总数
- 单位:次
发生客户端错误机器数
- 含义:Logtail收集日志过程中,出现收集错误的告警客户端数目
- 单位:个
错误IP统计(Count/5min)
- 含义:分类别展示各种采集错误发生的IP数,各种错误包括:LOGFILE_PERMINSSION_ALARM:没有权限打开日志文件。
- SENDER_BUFFER_FULL_ALARM:数据采集速度超过了网络发送速度,数据被丢弃。
- INOTIFY_DIR_NUM_LIMIT_ALARM(INOTIFY_DIR_QUOTA_ALARM):监控的目录个数超过了3000个,请把监控的根目录设置成更低层目录。
- DISCARD_DATA_ALARM:数据丢失,因为数据时间在系统时间之前15分钟,请保证新写入日志文件的数据是在15分钟之内的。
- MULTI_CONFIG_MATCH_ALARM:有多个配置在收集同一个文件,Logtail会随机选择一个配置进行收集,另一个配置则收集不到数据。
- REGISTER_INOTIFY_FAIL_ALARM:注册inotify事件失败,具体原因请查看Logtail日志。
- LOGDIR_PERMINSSION_ALARM:没有权限打开监控目录。
- REGEX_MATCH_ALARM:正则式匹配错误,请调整正则式。
- ENCODING_CONVERT_ALARM:转换日志编码格式时出现错误,具体原因请查看Logtail日志。
- PARSE_LOG_FAIL_ALARM:解析日志错误,一般是行首正则表达式错误或单条日志超过512KB导致的日志分行错误,请查看Logtail日志确定原因,如行首正则表达式错误请调整配置。
- DISCARD_DATA_ALARM:丢弃数据,Logtail发送数据到日志服务失败且写本地缓存文件失败导致,可能的原因是日志文件产生较快但写磁盘缓存文件较慢。
- SEND_DATA_FAIL_ALARM:解析完成的日志数据发送日志服务失败,请查看Logtail日志发送数据失败相关ErrorCode和ErrorMessage,常见的错误有服务端Quota超限、客户端网络异常等。
- PARSE_TIME_FAIL_ALARM:解析日志time字段出错,Logtail根据正则表达式解析出来的time字段按照时间格式配置无法解析成功,请修改配置。
- OUTDATED_LOG_ALARM:Logtail丢弃历史数据,请保证当前写入日志数据的时间与系统时间相差在5分钟以内。
请根据具体错误请找到出错IP,登录机器查看/usr/logtail/ilogtail.LOG查看错误原因。