日志服务自助排查问题

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: 使用日志服务遇到什么困难?这里有本指南分享给大家

收集端错误

根据ilogtail.LOG中具体错误来判断

文件位置:/usr/local/ilogtail/ilogtail.LOG,用户需要关心的是ERROR/WARNNING级别日志。

常见错误

  1. 在日志中出现下列错误,表示gbk日志转码utf8错误,请确认日志文件是gbk编码

    ``` convert GBK to UTF8 fail, errno ```
    
  1. 日志切行错误,请查看日志行首正则表达式是否正确,另外保证单条日志大小在512KB以内。

    ``` no log lines parse success : please check log_begin_regex ```
    
    
  2. 行首正则表达式与日志内容不匹配。

    ``` regex_match in LogSplit fail, exception ```
    
  1. 正则解析日志错误,日志内容与正则解析表达式不匹配,请修改正则。

    ``` parse regex log fail```
    
  1. 丢弃历史数据,logtail在解析新增日志内容完成后,会检查当前的日志时间是否合法,并丢弃在当前系统时间5分钟前产生的日志数据。请减少内存中buffer的日志数据大小并尽快flush让日志落盘。

    
    ```scard history data ```
    
    
    
  2. 数据发送错误

    ``` send data to SLS fail : discard data ```
    
  3. 数据发送失败并丢弃数据,请关注该发送错误对应的error_code、error_message。logtail发送数据失败,会立即重试发送该请求,数据不丢失。
send data to SLS fail, write to buffer file and retry later ```

8. logtail发送数据失败,会将该日志数据写到本地磁盘文件(最多1GB,大小移出后FIFO覆盖最旧文件写),在接下来的24小时内为用户进行重试。

```send data fail, unknown excepiton, retry later```


9. quota超限导致数据无法写入,请提工单,申请调整quota。

```send data fail, errorCode: SLSWriteQuotaExceed```



10.  日志时间计算错误

```Parse Time Fail, exception```

11. 请检查time字段设置的次数是否正确,日期格式timeformat与日志内容是否匹配。

```extract time of first log line fail```

12. 计算日志的首行数据的日志时间出错,请检查time字段设置的次数是否正确,日期格式timeformat与日志内容是否匹配。

```parse apsara log time fail```

13. 飞天日志的时间格式错误,请检查是否使用正确的apsara logger。

```paser time for regex log fail```

14. 使用正则表达式解析的日志时间格式错误,请检查time字段设置的次数是否正确,日期格式timeformat与日志内容是否匹配。

``` discard error timeformat log```


15. 注册监控项超出限制,logtail最多使用操作系统的三千个目录,(logtail默认会递归注册监控目录),请缩小监控目录范围。

```failed to register dir, exceed the max allowed watch num```


16. 日志文件轮转过快,日志文件在短时间内多次发生轮转,logtail处理不及,可能会丢失部分已轮转的日志尾部数据。请尝试降低日志轮转频度。

```file rollback again in a short interval, stop read file```


17. 日志截断写错误,当日志截断写的时候,logtail发现文件签名(前1024字节)发生变化,会从头开始解析该日志文件。

```currentOffset little than lastReadOffset, file maybe truncated```


18. 配置错误,用户收集config配置的日志目录不存在,请检查应用日志目录、文件。

```logPath in config not exist```


19. 网络错误,请测试网络是否可以联通,logtail使用域名在/usr/local/ilogtail/ilogtail_config.json

```send data fail, error_code:SLSClientNetworkError errorMessage:Request operation failed. CURL_ERROR_CODE:6```


## 根据监控信息判断发生了什么错误

[通过logstore监控查看日志服务是否正常](https://help.aliyun.com/document_detail/sls/faq/logmonitor.html)

## 机器组机器心跳fail问题解决办法

[请参考](https://help.aliyun.com/document_detail/sls/faq/logtail.html)文档中的"为什么我的Logtail心跳状态不正常?"


## 预览能看到日志,无法查询日志

预览日志功能只提供查看20条日志,如果需要查询具体的日志,请先创建索引

## 多久能看到写入的数据

使用sdk写入的数据,可以立刻通过SDK批量消费,30s后可以通过关键字查询。

使用logtail写入的数据,3s后可以通过SDK批量消费,30s后可以通过关键字查询。
  
  
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
Dubbo Java 应用服务中间件
项目中引进这玩意,排查日志又快又准
随着微服务盛行,很多公司都把系统按照业务边界拆成了很多微服务,在排错查日志的时候,因为业务链路贯穿着很多微服务节点,导致定位某个请求的日志以及上下游业务的日志会变得有些困难。
|
运维 监控 安全
应急实战 | 记一次日志缺失的挖矿排查
应急实战 | 记一次日志缺失的挖矿排查
207 0
FeignClient打印请求失败的日志,打印所有feignCliet接口请求失败的错误日志,方便排查原因
FeignClient打印请求失败的日志,打印所有feignCliet接口请求失败的错误日志,方便排查原因
272 0
|
3月前
|
Java Shell
「sh脚步模版自取」测试线排查的三个脚本:启动、停止、重启、日志保存
「sh脚步模版自取」测试线排查的三个脚本:启动、停止、重启、日志保存
49 1
|
3月前
|
Java 程序员 应用服务中间件
「测试线排查的一些经验-中篇」&& 调试日志实战
「测试线排查的一些经验-中篇」&& 调试日志实战
32 1
「测试线排查的一些经验-中篇」&& 调试日志实战
|
6月前
|
SQL Java Serverless
实时计算 Flink版操作报错合集之在写入SLS(Serverless Log Service)时出现报错,该如何排查
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
8月前
|
SQL Oracle 关系型数据库
oracle11g SAP测试机归档日志暴增排查(二)
oracle11g SAP测试机归档日志暴增排查(二)
352 1
|
8月前
|
Oracle 关系型数据库 Shell
oracle11g SAP测试机归档日志暴增排查(一)
oracle11g SAP测试机归档日志暴增排查(一)
89 1
|
4月前
|
Java
日志框架log4j打印异常堆栈信息携带traceId,方便接口异常排查
日常项目运行日志,异常栈打印是不带traceId,导致排查问题查找异常栈很麻烦。
|
5月前
|
JavaScript Serverless Linux
函数计算产品使用问题之遇到Node.js环境下的请求日志没有正常输出时,该如何排查
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。