分布式系统日志上下文查询功能-阿里云开发者社区

分布式系统日志上下文查询功能

2017-06-12 6456

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 日志查看方式随着技术的发展，越来越多的系统从单机转向到分布式，同时对应的日志查看方式除了直接查看文件外，也发展出了各种集中日志管理方式。

日志查看方式

随着技术的发展，越来越多的系统从单机转向到分布式，同时对应的日志查看方式除了直接查看文件外，也发展出了各种集中日志管理方式。其中常见日志查看方式如下：

单线程程序

开发单机程序时诊断非常简单：设置断点，检查断点上下变量状态即可。
当程序部署线上后，可以把断点中内容以日志方式记录下来。出现错误后，还原日志上下文（Context）不难，只要把日志文件中前后N行拿到后都能容易找到问题

多线程程序

当多线程出现后，还原上下文变得复杂一些，因为不同线程打日志顺序会造成一定干扰。我们可以在日志中记录、筛选线程（ThreadID）来排除其他线程干扰，拿到上下文

分布式系统

在分布式场景下（比如Docker、LXC、多服务器等），进程会同时跑在不同服务器上，一般通过集中式日志管理（例如Splunk、ELK、日志服务）等查找定位日志。

这种场景下查找日志非常方便（例如通过"Level:Error"，"Latency>100000 & Method:HandleRequest"等能对上亿日志进行快速查找），但定位到关键日志后还原上下文却变得很难。因为日志采集、索引都是无序的，为了还原上下文，必须通过时间、机器、线程号来筛选和查找（这种方法一般不够精确），业界并没有好的方法。