通过日志服务采集、分析日志
(ETA: 20 分钟)
目标
- 掌握阿里云日志服务基本功能
- 成功收集Docker中日志,利用EMR(Spark Streaming,Hive)进行日志分析
准备工作
- 产品基本介绍(链接)
注意事项:
- 日志服务当前免费使用,无耗费
- Docker运行集群会产生费用
步骤1:收集容器、云主机日志
Logtail是Linux、Windows客户端,无需代码就能便捷完成日志收集工作,下面我们会演示如何收集Docker中WordPress日志数据。
- 收集wordpress访问日志,打开日志服务控制台,点击右上角"创建项目",在这里我们可以创建yunqi-wordpress项目。当名字被占用后,请更换一个项目名
- 在项目下创建日志库(logstore),例如: wordpress-accesslog
日志服务提供两种方式进行日志收集:通过API或Agent(Logtail),这里我们演示客户端的流程
- 选择linux服务器
我们的日志位于"/var/log/wordpress.log",因此分别填写父目录,以及日志文件路径
- 父目录: /var/log
- 文件路径:wordpress.log
在服务器中添加Wordpress中访问日志,可以点击常见样例中的__示例四:WordPress默认日志格式__进行参考。WordPress访问日志如下:
172.64.0.2 - - [07/Jan/2016:21:06:39 +0800] "GET /wp-admin/js/password-strength-meter.min.js?ver=4.4 HTTP/1.0" 200 776 "http://wordpress.c4a1a0aecdb1943169555231dcc4adfb7.cn-hangzhou.alicontainer.com/wp-admin/install.php" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"
点击生成行首正则表达式
行首正则表达式为了区分换行部分属于本行、还是换行日志,例如我们认为以ip开头的是独立的日志
指定日志解析正则表达式。Logtail 提供本地结构化功能,用户可以生成在客户端对日志进行切分。如果不需要,也可将整条日志作为一个Key、Value进行切分
通过正则表达式将文本进行切分,在收集端对日志进行切分对于格式固定的日志,能够减少后期分析的代价,用户也可以将整条日志一并发送到Server端进行处理。可以在刚才打开的常见样例中的__示例四:WordPress默认日志格式__直接复制。
(\S+) - - \[([^\]]*)] "(\S+) ([^"]+)" (\S+) (\S+) "([^"]+)" "([^"]+)"
对每一个切分单元提供标签,例如
| Key | Value | |-----|-------| | ip | 127.64.0.2| | time | 07/Jan/2016:21:06:39 +0800 | | method | GET | | url | /wp-admin/js/password-strength-meter.min.js?ver=4.4 HTTP/1.0 | | status | 200 | | length | 776 | | ref | http://wordpress.c4a1a0aecdb1943169555231dcc4adfb7.cn-hangzhou.alicontainer.com/wp-admin/install.php | | user-agent | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36 |
__注意__:Key列表中需要包含__time__字段,以让系统识别日中中时间
- 配置完成后,需要添加机器组,并应用配置使得收集生效
创建一个机器组“wordpress-group",填写需要收集日志机器内网IP至机器组
内网IP获取方法:打开容器服务控制台,集群->集群名称/ID->配置信息->内网IP
- 大功告成!一分钟内日志收集配置就会生效,开始收集实时日志数据
__提示__:可以通过项目中"机器组管理" 查看状态,以验证是否生效。如果状态是Fail,请根据提示排查
点击"日志消费"->"预览"既可以顺序浏览指定Shard中日志数据。
为了加快日志产生速度,我们可以尝试在wordpress中发帖,回复,浏览等以产生访问日志
步骤2:消费日志数据(实时分析、日志查询、日志投递)
日志服务与多个下游产品进行集成,可以实时、离线、批量消费日志数据。以下我们演示实时分析、以及查询两个场景。
实时消费: 我们启动Dashboard应用演示对博客日志实时分析效果
- 打开容器服务控制台,选择编排模板->yunqi-wordpress-view->创建应用。
2.选择创建名为"yunqi-wordpress-view-default"应用,部署在"yunqi-test"集群中
3.点击菜单中的服务, "wordpress-view", 访问端点打开应用
4.该应用通过实时读取日志服务中的日志,统计博客访问情况,各参数如下:
- LogService服务地址: http://cn-hangzhou.sls.aliyuncs.com/ (默认无需修改)
- AccessKeyId/AccessKey: 在AK页面上可以获得
Project/LogStore:收集wordpress访问日志的Project, Logstore
5.点击刷新、发表一些博客,看看日志实时分析的结果:
日志查询: LogSearch提供了对日志索引,支持基于关键词的查询。
- 回到Project,对wordpress-accesslog日志库__日志消费模式__下__日志索引__点击创建,对需要查询的字段建立索引
- 一分钟内配置生效,既可进行日志查询
离线消费
- 日志服务可以将日志投递至OSS、ODPS进行离线计算,感兴趣可以点击日志投递进行了解
补充材料
- 日志服务:针对日志垂直场景的一站式服务,在阿里巴巴集团内部被广泛使用,参见介绍页面
- 项目(Project) : 每个项目具有唯一的地址和名字,提供唯一的访问地址
-
- 日志库是日志管理单元,在项目下唯一。例如应用有access-log, click-log, error-log等三种日志,我们就可以创建三个logstore。
- 日志库提供48小时临时存储,用户可以实时消费48小时内任意区间的日志文件,如果需要更长时间存储,可以投递到OSS、ODPS,或建立索引进行查询
- Logtail:收集日志客户端,参考
除杭州外其他Region需要修改地方:
- wordpress资源编排模板environment:- log_region=cn_hangzhou,改为对应Region,如cn_shenzhen
- 实时消费程序LogService服务地址: http://cn-hangzhou.sls.aliyuncs.com/ 改为对应Region,如 http://cn-shenzhen.sls.aliyuncs.com/