阿里云EMR自定义日志投递与使用实践分享

简介: EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基于此功能,客户可以自定义日志路径、规则,对集群设备上的日志自行接收和消费。本文以采集指标文件为例,帮助您快速上手自定义日志投递与使用。

作者:锦琛@阿里云

引言

开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。


EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基于此功能,客户可以自定义日志路径、规则,对集群设备上的日志自行接收和消费。本文以采集指标文件为例,帮助您快速上手自定义日志投递与使用。


关键字

E-MapReduce,日志管理,日志投递,日志消费


前提条件

已有阿里云EMR集群,且已开启日志查询功能。更多信息,请参见管理日志


步骤1:配置采集

  1. 登陆E-MapReduce服务控制台
  2. 选择前往日志服务控制台,点击右上角前往日志服务控制台。

image.png

  1. 创建日志库,选择合适的数据保存时间。

image.png

  1. 在新建日志库下点开logtail配置,选择json文件日志。

image.png

  1. 若开启日志投递,会看到已有的机器组,应用该机器组。

image.png

  1. 配置Logtail

设置日志路径/mnt/disk1/log/taihao_exporter/**/metrics.log*

然后点击下一步至完成。

image.png

  1. 索引配置(可选)

也可以配置索引方便对其做搜索,如图所示自动生成索引。

image.png


步骤2:查询指标

配置完毕后,就可以在sls上看到指标了。

image.png

您可以在Logstore的查询和分析页面,输入查询语句,选择时间范围,单击查找/分析,进行日志查询操作。

  • 查询指标名为yarn_nodemanager_jvm_GcTimeMillis的值。
*and name: yarn_nodemanager_jvm_GcTimeMillis
  • 查询指标名yarn_nodemanager_jvm_GcTimeMillis且value>200的值。
*and name: yarn_nodemanager_jvm_GcTimeMillis and value >200
  • 查询header节点的yarn_timelineserver_jvm_GcTimeMillis指标。
*and hostname:"emr-header-1.cluster-500202362"and name: yarn_timelineserver_jvm_GcTimeMillis 


步骤3:分析日志

您可以在Logstore的查询和分析页面,输入查询和分析语句,选择时间范围,单击查找/分析,进行日志分析操作。

  • 统计不同指标的数量。
*|SELECT"name",COUNT(*)AS PV GROUPBY"name"

image.png

  • 计算不同时刻对应的指标数量,并按照时刻进行升序排序。
*|SELECT"timestamp",COUNT(*)AScountGROUPBY"timestamp"ORDERBY"timestamp"

image.png


参考信息:日志样例

image.png





钉钉扫码进群,了解更多详情

image.png

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
1月前
|
SQL 分布式计算 关系型数据库
阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践
本文以云厂商售后技术支持的角度,从客户的需求出发,对于阿里云EMR-Trino集群的选型,外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录,模拟客户已有的业务场景,满足客户需求的同时对过程中的问题点进行解决、记录和分析,包括但不限于Mysql、ODPS、Hive connector的配置,Hive、Delta及Hudi等不同表格式读取的兼容,aws s3、阿里云 oss协议访问异常的解决等。
|
2月前
|
存储 监控 安全
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
为了提供更好的日志数据服务,360 企业安全浏览器设计了统一运维管理平台,并引入 Apache Doris 替代了 Elasticsearch,实现日志检索与报表分析架构的统一,同时依赖 Doris 优异性能,聚合分析效率呈数量级提升、存储成本下降 60%....为日志数据的可视化和价值发挥提供了坚实的基础。
360 企业安全浏览器基于阿里云数据库 SelectDB 版内核 Apache Doris 的数据架构升级实践
|
2月前
|
搜索推荐 机器人 开发工具
5 天学会阿里云 RPA:自定义组件
机器人流程自动化(RPA)技术在各个行业都取得了显著的成就,阿里云 RPA 作为其中的佼佼者,为用户提供了一种高效、灵活的自动化解决方案。除了内置的组件和功能,阿里云 RPA 还支持自定义组件的开发,使得用户能够根据自己的需求和业务流程进行个性化的定制。
|
3月前
|
JSON 安全 Serverless
在使用阿里云函数计算(FC)服务时,您可以通过自定义域名来访问部署好的云函数
在使用阿里云函数计算(FC)服务时,您可以通过自定义域名来访问部署好的云函数【1月更文挑战第23天】【1月更文挑战第112篇】
223 7
|
3月前
|
安全 机器人 数据安全/隐私保护
基于钉钉的阿里云管理实践(四)之续费充值
在阿里云资源的运营过程中,及时续费和充值是保障服务不中断的关键行动。借助钉钉及其集成的阿里云管理功能,用户可以方便地接收到续费通知,并完成充值过程。本教程将为您详细介绍从收到续费提醒信息到完成充值的全过程。
100 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
719 2
|
1月前
|
Prometheus 监控 Kubernetes
Kubernetes 集群监控与日志管理实践
【2月更文挑战第29天】 在微服务架构日益普及的当下,Kubernetes 已成为容器编排的事实标准。然而,随着集群规模的扩大和业务复杂度的提升,有效的监控和日志管理变得至关重要。本文将探讨构建高效 Kubernetes 集群监控系统的策略,以及实施日志聚合和分析的最佳实践。通过引入如 Prometheus 和 Fluentd 等开源工具,我们旨在为运维专家提供一套完整的解决方案,以保障系统的稳定性和可靠性。
|
29天前
|
SQL 存储 API
阿里云实时计算Flink的产品化思考与实践【下】
本文整理自阿里云高级产品专家黄鹏程和阿里云技术专家陈婧敏在 FFA 2023 平台建设专场中的分享。
110807 100
阿里云实时计算Flink的产品化思考与实践【下】
|
3月前
|
弹性计算 运维 监控
基于钉钉的阿里云管理实践(三)之运维管控
随着移动互联网的发展,使用移动设备进行云资源管理变得越来越普及。钉钉作为一款企业沟通和协作工具,其集成的阿里云控制台小程序让用户能够在移动端进行便捷的云资源管理操作。本教程将为您介绍如何在钉钉的阿里云控制台小程序内访问并操作阿里云资源。
115 1
|
1月前
|
Prometheus 监控 Kubernetes
Kubernetes 集群的监控与日志管理实践
【2月更文挑战第31天】 在微服务架构日益普及的今天,容器编排工具如Kubernetes已成为部署、管理和扩展容器化应用的关键平台。然而,随着集群规模的扩大和业务复杂性的增加,如何有效监控集群状态、及时响应系统异常,以及管理海量日志信息成为了运维人员面临的重要挑战。本文将深入探讨 Kubernetes 集群监控的最佳实践和日志管理的高效策略,旨在为运维团队提供一套系统的解决思路和操作指南。
27 0