作者:锦琛@阿里云
引言
开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。
EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基于此功能,客户可以自定义日志路径、规则,对集群设备上的日志自行接收和消费。本文以采集指标文件为例,帮助您快速上手自定义日志投递与使用。
关键字
E-MapReduce,日志管理,日志投递,日志消费
前提条件
已有阿里云EMR集群,且已开启日志查询功能。更多信息,请参见管理日志。
步骤1:配置采集
- 登陆E-MapReduce服务控制台。
- 选择前往日志服务控制台,点击右上角前往日志服务控制台。
- 创建日志库,选择合适的数据保存时间。
- 在新建日志库下点开logtail配置,选择json文件日志。
- 若开启日志投递,会看到已有的机器组,应用该机器组。
- 配置Logtail
设置日志路径/mnt/disk1/log/taihao_exporter/**/metrics.log*
然后点击下一步至完成。
- 索引配置(可选)
也可以配置索引方便对其做搜索,如图所示自动生成索引。
步骤2:查询指标
配置完毕后,就可以在sls上看到指标了。
您可以在Logstore的查询和分析页面,输入查询语句,选择时间范围,单击查找/分析,进行日志查询操作。
- 查询指标名为yarn_nodemanager_jvm_GcTimeMillis的值。
*and name: yarn_nodemanager_jvm_GcTimeMillis
- 查询指标名为yarn_nodemanager_jvm_GcTimeMillis且value>200的值。
*and name: yarn_nodemanager_jvm_GcTimeMillis and value >200
- 查询header节点的yarn_timelineserver_jvm_GcTimeMillis指标。
*and hostname:"emr-header-1.cluster-500202362"and name: yarn_timelineserver_jvm_GcTimeMillis
步骤3:分析日志
您可以在Logstore的查询和分析页面,输入查询和分析语句,选择时间范围,单击查找/分析,进行日志分析操作。
- 统计不同指标的数量。
*|SELECT"name",COUNT(*)AS PV GROUPBY"name"
- 计算不同时刻对应的指标数量,并按照时刻进行升序排序。
*|SELECT"timestamp",COUNT(*)AScountGROUPBY"timestamp"ORDERBY"timestamp"
参考信息:日志样例
钉钉扫码进群,了解更多详情