TuGraph Analytics作业监控面板:运行时组件上的高效分析工具

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 我们在作业进程中内置了一个Dashboard(本地启动/容器启动时自动生效),包括前端页面和后端server,用户可以不需要感知到它们的存在。通过访问Dashboard,用户可以更方便地通过白屏化的方式查看作业的执行进度、组件列表和详情、任意组件内部的指标、日志等。还可以通过Profiler工具对进程状态进行分析,快速定位问题。

作者:丁一

背景

TuGraph Analytics作业部署到K8S集群之后,通常会启动多个pod(一个master、一/多个driver、多个container)。用户很难判断作业当前运行的进度如何,也不能通过pod的状态来判断内部进程的状态。无论是查看进度、查看日志、性能分析,都需要到每一个pod中进行对应的操作,运维成本很大,需要一个白屏化的监控页面来监控所有进程的实时状态信息。

因此,我们在作业进程中内置了一个Dashboard(本地启动/容器启动时自动生效),包括前端页面和后端server,用户可以不需要感知到它们的存在。通过访问Dashboard,用户可以更方便地通过白屏化的方式查看作业的执行进度、组件列表和详情、任意组件内部的指标、日志等。还可以通过Profiler工具对进程状态进行分析,快速定位问题。

Dashboard介绍

TuGraph Analytics的Dashboard模块提供了作业级别的监控页面,可以轻松地查看作业的以下信息:

  • 作业的健康度(Container和Worker活跃度)
  • 作业的进度(Pipeline和Cycle信息)
  • 作业各个组件的实时日志
  • 作业各个组件的进程指标
  • 作业各个组件的火焰图
  • 作业各个组件的Thread Dump

如何访问页面

页面的服务部署在master组件上,因此直接访问master组件的地址即可(默认端口8090)。

访问Dashboard

功能介绍

TuGraph Analytics Dashboard包含以下几个主要的功能:

Overview

Overview页面会展示整个作业的健康状态。你可以在这里查看container和driver是否都在正常运行。

概览

除此之外,Overview页面也会展示作业的Pipeline列表。

作业执行计划进度

作业的执行计划可以由多个Pipeline表示,每个Pipeline内部又有多个Cycle。
可以通过侧边栏的Pipeline菜单进入页面。页面包括作业的每一项Pipeline的名称、开始时间和耗时。
耗时为0表示该Pipeline已开始执行,但尚未完成。

执行计划-Pipeline

点击Pipeline名称可以进入二级菜单,查看当前Pipeline下所有的Cycle列表的各项信息。

执行计划-Cycle

作业组件详情

可以查看作业的各个组件(包括master、driver、container)的各项信息。可以通过侧边栏的菜单进行访问。
其中Driver详情展示所有driver的基础信息。

Driver信息

Container详情展示所有Container的基础信息。

Container信息

组件运行时详情

通过点击左边栏的Master详情,或者通过点击Driver/Container详情中的组件名称,可以跳转到组件的运行时页面。在运行时页面中,可以查看和操作以下内容。

进程指标

展示完整的容器进程指标。

进程

容器日志

展示容器进程内的主要可见日志。
根据日志的log4j配置,默认日志文件大小最大为128G(此处测试简单起见设置为了50KB),超过后会进行文件备份。例如master.log.1和master.log.2就是master.log的备份之一。

日志

  • master.log:Master的java主进程日志。
  • master.log.1 / master.log.2:Master的java主进程日志备份。
  • agent.log:Master的agent服务日志。
  • geaflow.log:进入容器后的shell启动脚本日志。

点击任意一个日志可以进入日志详情页面。日志的获取进行了后端分页,可以在右下角选择每页的KB大小,并可以跳转到指定页数。

日志详情

火焰图

展示火焰图的历史执行结果,并可重新生成新的火焰图。火焰图分析类型可选择CPU或ALLOC,单次最多分析60秒,最多保留10份历史记录。
点击“新建”,即可生成新的火焰图。

  • 火焰图类型:可选CPU或者ALLOC(Memory)。
  • 执行时间:分析时间,需介于1~60秒之间。

新建火焰图

火焰图的执行时间根据用户的选择可能较久,因此会在后台静默执行。需要等待执行结束后,手动点击“新建”按钮旁边的“刷新”标识,获取最新的火焰图历史。

火焰图

火焰图详情

Thread Dump

展示主进程的Thread Dump结果,并可重新进行Dump。保留最新一次dump的结果。

Thread Dump

点击“重新执行”,等待执行结束后,结果会自动刷新。
Thread Dump详情

进程配置

展示master的java主进程内的各项配置(仅master拥有此页面)。

进程配置

其他用法

列表排序与查询

部分列表的列可以进行排序和查询。
查询时,点击“搜索”标识,输入关键字,点击“搜索”按钮即可。
重置时,点击“重置”按钮,列表会重新刷新。

列表

国际化

页面支持中英文切换,点击右上角的“文A”图标,即可选择语言。

国际化

欢迎关注我们的GitHub仓库: https://github.com/TuGraph-family/tugraph-analytics

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2月前
|
数据挖掘 BI 数据处理
FineBI在线学习资源-数据处理
FineBI在线学习资源-数据处理
58 1
|
6月前
|
监控 数据挖掘 UED
Google Analytics的实时监控功能有哪些优势?
【6月更文挑战第8天】Google Analytics的实时监控功能有哪些优势?
71 4
|
6月前
|
SQL Java 关系型数据库
技术心得记录:开源BI分析工具Metabase配置与完全使用手册
技术心得记录:开源BI分析工具Metabase配置与完全使用手册
868 0
|
7月前
|
存储 Prometheus 监控
性能监控之国产时序库TDengine TDinsight dashboard 指标解析
【2月更文挑战第1天】性能监控之国产时序库TDengine TDinsight dashboard 指标解析
742 1
性能监控之国产时序库TDengine TDinsight dashboard 指标解析
|
7月前
|
JSON 数据可视化 OLAP
TuGraph Analytics交互式图查询:让图所见即所得
TuGraph Analytics提供了OLAP图分析能力,实现图上的交互式查询,用户在构图并导入数据之后,可以通过输入GQL语句对图查询分析,并以可视化的方式直观地展示点边结果。
TuGraph Analytics交互式图查询:让图所见即所得
|
JSON 监控 数据可视化
实时日志分析:通过Golang编写实时日志分析模块,加强公司监控管理软件的日志监控功能
在当今数字化时代,企业面临着庞大而复杂的网络环境,对实时监控和日志分析的需求变得日益迫切。本文将介绍如何使用Golang编写实时日志分析模块,以增强公司监控管理软件的日志监控功能。通过本文的指导,你将能够建立一个定制的实时日志分析系统,更好地监测和管理公司的网络活动。
342 0
|
SQL 消息中间件 存储
TuGraph Analytics动态插件:快速集成大数据生态系统
插件机制为GeaFlow任务提供了外部数据源的集成能力扩展,GeaFlow支持从各类Connector中读写数据,GeaFlow将它们都识别为外部表,并将元数据存储在Catalog中。GeaFlow已有一些内置的插件,例如FileConnector,KafkaConnector,JDBCConnector,HiveConnector等。
|
SQL 数据采集 数据挖掘
90 网站点击流数据分析案例(工作流调度)
90 网站点击流数据分析案例(工作流调度)
52 0
|
数据采集 Java 大数据
大数据数据采集的数据采集(收集/聚合)的Logstash之强大的插件功能
在大数据领域中,Logstash是一款非常流行的数据采集工具。它具有丰富的插件功能,可以完成各种不同数据来源的数据采集任务。本文将介绍Logstash的插件功能,并为大家介绍几款强大的插件。
202 1
|
消息中间件 分布式计算 数据可视化
通过Flink+NBI可视化构建实时分析系统
Flink: Apache Flink是一个计算框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。 Flink主要特点: 1、高吞吐、低延迟、纯流式架构; 2、支持对乱序事件的处理; 3、有状态、提供exactly-once计算; 4、高度灵活的窗口机制; 5、失败恢复、故障转移、水平扩展; 6、批处理、流处理统一的API
通过Flink+NBI可视化构建实时分析系统