备案控制台

开发者社区开发与运维文章正文

TuGraph Analytics作业监控面板：运行时组件上的高效分析工具

2024-01-05 45

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 我们在作业进程中内置了一个Dashboard（本地启动/容器启动时自动生效），包括前端页面和后端server，用户可以不需要感知到它们的存在。通过访问Dashboard，用户可以更方便地通过白屏化的方式查看作业的执行进度、组件列表和详情、任意组件内部的指标、日志等。还可以通过Profiler工具对进程状态进行分析，快速定位问题。

作者：丁一

背景

TuGraph Analytics作业部署到K8S集群之后，通常会启动多个pod（一个master、一/多个driver、多个container）。用户很难判断作业当前运行的进度如何，也不能通过pod的状态来判断内部进程的状态。无论是查看进度、查看日志、性能分析，都需要到每一个pod中进行对应的操作，运维成本很大，需要一个白屏化的监控页面来监控所有进程的实时状态信息。

因此，我们在作业进程中内置了一个Dashboard（本地启动/容器启动时自动生效），包括前端页面和后端server，用户可以不需要感知到它们的存在。通过访问Dashboard，用户可以更方便地通过白屏化的方式查看作业的执行进度、组件列表和详情、任意组件内部的指标、日志等。还可以通过Profiler工具对进程状态进行分析，快速定位问题。

Dashboard介绍

TuGraph Analytics的Dashboard模块提供了作业级别的监控页面，可以轻松地查看作业的以下信息：

作业的健康度（Container和Worker活跃度）
作业的进度（Pipeline和Cycle信息）
作业各个组件的实时日志
作业各个组件的进程指标
作业各个组件的火焰图
作业各个组件的Thread Dump

如何访问页面

页面的服务部署在master组件上，因此直接访问master组件的地址即可（默认端口8090）。

访问Dashboard

功能介绍

TuGraph Analytics Dashboard包含以下几个主要的功能：

Overview

Overview页面会展示整个作业的健康状态。你可以在这里查看container和driver是否都在正常运行。

除此之外，Overview页面也会展示作业的Pipeline列表。

作业执行计划进度

作业的执行计划可以由多个Pipeline表示，每个Pipeline内部又有多个Cycle。
可以通过侧边栏的Pipeline菜单进入页面。页面包括作业的每一项Pipeline的名称、开始时间和耗时。
耗时为0表示该Pipeline已开始执行，但尚未完成。

执行计划-Pipeline

点击Pipeline名称可以进入二级菜单，查看当前Pipeline下所有的Cycle列表的各项信息。

执行计划-Cycle

作业组件详情

可以查看作业的各个组件（包括master、driver、container）的各项信息。可以通过侧边栏的菜单进行访问。
其中Driver详情展示所有driver的基础信息。

Driver信息

Container详情展示所有Container的基础信息。

Container信息

组件运行时详情

通过点击左边栏的Master详情，或者通过点击Driver/Container详情中的组件名称，可以跳转到组件的运行时页面。在运行时页面中，可以查看和操作以下内容。

进程指标

展示完整的容器进程指标。

容器日志

展示容器进程内的主要可见日志。
根据日志的log4j配置，默认日志文件大小最大为128G（此处测试简单起见设置为了50KB），超过后会进行文件备份。例如master.log.1和master.log.2就是master.log的备份之一。

master.log：Master的java主进程日志。
master.log.1 / master.log.2：Master的java主进程日志备份。
agent.log：Master的agent服务日志。
geaflow.log：进入容器后的shell启动脚本日志。

点击任意一个日志可以进入日志详情页面。日志的获取进行了后端分页，可以在右下角选择每页的KB大小，并可以跳转到指定页数。

日志详情

火焰图

展示火焰图的历史执行结果，并可重新生成新的火焰图。火焰图分析类型可选择CPU或ALLOC，单次最多分析60秒，最多保留10份历史记录。
点击“新建”，即可生成新的火焰图。

火焰图类型：可选CPU或者ALLOC（Memory）。
执行时间：分析时间，需介于1~60秒之间。

新建火焰图

火焰图的执行时间根据用户的选择可能较久，因此会在后台静默执行。需要等待执行结束后，手动点击“新建”按钮旁边的“刷新”标识，获取最新的火焰图历史。

火焰图

火焰图详情

Thread Dump

展示主进程的Thread Dump结果，并可重新进行Dump。保留最新一次dump的结果。

Thread Dump

点击“重新执行”，等待执行结束后，结果会自动刷新。
Thread Dump详情

进程配置

展示master的java主进程内的各项配置（仅master拥有此页面）。

进程配置

其他用法

列表排序与查询

部分列表的列可以进行排序和查询。
查询时，点击“搜索”标识，输入关键字，点击“搜索”按钮即可。
重置时，点击“重置”按钮，列表会重新刷新。

国际化

页面支持中英文切换，点击右上角的“文A”图标，即可选择语言。

国际化

欢迎关注我们的GitHub仓库： https://github.com/TuGraph-family/tugraph-analytics

文章标签：

日志服务

容器

监控

Java

Perl

前端开发

相关实践学习

日志服务之使用Nginx模式采集日志

本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。

TuGraphAnalytics

目录

相关文章

zuozewei

|

16小时前

|

存储 Prometheus 监控

性能监控之国产时序库TDengine TDinsight dashboard 指标解析

【2月更文挑战第1天】性能监控之国产时序库TDengine TDinsight dashboard 指标解析

zuozewei

282 1 1

性能监控之国产时序库TDengine TDinsight dashboard 指标解析

TuGraphAnalytics

|

16小时前

|

JSON 数据可视化 OLAP

TuGraph Analytics交互式图查询：让图所见即所得

TuGraph Analytics提供了OLAP图分析能力，实现图上的交互式查询，用户在构图并导入数据之后，可以通过输入GQL语句对图查询分析，并以可视化的方式直观地展示点边结果。

TuGraphAnalytics

56 0 0

TuGraph Analytics交互式图查询：让图所见即所得

游客psjcjbl4ajmlo

|

6月前

|

SQL 分布式计算数据可视化

基于MaxCompute Notebook一分钟快速制作热点事件动态视频

本文主要介绍基于MaxCompute Notebook快速制作热点事件动态视频的操作方法。

游客psjcjbl4ajmlo

63949 2 8

阿甘兄

|

6月前

|

SQL 数据采集数据挖掘

90 网站点击流数据分析案例（工作流调度）

90 网站点击流数据分析案例（工作流调度）

阿甘兄

20 0 0

架构师研究会

|

12月前

|

SQL Oracle 关系型数据库

「集成架构」2020年最好的15个ETL工具(第二部)

「集成架构」2020年最好的15个ETL工具(第二部)

架构师研究会

442 0 0

NBI大数据可视化

|

消息中间件分布式计算数据可视化

通过Flink+NBI可视化构建实时分析系统

Flink： Apache Flink是一个计算框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。 Flink主要特点： 1、高吞吐、低延迟、纯流式架构； 2、支持对乱序事件的处理； 3、有状态、提供exactly-once计算； 4、高度灵活的窗口机制； 5、失败恢复、故障转移、水平扩展； 6、批处理、流处理统一的API

NBI大数据可视化

481 0 0

通过Flink+NBI可视化构建实时分析系统

javpower

|

监控 NoSQL 数据可视化

工具分享--可视化管理与监控（三）

ZooKeeper Assistant、Redis Assistant

javpower

157 1 1

工具分享--可视化管理与监控（三）

胖胖雕

|

存储人工智能数据可视化

译文——一个基于Web的交互式COVID-19实时追踪仪表盘可视化系统

今天带来跟新冠肺炎疫情相关的另一篇论文——关于约翰霍普金斯大学开发的疫情追踪可视化系统。该文章已发表于The Lancet Infectious Disease，由两位中国博士生领衔开发。

胖胖雕

1707 0 0

海清

|

Web App开发分布式计算数据可视化

MaxCompute Studio使用心得系列4——可视化查看所有job并分析运行情况

“通过`show p -all;`命令查看所有执行过的job，再通过`wait instanceid;`查看这个job的logview，最后通过logview再查看具体的执行日志。” 这样的方式查看所有job并分析运行情况实在太麻烦，MaxCompute Studio已经可以轻松完成了。

海清

5765 0 0

海清

|

SQL Web App开发分布式计算

MaxCompute Studio使用心得系列3——可视化分析作业运行

我们很熟悉的是通过Logview 去分析作业的执行情况，logview上有很详细的执行日志，而Studio不仅仅提供可视化的信息，还会明确给出一些分析结论如job是有否长尾或数据倾斜情况。

海清

3891 0 0

热门文章

最新文章

CVE-2017-9805:Struts2 REST插件远程执行命令漏洞(S2-052) 分析报告

MySQL数据库重命名的方法

流言终结者- Flutter和RN谁才是更好的跨端开发方案？

阿里云播放器SDK的正确打开方式 | 功能、架构与应用（一）

Zabbix icmping外网检测(学习笔记十二)

UIKit 框架之UIImageView

【iOS开发】自动识别剪贴板内容

IOS设计模式第三篇之外观设计模式

轻松制作Windows Vista/Windows 7系统WIM镜像

运行第一个scala程序

平衡二叉树的插入和删除（从现在开始摆脱旋转）

二叉树---前，中，后序遍历做题技巧（前，中，后，层次，线索二叉树）

软考之业务处理系统的特点

构建高效自动化运维系统：基于容器技术的持续集成与持续部署（CI/CD）实践

第五十八练堆排序实现

Vue3.0监听器watch与watchEffect

实时数仓 Hologres产品使用合集之可以直接接入接口吗

数据结构-----树的易错点

第五十七练归并排序实现

相关课程

更多

实时数据分析：使用Flink实时发现最热Github项目

阿里云实时数仓实战 - 作业调度与数据可视化

日志服务 SLS 可观测数据分析平台介绍

海量数据实时在线分析 Quick BI入门

阿里云实时数仓实战 - 数据生成及采集

运维监控系统

相关电子书

更多

Elasticsearch全观测技术解析与应用（构建日志、指标、APM统一观测平台）

基于streaming构建统一的数据处理引擎的挑战与实践

基于Kubernates的流处理平台实践 ——Flink为例

相关实验场景

更多

配置流程编排实现根据天气情况播放歌曲

基于DTS构建一站式实时数据服务

基于Hologres+Flink搭建GitHub实时数据大屏

基于OpenTelemetry构建全链路追踪与监控

基于Flink+Tair搭建实时监控大屏

基于数据湖架构的网站访问行为分析

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考