EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

简介: E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。

大数据运维的挑战—如何保证集群稳定与运行效率

企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。

1662540673450-2fda9e17-b918-4ecc-b0ef-9b51e95c7157.png

集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。


对于大数据集群,管理员以及 CIO 等更关注以下的内容:

  • 集群内的节点的运行状态和资源使用状况;
  • 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
  • 计算任务运行情况和执行效率;
  • 整体集群的健康程度和如何改进。



面对运维挑战,EMR重磅推出:智能运维诊断系统(EMR Doctor)

为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。


如何使用 EMR Doctor

  1. 进入 EMR 控制台健康检查页面。
  1. 登录 EMR on ECS 控制台
  2. 在顶部菜单栏处,根据实际情况选择地域和资源组
  3. 集群管理页面,单击目标集群的集群ID
  4. 单击上方的健康检查页签。


  1. 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。

1111.gif


  1. 健康检查报告中包含集群计算资源的总体分析

3333.gif


  1. 健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议

2222.gif


  1. 健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析

4444.gif


  1. 健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告

计算资源分析

概述

状态概述

需要关注的问题

计算基础信息

集群计算评分

集群算力内存时

集群算力CPU时

计算引擎内存算力时

计算任务信息

计算任务算力内存时分析

计算任务评分排行榜

Spark

Spark任务算力分析及调优建议

Tez

Tez任务算力分析及调优建议

MapReduce

MapReduce任务算力分析及调优建议

HDFS存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

HDFS基础信息

HDFS存储资源使用趋势

文件总数随时间变化趋势

评分趋势

HDFS文件大小分布

HDFS文件大小比例

一级目录空文件个数Top10

一级目录极小文件个数Top10

一级目录小文件个数Top10

一级目录中等文件个数Top10

一级目录大文件个数Top10

HDFS冷热数据分布

HDFS冷热数据

一级目录极冷数据大小Top10

一级目录冷数据大小Top10

一级目录温数据大小Top10

一级目录热数据大小Top10

HIVE存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

Hive基础信息

存储趋势

文件数量趋势

评分趋势

Hive库信息

库存储排名

库文件总数排名

库评分

Hive表文件大小分布

Hive表文件大小分布比例

Hive表空文件个数Top10

Hive表极小文件个数Top10

Hive表小文件个数Top10

Hive中等文件个数Top10

Hive大文件个数Top10

Hive冷热数据分布

Hive冷热数据分布

Hive表极冷数据大小Top10

Hive表冷数据大小Top10

Hive表温数据大小Top10

Hive表热数据大小Top10

Hive表存储格式分布

Hive表存储格式分布

Hive表TextFile/Parquet/ORC格式文件分析



如何开通EMR Doctor

开通及使用咨询问题请见 EMR Doctor常见问题

  • EMR-3.39.0之前版本、EMR-5.5.0之前版本,EMR-4.10之前版本需要手动开通健康检查功能,请参见开通指南
  • EMR-3.39.0及更高版本,EMR-5.5.0及更高版本,EMR-4.10及更高版本默认提供健康检查功能,无需手动开通



欢迎钉钉扫码加入EMR Doctor用户技术交流群

获取集群运维最新功能和最佳行业实践~

1662533848254-9c35fff2-91ea-4bbf-a89d-12c7a93a8213.png

目录
相关文章
|
4月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
4月前
|
传感器 人工智能 运维
AR智慧运维系统介绍
阿法龙XR云平台是一款面向工业领域的增强现实(AR)智能化平台,助力企业实现数字化转型。平台集成智能巡检工作流、远程协助、AI视频验收、人脸识别等功能模块,支持AR眼镜与移动终端,提供虚实融合的运维体验。具备高度定制化能力,适配多种工业场景,提升运维效率与智能化水平。
|
5月前
|
数据采集 运维 监控
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
运维靠经验拍脑袋?不如上车:构建“数据驱动”的智能决策系统
218 0
|
6月前
|
人工智能 运维 监控
聚焦“AI+运维”深度融合,龙蜥系统运维联盟 MeetUp 圆满结束
现场 40 多位开发者进行了深入的技术交流,探索 AI 与运维深度融合的未来路径。
|
5月前
|
人工智能 运维 Prometheus
运维还要天天盯人值班?现代化运维就该让系统自己跑!
运维还要天天盯人值班?现代化运维就该让系统自己跑!
178 4
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
377 0
|
7月前
|
人工智能 分布式计算 DataWorks
一体系数据平台的进化:基于阿里云 EMR Serverless Spark 的持续演进
本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技,一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系,解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持,显著提升数据处理性能与业务响应速度,降低运维成本,为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻,并推动AI技术深度整合,迈向智能化云原生数据平台。
257 4
|
9月前
|
存储 分布式计算 OLAP
百观科技基于阿里云 EMR 的数据湖实践分享
百观科技为应对海量复杂数据处理的算力与成本挑战,基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度,实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度(资源利用率提升至70%)及倚天 ARM 机型搭配 EMR Trino 方案,兼顾性能与成本,支撑数据分析需求,降低算力成本。
634 59
|
11月前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
874 58