EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器

简介: E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。

大数据运维的挑战—如何保证集群稳定与运行效率

企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。

1662540673450-2fda9e17-b918-4ecc-b0ef-9b51e95c7157.png

集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。


对于大数据集群,管理员以及 CIO 等更关注以下的内容:

  • 集群内的节点的运行状态和资源使用状况;
  • 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
  • 计算任务运行情况和执行效率;
  • 整体集群的健康程度和如何改进。



面对运维挑战,EMR重磅推出:智能运维诊断系统(EMR Doctor)

为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。


如何使用 EMR Doctor

  1. 进入 EMR 控制台健康检查页面。
  1. 登录 EMR on ECS 控制台
  2. 在顶部菜单栏处,根据实际情况选择地域和资源组
  3. 集群管理页面,单击目标集群的集群ID
  4. 单击上方的健康检查页签。


  1. 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。

1111.gif


  1. 健康检查报告中包含集群计算资源的总体分析

3333.gif


  1. 健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议

2222.gif


  1. 健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析

4444.gif


  1. 健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告

计算资源分析

概述

状态概述

需要关注的问题

计算基础信息

集群计算评分

集群算力内存时

集群算力CPU时

计算引擎内存算力时

计算任务信息

计算任务算力内存时分析

计算任务评分排行榜

Spark

Spark任务算力分析及调优建议

Tez

Tez任务算力分析及调优建议

MapReduce

MapReduce任务算力分析及调优建议

HDFS存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

HDFS基础信息

HDFS存储资源使用趋势

文件总数随时间变化趋势

评分趋势

HDFS文件大小分布

HDFS文件大小比例

一级目录空文件个数Top10

一级目录极小文件个数Top10

一级目录小文件个数Top10

一级目录中等文件个数Top10

一级目录大文件个数Top10

HDFS冷热数据分布

HDFS冷热数据

一级目录极冷数据大小Top10

一级目录冷数据大小Top10

一级目录温数据大小Top10

一级目录热数据大小Top10

HIVE存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

Hive基础信息

存储趋势

文件数量趋势

评分趋势

Hive库信息

库存储排名

库文件总数排名

库评分

Hive表文件大小分布

Hive表文件大小分布比例

Hive表空文件个数Top10

Hive表极小文件个数Top10

Hive表小文件个数Top10

Hive中等文件个数Top10

Hive大文件个数Top10

Hive冷热数据分布

Hive冷热数据分布

Hive表极冷数据大小Top10

Hive表冷数据大小Top10

Hive表温数据大小Top10

Hive表热数据大小Top10

Hive表存储格式分布

Hive表存储格式分布

Hive表TextFile/Parquet/ORC格式文件分析



如何开通EMR Doctor

开通及使用咨询问题请见 EMR Doctor常见问题

  • EMR-3.39.0之前版本、EMR-5.5.0之前版本,EMR-4.10之前版本需要手动开通健康检查功能,请参见开通指南
  • EMR-3.39.0及更高版本,EMR-5.5.0及更高版本,EMR-4.10及更高版本默认提供健康检查功能,无需手动开通



欢迎钉钉扫码加入EMR Doctor用户技术交流群

获取集群运维最新功能和最佳行业实践~

1662533848254-9c35fff2-91ea-4bbf-a89d-12c7a93a8213.png

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
15天前
|
运维 Kubernetes 监控
构建高效自动化运维系统:基于容器技术的策略与实践
【4月更文挑战第19天】随着云计算和微服务架构的兴起,传统的运维模式正逐渐向自动化、智能化转型。本文将探讨如何利用容器技术构建一个高效、可靠的自动化运维系统,涵盖系统设计原则、关键技术选型以及实践经验分享。通过引入容器技术,我们可以实现应用的快速部署、弹性伸缩和故障自愈,从而提高运维效率,降低系统维护成本。
|
5天前
|
运维 监控 安全
构建高效自动化运维系统:策略与实践
【4月更文挑战第29天】 在信息技术日新月异的今天,高效的运维管理已成为企业保持竞争力的关键因素。本文将探讨如何构建一个能够适应快速变化需求的自动化运维系统。通过深入分析自动化工具的选择、配置管理的最佳实践以及持续集成和部署的策略,我们旨在为读者提供一个清晰的框架来优化他们的运维流程。文章的核心在于提出一种结合了最新技术和思维模式的综合解决方案,以实现运维工作的最优化。
|
5天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之数据倾斜导致JOB运行时间过长导致系统会自动kill掉job,如何解决
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4天前
|
运维 Kubernetes 持续交付
构建高效自动化运维系统:基于容器技术的持续集成与持续部署实践
【4月更文挑战第30天】 在快速发展的云计算时代,传统的运维模式已无法满足敏捷开发和快速迭代的需求。本文将介绍如何利用容器技术搭建一套高效自动化运维系统,实现软件的持续集成(CI)与持续部署(CD)。文章首先探讨了现代运维面临的挑战,接着详细阐述了容器技术的核心组件和工作原理,最后通过实际案例展示了如何整合这些组件来构建一个可靠、可扩展的自动化运维平台。
|
4天前
|
运维 监控 安全
构建高效自动化运维系统:策略与实践
【4月更文挑战第30天】 在现代IT基础设施管理中,自动化运维不再是可选项而是必需品。随着复杂性的增加和变更的频繁性,自动化可以提高效率、减少错误并释放人员专注于更有价值的任务。本文将探讨构建一个高效的自动化运维系统的关键环节,包括工具选择、流程设计以及监控和优化策略。通过案例分析和最佳实践分享,读者可以获得实施自动化运维的实用指导和启发。
|
5天前
|
机器学习/深度学习 人工智能 运维
构建高效自动化运维系统的策略与实践
【4月更文挑战第29天】 在数字化转型的浪潮中,企业IT基础设施变得日益复杂多变。传统的手动运维方式已无法满足快速响应和高效率的需求。本文将探讨如何通过一系列策略和技术手段构建一个高效的自动化运维系统。首先,分析当前自动化运维的必要性及其带来的益处;接着,详细阐述自动化运维的核心组件、工具选择以及实施步骤;最后,通过案例分析展示自动化运维在实际环境中的应用效果,并讨论面临的挑战及未来发展趋势。
|
5天前
|
消息中间件 运维 监控
基于SaaS云部署、云计算的区域医院云HIS系统源码(运维管理+运营管理+综合监管)
医院云his系统采用主流成熟技术开发,B/S架构,软件结构简洁、代码规范易阅读,SaaS应用,全浏览器访问,前后端分离,多服务协同,服务可拆分,功能易扩展。多医院统一登录患者主索引建立、主数据管理,统一对外接口管理。
22 1
|
6天前
|
存储 运维 监控
构建高效可靠的自动化运维系统
【4月更文挑战第28天】 随着信息技术的快速发展,企业对于信息系统的管理和维护要求越来越高。传统的手工运维方式已经难以满足现代企业的需求,因此自动化运维成为了一种趋势。本文将介绍构建高效可靠自动化运维系统的方法和技术,包括自动化工具的选择、配置管理、监控告警等方面的内容。通过本文的阅读,读者可以了解到如何利用自动化技术提高运维效率,降低人为错误的发生,从而实现企业的高效稳定运行。
|
10天前
|
运维 Prometheus 监控
构建高效自动化运维系统:策略与实践
【4月更文挑战第24天】 在当今快速发展的信息技术时代,自动化运维已经成为提高企业IT效率、确保系统稳定性和敏捷响应市场变化的关键。本文将探讨构建一个高效自动化运维系统的关键环节,包括基础设施即代码(IaC)的实现、持续集成与持续部署(CI/CD)流程的优化以及监控和日志分析的重要性。通过这些技术的融合,我们旨在提供一个可行的蓝图,以帮助企业实现运维工作的自动化,从而提升整体业务效能。
|
1月前
|
运维 Kubernetes 监控
构建高效自动化运维系统:基于容器技术的持续集成与部署策略
【4月更文挑战第4天】在数字化转型的浪潮中,企业对于软件交付的速度和质量要求越来越高。传统的运维模式已无法满足敏捷开发和快速迭代的需求。本文旨在探讨如何利用容器技术构建一个高效的自动化运维系统,实现软件开发生命周期中的持续集成(CI)与持续部署(CD)。通过分析容器技术的核心优势,结合DevOps文化和微服务架构,我们提出了一套系统的构建策略和实践步骤。文章将详细阐述从环境搭建到流程优化的全过程,以及在此过程中可能遇到的挑战和解决方案,为运维专业人员提供参考和指导。