大数据架构&运维篇(二)| 学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习大数据架构&运维篇。

开发者学堂课程【大数据架构&运维:大数据架构&运维篇(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1204/detail/18171


大数据架构&运维篇

三、大数据运维问题案例

阿里大数据产品 data work 和 MySQL 常遇到的运维问题,例举两个案例,对案例进行解析。

案例1:数据调度、数据集成任务积压的处理。

(1) 问题描述 当用户提交异常的任务或代码不规范,会占用 deadwork 计算集群的大量资源,导致其他任务的产出受影响。更为严重的是会导致集群 hang 住,影响服务质量。

(2) 判断问题的影响面, 当上述情况是有自定义资源组的情况下会是怎么样?如果没有定义资源组的情况下, 会造成全局项目都有影响,任务无法提交。

(3) 问题解决

image.png

解决思路是首先确认确定问题存在, 判断影响面是在局部还是在全局,其次确认影响范围。当定位到原因后,对问题进行处理,解决问题,通过测试去确定问题是否已经解决。确认问题解决以后,整个流程才算结束。image.png

image.png

image.png

在 datasteel 的界面去提交一个 slight 的操作后,可以看到运行日志里一直出现正在等待在云端的 Gateway 资源,此时大量的等待,证明 gateway 的槽位资源有可能已经被异常占用,在大数据管家里的 data work 分站,首先判断是局部问题还是全局问题,实际调度已经没有调度起来,并且饱和度槽位资源水位已经达成81.82%,总槽位达到220的情况下,不可用的达到180,而空闲的事40却并未使用。在确认问题的影响面后,再次登陆data workers 分站-数据工厂-列表,点击项目详情,查看项目绑定的资源组,判断资源组和应用的绑定信息,判断受影响的应用。受影响的空间全部绑定在默认的资源组标识下,此时,可以判断问题的影响面达到全局,把有影响的任务全部释放掉,把有问题的作业全部消掉,从而把正常的任务运行起来。

案例2:任务运行时调度积压处理

(1). 问题描述 用户大量提交任务,而一些不合理的脚本频繁 提交任务,占用了 Mysql 计算集群的资源和管控集群的资源,会导致管控集群下发任务延迟,集群 hang 住,影响服务质量。

(2). 问题影响面,首先要评估风险的半径,判断影响面是项目级别还是整个集群级别。

(3). 问题现象

image.png

当登录大数据管家的 maxcomputer 分站,查看管控线程池情况,会出现饱和度红色的信息提示,在集群的饱和度中, SQL 的线程池最大并发是280,正在处理的任务是148,而队列长度已经达到了 3500 +的情况。而此时水位达到1280%,延时等待作业趋势从 14 点后一直很严重,可以判断用户使用了一些异常的作业提交,并且是循环的提交,占用了管控资源,导致任务无法正常消化。

(4). 问题解决

image.png

首先确定问题是否存在,判断影响面。目前因为管控资源无法做到隔离,其实影响到全局任务。确认影响范围是全局以后,定位原因是客户异常的作业提交导致的,把异常的作业全部给杀掉,并且限制该用户继续提交异常的作业,限制该用户的提交流程。顺利的提交其他的作业,发现任务已经可以顺利的去运行了。确认解决了问题,问题才算结束。

image.png

在大数据管家分站,去查看管控的队列,目前已无管控的任务的积压, 在最大并发 280 的情况下,队伍的长度也从几千+变成了现在的四个,并且正在处理的任务也是四个,水位也处在一个比较正常的状态。此时可以认为问题已经得到了一定的处理,风险已经解除。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
22天前
|
分布式计算 大数据 数据处理
经典大数据处理框架与通用架构对比
【6月更文挑战第15天】本文介绍Apache Beam是谷歌开源的统一数据处理框架,提供可移植API,支持批处理和流处理。与其他架构相比,Lambda和Kappa分别专注于实时和流处理,而Beam在两者之间提供平衡,具备高实时性和数据一致性,但复杂性较高。选择架构应基于业务需求和场景。
34 3
经典大数据处理框架与通用架构对比
|
23天前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
52 5
|
2月前
|
运维 监控 Docker
构建高效微服务架构:从理论到实践构建高效自动化运维体系:Ansible与Docker的完美融合
【5月更文挑战第31天】 在当今软件开发的世界中,微服务架构已经成为了实现可伸缩、灵活且容错的系统的关键策略。本文将深入探讨如何从零开始构建一个高效的微服务系统,涵盖从概念理解、设计原则到具体实施步骤。我们将重点讨论微服务设计的最佳实践、常用的技术栈选择、以及如何克服常见的挑战,包括服务划分、数据一致性、服务发现和网络通信等。通过实际案例分析,本文旨在为开发者提供一套实用的指南,帮助他们构建出既健壮又易于维护的微服务系统。
|
2月前
|
存储 运维 关系型数据库
2024年最全ceph的功能组件和架构概述(2),Linux运维工程面试问题
2024年最全ceph的功能组件和架构概述(2),Linux运维工程面试问题
2024年最全ceph的功能组件和架构概述(2),Linux运维工程面试问题
|
16天前
|
存储 数据采集 数据挖掘
“湖仓一体架构及其应用”写作框架,系统架构设计师
随着5G、大数据、人工智能、物联网等技术的不断成熟,各行各业的业务场景日益复杂,企业数据呈现出大规模、多样性的特点,特别是非结构化数据呈现出爆发式增长趋势。在这一背景下,企业数据管理不再局限于传统的结构化OLTP(On-Line Transaction Processing)数据交易过程,而是提出了多样化、异质性数据的实时处理要求。传统的数据湖(Data Lake)在事务一致性及实时处理方面有所欠缺,而数据仓库(Data Warehouse)也无法应对高并发、多数据类型的处理。因此,支持事务一致性、提供高并发实时处理及分析能力的湖仓一体(Lake House)架构应运而生。湖仓一体架构在成本、
|
4天前
|
存储 数据可视化 大数据
大数据平台架构设计与实施
【7月更文挑战第3天】本文探讨了大数据平台的关键技术,包括数据采集(如Kafka、Flume)、存储(HDFS、HBase、Cassandra)、处理(Hadoop、Spark)、分析挖掘及可视化工具。架构设计涉及数据收集、存储、处理、分析和应用层,强调各层次的协同与扩展性。实施步骤涵盖需求分析、技术选型、架构设计、系统部署、数据迁移、应用开发测试及上线运维,旨在为企业决策提供强有力的数据支持。
|
8天前
|
运维 Kubernetes 安全
自动化运维在现代IT架构中的角色与实践
【6月更文挑战第28天】随着企业对信息技术的依赖日益加深,高效、可靠的运维体系变得至关重要。本文将探讨自动化运维如何优化现代IT架构,提升运维效率和系统稳定性。我们将从实际案例出发,分析自动化工具的选择、部署策略以及面临的挑战,为读者提供一套可行的自动化运维解决方案。
|
9天前
|
运维 Kubernetes 云计算
云计算时代的运维革新:容器化与微服务架构的融合之道
在云计算技术飞速发展的当下,企业IT运维面临前所未有的挑战与机遇。传统的运维模式已难以满足现代业务对敏捷性、可伸缩性和自动化的需求。本文深入探讨了容器化技术和微服务架构如何共同推动运维领域的革命,通过数据支持和科学分析,揭示了这一融合趋势如何提高运维效率、降低风险并促进创新。
|
9天前
|
SQL 存储 运维
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
|
2天前
|
数据采集 监控 关系型数据库
大数据运维之数据质量管理
大数据运维之数据质量管理
7 0