大数据架构&运维篇(二)| 学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习大数据架构&运维篇。

开发者学堂课程【大数据架构&运维:大数据架构&运维篇(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1204/detail/18171


大数据架构&运维篇

三、大数据运维问题案例

阿里大数据产品 data work 和 MySQL 常遇到的运维问题,例举两个案例,对案例进行解析。

案例1:数据调度、数据集成任务积压的处理。

(1) 问题描述 当用户提交异常的任务或代码不规范,会占用 deadwork 计算集群的大量资源,导致其他任务的产出受影响。更为严重的是会导致集群 hang 住,影响服务质量。

(2) 判断问题的影响面, 当上述情况是有自定义资源组的情况下会是怎么样?如果没有定义资源组的情况下, 会造成全局项目都有影响,任务无法提交。

(3) 问题解决

image.png

解决思路是首先确认确定问题存在, 判断影响面是在局部还是在全局,其次确认影响范围。当定位到原因后,对问题进行处理,解决问题,通过测试去确定问题是否已经解决。确认问题解决以后,整个流程才算结束。image.png

image.png

image.png

在 datasteel 的界面去提交一个 slight 的操作后,可以看到运行日志里一直出现正在等待在云端的 Gateway 资源,此时大量的等待,证明 gateway 的槽位资源有可能已经被异常占用,在大数据管家里的 data work 分站,首先判断是局部问题还是全局问题,实际调度已经没有调度起来,并且饱和度槽位资源水位已经达成81.82%,总槽位达到220的情况下,不可用的达到180,而空闲的事40却并未使用。在确认问题的影响面后,再次登陆data workers 分站-数据工厂-列表,点击项目详情,查看项目绑定的资源组,判断资源组和应用的绑定信息,判断受影响的应用。受影响的空间全部绑定在默认的资源组标识下,此时,可以判断问题的影响面达到全局,把有影响的任务全部释放掉,把有问题的作业全部消掉,从而把正常的任务运行起来。

案例2:任务运行时调度积压处理

(1). 问题描述 用户大量提交任务,而一些不合理的脚本频繁 提交任务,占用了 Mysql 计算集群的资源和管控集群的资源,会导致管控集群下发任务延迟,集群 hang 住,影响服务质量。

(2). 问题影响面,首先要评估风险的半径,判断影响面是项目级别还是整个集群级别。

(3). 问题现象

image.png

当登录大数据管家的 maxcomputer 分站,查看管控线程池情况,会出现饱和度红色的信息提示,在集群的饱和度中, SQL 的线程池最大并发是280,正在处理的任务是148,而队列长度已经达到了 3500 +的情况。而此时水位达到1280%,延时等待作业趋势从 14 点后一直很严重,可以判断用户使用了一些异常的作业提交,并且是循环的提交,占用了管控资源,导致任务无法正常消化。

(4). 问题解决

image.png

首先确定问题是否存在,判断影响面。目前因为管控资源无法做到隔离,其实影响到全局任务。确认影响范围是全局以后,定位原因是客户异常的作业提交导致的,把异常的作业全部给杀掉,并且限制该用户继续提交异常的作业,限制该用户的提交流程。顺利的提交其他的作业,发现任务已经可以顺利的去运行了。确认解决了问题,问题才算结束。

image.png

在大数据管家分站,去查看管控的队列,目前已无管控的任务的积压, 在最大并发 280 的情况下,队伍的长度也从几千+变成了现在的四个,并且正在处理的任务也是四个,水位也处在一个比较正常的状态。此时可以认为问题已经得到了一定的处理,风险已经解除。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
27天前
|
机器学习/深度学习 人工智能 运维
云架构不是养祖宗,智能运维教你省心又省钱
云架构不是养祖宗,智能运维教你省心又省钱
54 2
|
14天前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
3月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
5月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
4月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
1月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
108 1
|
2月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
3月前
|
运维 监控 Cloud Native
从“守机器”到“写策略”——云原生架构把运维逼成了架构师
从“守机器”到“写策略”——云原生架构把运维逼成了架构师
62 1
|
3月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
63 1
|
4月前
|
架构师 Oracle 大数据
从大数据时代变迁到数据架构师的精通之路
无论从事何种职业,自学能力都显得尤为重要。为了不断提升自己,我们可以尝试建立一套个性化的知识目录或索引,通过它来发现自身的不足,并有针对性地进行学习。对于数据架构师而言,他们需要掌握的知识领域广泛而深入,不仅包括硬件、网络、安全等基础技术,还要了解应用层面,并熟练掌握至少一门编程语言。同时,深入理解数据库技术、具备大数据实操经验以及精通数据仓库建模和ELT技术也是必不可少的。只有这样,数据架构师才能具备足够的深度和广度,应对复杂的业务和技术挑战。 构建个人知识体系是数据架构师在学习和工作中的一项重要任务。通过系统化、不断深化的知识积累,数据架构师能够有效应对快速变化的商业环境和技术革新,进一

热门文章

最新文章