大数据架构&运维篇(二)| 学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习大数据架构&运维篇。

开发者学堂课程【大数据架构&运维:大数据架构&运维篇(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1204/detail/18171


大数据架构&运维篇

三、大数据运维问题案例

阿里大数据产品 data work 和 MySQL 常遇到的运维问题,例举两个案例,对案例进行解析。

案例1:数据调度、数据集成任务积压的处理。

(1) 问题描述 当用户提交异常的任务或代码不规范,会占用 deadwork 计算集群的大量资源,导致其他任务的产出受影响。更为严重的是会导致集群 hang 住,影响服务质量。

(2) 判断问题的影响面, 当上述情况是有自定义资源组的情况下会是怎么样?如果没有定义资源组的情况下, 会造成全局项目都有影响,任务无法提交。

(3) 问题解决

image.png

解决思路是首先确认确定问题存在, 判断影响面是在局部还是在全局,其次确认影响范围。当定位到原因后,对问题进行处理,解决问题,通过测试去确定问题是否已经解决。确认问题解决以后,整个流程才算结束。image.png

image.png

image.png

在 datasteel 的界面去提交一个 slight 的操作后,可以看到运行日志里一直出现正在等待在云端的 Gateway 资源,此时大量的等待,证明 gateway 的槽位资源有可能已经被异常占用,在大数据管家里的 data work 分站,首先判断是局部问题还是全局问题,实际调度已经没有调度起来,并且饱和度槽位资源水位已经达成81.82%,总槽位达到220的情况下,不可用的达到180,而空闲的事40却并未使用。在确认问题的影响面后,再次登陆data workers 分站-数据工厂-列表,点击项目详情,查看项目绑定的资源组,判断资源组和应用的绑定信息,判断受影响的应用。受影响的空间全部绑定在默认的资源组标识下,此时,可以判断问题的影响面达到全局,把有影响的任务全部释放掉,把有问题的作业全部消掉,从而把正常的任务运行起来。

案例2:任务运行时调度积压处理

(1). 问题描述 用户大量提交任务,而一些不合理的脚本频繁 提交任务,占用了 Mysql 计算集群的资源和管控集群的资源,会导致管控集群下发任务延迟,集群 hang 住,影响服务质量。

(2). 问题影响面,首先要评估风险的半径,判断影响面是项目级别还是整个集群级别。

(3). 问题现象

image.png

当登录大数据管家的 maxcomputer 分站,查看管控线程池情况,会出现饱和度红色的信息提示,在集群的饱和度中, SQL 的线程池最大并发是280,正在处理的任务是148,而队列长度已经达到了 3500 +的情况。而此时水位达到1280%,延时等待作业趋势从 14 点后一直很严重,可以判断用户使用了一些异常的作业提交,并且是循环的提交,占用了管控资源,导致任务无法正常消化。

(4). 问题解决

image.png

首先确定问题是否存在,判断影响面。目前因为管控资源无法做到隔离,其实影响到全局任务。确认影响范围是全局以后,定位原因是客户异常的作业提交导致的,把异常的作业全部给杀掉,并且限制该用户继续提交异常的作业,限制该用户的提交流程。顺利的提交其他的作业,发现任务已经可以顺利的去运行了。确认解决了问题,问题才算结束。

image.png

在大数据管家分站,去查看管控的队列,目前已无管控的任务的积压, 在最大并发 280 的情况下,队伍的长度也从几千+变成了现在的四个,并且正在处理的任务也是四个,水位也处在一个比较正常的状态。此时可以认为问题已经得到了一定的处理,风险已经解除。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5天前
|
自然语言处理 JavaScript Java
《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》学习笔记——HarmonyOS架构介绍
HarmonyOS采用分层架构设计,从下至上分为内核层、系统服务层、框架层和应用层。内核层支持多内核设计与硬件驱动;系统服务层提供核心能力和服务;框架层支持多语言开发;应用层包括系统及第三方应用,支持跨设备调度,确保一致的用户体验。
119 81
|
2月前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
15天前
|
存储 SQL 分布式计算
大数据时代的引擎:大数据架构随记
大数据架构通常分为四层:数据采集层、数据存储层、数据计算层和数据应用层。数据采集层负责从各种源采集、清洗和转换数据,常用技术包括Flume、Sqoop和Logstash+Filebeat。数据存储层管理数据的持久性和组织,常用技术有Hadoop HDFS、HBase和Elasticsearch。数据计算层处理大规模数据集,支持离线和在线计算,如Spark SQL、Flink等。数据应用层将结果可视化或提供给第三方应用,常用工具为Tableau、Zeppelin和Superset。
168 8
|
2月前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
242 3
【赵渝强老师】基于大数据组件的平台架构
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
2月前
|
运维 监控 安全
自动化运维的利剑:Ansible在现代IT架构中的应用
在数字化浪潮中,企业对IT系统的敏捷性和可靠性要求日益提高。Ansible,一种简单但强大的自动化运维工具,正成为现代IT架构中不可或缺的一部分。它通过声明式编程语言YAM,简化了系统配置、应用部署和任务自动化的过程,显著提升了运维效率和准确性。本文将深入探讨Ansible的核心特性、应用场景以及如何有效整合进现有IT环境,为读者揭示其在自动化运维中的实用价值和未来发展潜力。
|
16天前
|
存储 负载均衡 监控
揭秘 Elasticsearch 集群架构,解锁大数据处理神器
Elasticsearch 是一个强大的分布式搜索和分析引擎,广泛应用于大数据处理、实时搜索和分析。本文深入探讨了 Elasticsearch 集群的架构和特性,包括高可用性和负载均衡,以及主节点、数据节点、协调节点和 Ingest 节点的角色和功能。
37 0
|
2月前
|
运维 Devops 应用服务中间件
自动化运维的利剑:Ansible在现代IT架构中的应用
【10月更文挑战第42天】本文旨在揭示自动化运维工具Ansible如何革新现代IT架构,通过简化配置管理和部署流程,提升效率和可靠性。我们将探索Ansible的核心功能、语言特性以及其在DevOps文化中的角色。文章还将展示如何借助Ansible构建模块化和可重用的配置代码,实现快速迭代与部署,并确保系统一致性。通过阅读本文,运维人员将了解如何利用Ansible优化日常任务,加速产品上线速度,同时提高系统的稳健性。
46 5
|
3月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
124 10
|
2月前
|
运维 Serverless 数据处理
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
Serverless架构通过提供更快的研发交付速度、降低成本、简化运维、优化资源利用、提供自动扩展能力、支持实时数据处理和快速原型开发等优势,为图像处理等计算密集型应用提供了一个高效、灵活且成本效益高的解决方案。
102 1

热门文章

最新文章