【Dataphin 智能运维】千呼万唤的调度限流配置功能终于上线了!

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: Datatphin V3.4版本全新上线调度限流功能,支持根据业务优先级和资源情况,控制不同时间段内不同任务的下发数量。基于限流能力,不仅可以减少对底层计算引擎和上下游数据源的并发压力,保证高优任务优先分配调度及计算资源,任务能按序产出;同时也能实现故障异常场景下的快速止血,增强整体稳定性。

Datatphin V3.4版本全新上线调度限流功能,支持根据业务优先级和资源情况,控制不同时间段内不同任务的下发数量。基于限流能力,不仅可以减少对底层计算引擎和上下游数据源的并发压力,保证高优任务优先分配调度及计算资源,任务能按序产出;同时也能实现故障异常场景下的快速止血,增强整体稳定性

背景简介

基于Dataphin的任务调度系统,周期实例和补数据实例运行需要同时满足两个条件:1)上游依赖全部运行成功;2)实例已经到达定时调度时间。满足这两个条件后,实例就会被下发到资源调度系统,如果调度资源充足,则会开始运行(如Python、Shell任务)或者被继续下发到计算引擎(SQL任务)执行。

某些场景下,由于低优先级任务比高优先级任务更早满足运行条件,会被优先下发并占用大量资源,从而导致高优先级任务因为资源不足而出现长时间等待状态,影响下游业务数据产出。此外,如果大量任务被同时下发,计算引擎和数据源也可能因为并发或高产生异常,导致系统崩溃。

以上场景,都需要运维人员大量的手动干预,成本极高。严重情况下,可能因为无法干预或介入较晚而产生严重的问题,影响系统稳定性和数据质量。因此,我们需要强有力的任务并发控制能力。

功能介绍

Dataphin支持给不同运行环境配置不同的限流规则,可避免开发环境的测试任务占用大量资源从而影响生产环境任务的运行。

每个实例可以命中多条限流规则。在满足了上游依赖和定时时间的校验后,任务调度系统将会校验每个实例命中的所有限流规则,并根据每条规则设置的并发度进行判断。只有命中的所有限流规则均没有达到并发上限时,该实例才会被下发到资源调度系统。

限流规则配置

1、限流对象圈选

您可以快捷配置全局限流,以实现故障场景下的快速止血,也可以按照实例所属项目、调度类型(周期、手动、补数据、一次性查询)、任务类型、业务类型(集成同步、离线数据处理、建模研发、萃取研发)来圈选需要限流的实例,实现灵活限流配置。

image.png

2、并发运行控制

圈选完需要限流的对象后,您可以设置并发运行数。当命中该规则,且运行状态为“运行中”和“等待调度资源中”的实例总数达到设置的并发上限后,后续实例被限流不再继续下发,直到有实例运行完成,才会继续下发新的实例。

3、规则生效时间配置

当前支持三种生效时间配置方式:

  • 全时间段
  • 指定时间范围:支持设置开始日期时间和结束日期时间,连续区间,如:2022-04-28 23:25:09 ~ 2022-04-29 23:29:24,支持配置最多三个区间

image.png

  • 指定时间区间:支持设置开始和结束日期,并指定每天的开始时间和结束时间,均匀间隔区间,如:2022-04-12 ~ 2022-04-30 02:30 ~ 05:30,支持配置最多三个区间

image.png

规则生效控制

除了通过指定生效时间来控制限流规则是否可用,您也可以在规则列表快捷批量将规则快捷开启/关闭已经配置的限流规则,即时生效。

规则标签管理

为了更好地对限流规则进行分类管理,Dataphin支持设置规则标签,您可以给每条限流规则打上一个或多个标签,并支持根据标签进行筛选,便于快速找到需要查看的规则并执行操作。

image.png

售卖说明

限流功能作为Dataphin增值模块“智能运维”的功能之一,可以在购买基础研发版或智能研发版的基础上叠加购买。

新功能预告

V3.5版本中,Dataphin将上线“运行诊断”功能,支持按照上游依赖、定时时间、限流规则、调度资源、实例运行五个流程,对实例运行进行分析,帮助用户快速识别问题并并提示可能的原因和修复建议,降低运维人员的判断和分析成本,敬请期待!

相关文章
|
2天前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
3天前
|
机器学习/深度学习 运维 监控
智能运维:未来IT管理的革新之路
在数字化浪潮汹涌的今天,智能运维成为企业提升竞争力的关键。本文将深入浅出地探索智能运维的核心概念、技术应用以及它如何重塑IT管理的未来。通过具体案例,我们将一窥智能运维如何实现故障预测、自动化处理和持续优化,最终引领企业走向高效、稳定、创新的未来。
11 2
|
3天前
|
机器学习/深度学习 运维 监控
智能化运维:从反应到预防的变革之路
在数字化时代的洪流中,智能化运维如同一艘航船,载着企业乘风破浪。本文将带你领略智能化运维的魅力所在,探索它如何从传统的反应式维护转变为主动预防的智能管理。我们将一起揭开智能化运维的神秘面纱,看看它是如何在提高效率、降低成本和增强安全性方面发挥着不可或缺的作用。
|
2天前
|
机器学习/深度学习 运维 持续交付
云时代下的运维变革:从反应式到主动智能的演进
在数字化浪潮中,运维不再是幕后英雄,而是企业竞争力的前沿。本文将带你穿梭于传统与现代之间,揭示运维如何从被动救火队转变为主动智能的战略伙伴,以及这一转变给企业带来的深刻影响。
8 1
|
6天前
|
机器学习/深度学习 存储 数据采集
智能运维:未来趋势与挑战
在数字化时代,运维(Operation and Maintenance)的角色变得越来越重要。随着云计算、大数据和人工智能等技术的发展,智能运维已经成为一种趋势。本文将探讨智能运维的概念、优势以及面临的挑战,并提供一些实施智能运维的建议。
|
6天前
|
机器学习/深度学习 人工智能 运维
自动化运维的演变之路:从脚本到智能
在数字化浪潮中,自动化运维如同一艘船,载着企业乘风破浪。本文将带你穿梭于自动化运维的历史长河,见证它如何从简单的脚本编写,发展成为今天集成了人工智能技术的智能运维平台。我们将探索这一变革背后的原因、影响以及面临的挑战,同时分享一些行业内的成功案例,为你的企业运维之旅提供启示和方向。
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来IT管理的革命之路
在数字化浪潮的推动下,企业对IT系统的稳定性和效率要求日益增高。传统的运维模式已难以满足现代业务的需求,智能化运维应运而生。本文将探讨智能化运维的概念、优势以及实施策略,旨在为企业提供一条提升IT管理效能的清晰路径。
32 3
|
3天前
|
机器学习/深度学习 人工智能 运维
智能运维:未来之路的探索与实践
在数字化浪潮中,智能运维如同航船之舵,引领企业乘风破浪。本文将深入探讨智能运维的发展趋势,从自动化到智能化的转变,以及人工智能、大数据等技术如何赋能传统运维,提升效率与价值。我们将一同见证智能运维如何重塑IT服务管理的未来。
|
运维 Kubernetes 监控
SREWorks 云原生数智运维平台揭秘 | 突破规模化智能运维aiops瓶颈
一套规模化运维的流水线——交付、监测、管理、控制、运营、服务。
|
10天前
|
运维 自然语言处理 安全
自动化运维的利器:Ansible入门与实践
【8月更文挑战第33天】在现代IT基础设施的管理中,自动化运维已成为提高效率、减少错误的关键技术。Ansible作为一款开源的自动化配置管理和应用部署工具,以其简洁性、易用性和强大的功能受到广泛欢迎。本文将介绍Ansible的基本概念、安装步骤和简单使用,通过实际案例展示其在自动化运维中的应用。

相关产品

  • 智能数据建设与治理 Dataphin