瓴羊Dataphin调度性能突破「千万级」,数据处理更快更稳

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。

企业数字化运营需求催生了海量的数据任务,以阿里巴巴为例,这十年间随着集团业务复杂度和数据体量的不断攀升,任务量呈现出阶梯式增长,每日任务调度量突破了2000万。由此可见,在大数据时代,一款能够保障千万级示例平稳高效调度的数据建设工具,必将成为数字化企业不可或缺的中坚力量。

一、支持超大规模系统吞吐量和超复杂依赖关系

瓴羊Dataphin于近期发布V3.11版本,不仅上线了数据分析平台、隐私计算平台两大能力模块,同时重新设计了任务执行框架,使用k8s替换原有的Mesos作为资源调度底座,拥有全局资源视角,可充分利用机器资源,极大提高集群任务执行吞吐率,加快客户数据产出。另外,任务调度资源池和在线服务共享k8s基础设施,去除对Mesos和Zookeeper的依赖,降低Dataphin的部署、运维成本。


升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。

二、引入混沌工程,运行千万级任务不重复不漏跑

分布式架构下各组件之间相互调用和相互依赖,系统在失真环境下异常事件发生的概率大幅攀升,通过常规的测试手段很难发现这些问题,处理不好就会导致业务受损。

通过引入混沌工程,围绕Dataphin分布式调度系统生产环境的任务运行稳态,使用技术手段模拟多样化的真实异常注入(宕机重启、DB异常、高负载、网络延迟、时钟不同步等),找出系统薄弱点,针对性的对系统进行加固防范,验证调度系统在各种异常场景,外围依赖服务不可用情况下,Dataphin核心功能如周期任务转实例、任务起调、任务下发、任务执行、消息消费仍然可以保持稳定的运行状态。

如果有一家日调度3万的企业,为了新增业务想要追补近3年数据,之前需要额外的22.8个工作日,而拥有了Dataphin V3.11版本,哪怕数据任务超过限额,只需对调度系统进行扩容,即可承载千万级别的调度任务规模,帮助企业在24小时内完成近3年数据追补。


三、Dataphin,阿里巴巴最佳实践输出

未来3-5年内,在数字化道路上快速挺进的企业,都将面临任务量飞速增长的局面,届时将对企业的数据处理能力提出更高的要求。


Dataphin(智能数据建设与治理)是瓴羊开发云核心产品之一,源自阿里巴巴内部大数据建设最佳实践的商业化输出。从2017到2023,历经6年时间服务了千行百业的客户。


我们深知,企业需要一套完善的数据技术与工具,实现数据采集、存储、计算、建设和管理,利用数据思维对当下的业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,助力企业打造标准统一、准确可信、便捷可消费的数据体系。


面对不确定的未来,Dataphin团队确信只有通过不断夯实数据建设基础能力,才能在应对错综复杂的数字化业务时更加游刃有余。我们期望与企业们一起乘风破浪,仰望星空、脚踏实地,持续在数字化转型的实践道路上并肩前行。

 

相关文章
|
2月前
|
调度
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
一个销售额结算的周期任务的调度周期是月调度---每月1号进行调度,但是有一天调整了计算口径后希望重新计算过去几个月的销售额,此时补数据任务的业务日期应该如何选择?
|
2月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
2月前
|
SQL 安全 数据建模
Dataphin常见问题之计算任务没有按调度执行如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
2月前
|
SQL 存储 数据可视化
Dataphin常见问题之30G的内存都不够用如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
6月前
|
调度
在Dataphin中配置了一个日调度的表
在Dataphin中配置了一个日调度的表
32 2
|
SQL 运维 监控
Dataphin产品核心功能大图:调度运维,为数据建设保驾护航
Dataphin运维中心支持任务调度配置、异常运行诊断、监控告警和重跑等运维操作,为数据有序产出和任务稳定运行保驾护航!
Dataphin产品核心功能大图:调度运维,为数据建设保驾护航
|
数据采集 SQL 运维
【Dataphin 智能运维】千呼万唤的调度限流配置功能终于上线了!
Datatphin V3.4版本全新上线调度限流功能,支持根据业务优先级和资源情况,控制不同时间段内不同任务的下发数量。基于限流能力,不仅可以减少对底层计算引擎和上下游数据源的并发压力,保证高优任务优先分配调度及计算资源,任务能按序产出;同时也能实现故障异常场景下的快速止血,增强整体稳定性。
【Dataphin 智能运维】千呼万唤的调度限流配置功能终于上线了!
|
前端开发 调度
Dataphin调度周期说明
介绍Dataphin不同类型任务当前支持的调度周期及配置说明
|
关系型数据库 分布式数据库 调度
Dataphin小时调度依赖关系及运行说明
介绍天任务依赖小时任务、小时任务依赖小时任务的依赖关系及运行条件
Dataphin小时调度依赖关系及运行说明

热门文章

最新文章