瓴羊Dataphin调度性能突破「千万级」,数据处理更快更稳

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。

企业数字化运营需求催生了海量的数据任务,以阿里巴巴为例,这十年间随着集团业务复杂度和数据体量的不断攀升,任务量呈现出阶梯式增长,每日任务调度量突破了2000万。由此可见,在大数据时代,一款能够保障千万级示例平稳高效调度的数据建设工具,必将成为数字化企业不可或缺的中坚力量。

一、支持超大规模系统吞吐量和超复杂依赖关系

瓴羊Dataphin于近期发布V3.11版本,不仅上线了数据分析平台、隐私计算平台两大能力模块,同时重新设计了任务执行框架,使用k8s替换原有的Mesos作为资源调度底座,拥有全局资源视角,可充分利用机器资源,极大提高集群任务执行吞吐率,加快客户数据产出。另外,任务调度资源池和在线服务共享k8s基础设施,去除对Mesos和Zookeeper的依赖,降低Dataphin的部署、运维成本。


升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。

二、引入混沌工程,运行千万级任务不重复不漏跑

分布式架构下各组件之间相互调用和相互依赖,系统在失真环境下异常事件发生的概率大幅攀升,通过常规的测试手段很难发现这些问题,处理不好就会导致业务受损。

通过引入混沌工程,围绕Dataphin分布式调度系统生产环境的任务运行稳态,使用技术手段模拟多样化的真实异常注入(宕机重启、DB异常、高负载、网络延迟、时钟不同步等),找出系统薄弱点,针对性的对系统进行加固防范,验证调度系统在各种异常场景,外围依赖服务不可用情况下,Dataphin核心功能如周期任务转实例、任务起调、任务下发、任务执行、消息消费仍然可以保持稳定的运行状态。

如果有一家日调度3万的企业,为了新增业务想要追补近3年数据,之前需要额外的22.8个工作日,而拥有了Dataphin V3.11版本,哪怕数据任务超过限额,只需对调度系统进行扩容,即可承载千万级别的调度任务规模,帮助企业在24小时内完成近3年数据追补。


三、Dataphin,阿里巴巴最佳实践输出

未来3-5年内,在数字化道路上快速挺进的企业,都将面临任务量飞速增长的局面,届时将对企业的数据处理能力提出更高的要求。


Dataphin(智能数据建设与治理)是瓴羊开发云核心产品之一,源自阿里巴巴内部大数据建设最佳实践的商业化输出。从2017到2023,历经6年时间服务了千行百业的客户。


我们深知,企业需要一套完善的数据技术与工具,实现数据采集、存储、计算、建设和管理,利用数据思维对当下的业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,助力企业打造标准统一、准确可信、便捷可消费的数据体系。


面对不确定的未来,Dataphin团队确信只有通过不断夯实数据建设基础能力,才能在应对错综复杂的数字化业务时更加游刃有余。我们期望与企业们一起乘风破浪,仰望星空、脚踏实地,持续在数字化转型的实践道路上并肩前行。

 

相关文章
|
调度
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
一个销售额结算的周期任务的调度周期是月调度---每月1号进行调度,但是有一天调整了计算口径后希望重新计算过去几个月的销售额,此时补数据任务的业务日期应该如何选择?
307 4
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
|
SQL 安全 数据建模
Dataphin常见问题之计算任务没有按调度执行如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
数据采集 运维 Java
有了 Dataphin v4.0,跨系统调度依赖再也不是难题
Dataphin v4.0引入了新的触发式节点,用于解决多数据平台间的调度问题。当上游系统(如Unix的crontab)完成数据采集后,可通过触发式节点通知Dataphin开始拉取数据,避免传统轮询方式的效率低和资源占用。触发式节点需满足Dataphin OpenAPI开通和网络连通条件,并通过SDK进行外部触发。示例展示了如何创建和使用触发式节点,以及使用Java SDK模拟触发请求。
721 0
|
7月前
|
弹性计算 调度
Dataphin功能Tips系列(52)-调度资源组弹性伸缩
Dataphin支持通过自定义资源组实现弹性资源调配:设置资源上下限,允许资源组间相互“借用”空闲资源。当开发环境任务暂停时,其未使用的资源可被生产环境借用,确保资源高效利用,同时保障各环境资源需求。配置时只需明确开发与生产环境的资源上下限,并关联对应项目任务即可实现动态调整。
169 1
|
3月前
|
数据采集 调度
Dataphin功能Tips系列(74)质量规则调度配置系列(1)-数据更新触发调度
在数据生产中,数据质量直接影响业务准确性。Dataphin 提供“数据更新触发调度”功能,结合强规则校验,可在数据更新时自动检测质量,异常时阻断下游任务,防止脏数据扩散,保障数据准确性与流程稳定。
|
11月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
563 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
|
7月前
|
弹性计算 Kubernetes 调度
Dataphin V5.0:调度资源支持弹性伸缩,有效提升资源利用率
Dataphin在5.0版本新增“调度资源弹性伸缩”功能,通过设置资源组的Min(保障资源)和Max(上限资源),优化资源共享逻辑,提升集群资源利用率。方案涵盖三种资源分配场景,并支持查看实时使用量。
226 16
|
9月前
|
数据采集 SQL 人工智能
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
AI技术的快速发展促使企业重新审视数据治理的重要性。当前,企业在数据治理中常因指标口径不统一、数据血缘不透明等问题陷入困境。阿里云智能集团瓴羊高级技术专家周鑫提出,以数据标准为核心贯穿数据全生命周期,可有效解决治理难题。
528 15
告别数据混乱:瓴羊Dataphin 通过AI+标准让企业数据“活”起来 | 【瓴羊数据荟】数据MeetUp第四期
|
8月前
|
SQL 分布式计算 数据处理
Dataphin 数据处理体验评测报告
作为一名软件开发工程师,我通过实际操作Dataphin,体验了从项目创建到数据处理与分析的完整流程。文章详细记录了开通试用、资源准备、离线管道任务开发、周期性计算任务、补数据操作、即席分析及Notebook图表展示等环节。整个过程让我对数仓搭建有了更清晰的认识。Dataphin在团队协作、任务管理及数据分析效率上有显著优势,但也存在优化空间,例如地域绑定提示、批量周期选择等功能可进一步完善。

热门文章

最新文章