瓴羊Dataphin调度性能突破「千万级」,数据处理更快更稳

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。

企业数字化运营需求催生了海量的数据任务,以阿里巴巴为例,这十年间随着集团业务复杂度和数据体量的不断攀升,任务量呈现出阶梯式增长,每日任务调度量突破了2000万。由此可见,在大数据时代,一款能够保障千万级示例平稳高效调度的数据建设工具,必将成为数字化企业不可或缺的中坚力量。

一、支持超大规模系统吞吐量和超复杂依赖关系

瓴羊Dataphin于近期发布V3.11版本,不仅上线了数据分析平台、隐私计算平台两大能力模块,同时重新设计了任务执行框架,使用k8s替换原有的Mesos作为资源调度底座,拥有全局资源视角,可充分利用机器资源,极大提高集群任务执行吞吐率,加快客户数据产出。另外,任务调度资源池和在线服务共享k8s基础设施,去除对Mesos和Zookeeper的依赖,降低Dataphin的部署、运维成本。


升级后的Dataphin V3.11版本,可以在24小时内完成3800万的实例调度,较之前的V3.9版本,取得了显著的优化成果,整体提升25.4倍,可支持超复杂依赖关系,比如在宽度100万,深度20,以及宽度20,深度一百万的2类调度测试场景中,全链路调度耗时有明显减少,即席查询性能提升也十分明显。

二、引入混沌工程,运行千万级任务不重复不漏跑

分布式架构下各组件之间相互调用和相互依赖,系统在失真环境下异常事件发生的概率大幅攀升,通过常规的测试手段很难发现这些问题,处理不好就会导致业务受损。

通过引入混沌工程,围绕Dataphin分布式调度系统生产环境的任务运行稳态,使用技术手段模拟多样化的真实异常注入(宕机重启、DB异常、高负载、网络延迟、时钟不同步等),找出系统薄弱点,针对性的对系统进行加固防范,验证调度系统在各种异常场景,外围依赖服务不可用情况下,Dataphin核心功能如周期任务转实例、任务起调、任务下发、任务执行、消息消费仍然可以保持稳定的运行状态。

如果有一家日调度3万的企业,为了新增业务想要追补近3年数据,之前需要额外的22.8个工作日,而拥有了Dataphin V3.11版本,哪怕数据任务超过限额,只需对调度系统进行扩容,即可承载千万级别的调度任务规模,帮助企业在24小时内完成近3年数据追补。


三、Dataphin,阿里巴巴最佳实践输出

未来3-5年内,在数字化道路上快速挺进的企业,都将面临任务量飞速增长的局面,届时将对企业的数据处理能力提出更高的要求。


Dataphin(智能数据建设与治理)是瓴羊开发云核心产品之一,源自阿里巴巴内部大数据建设最佳实践的商业化输出。从2017到2023,历经6年时间服务了千行百业的客户。


我们深知,企业需要一套完善的数据技术与工具,实现数据采集、存储、计算、建设和管理,利用数据思维对当下的业务运营与管理场景问题精细洞察,学会利用数据资产改善能效,以此循环往复,推动数据资产的持续沉淀,助力企业打造标准统一、准确可信、便捷可消费的数据体系。


面对不确定的未来,Dataphin团队确信只有通过不断夯实数据建设基础能力,才能在应对错综复杂的数字化业务时更加游刃有余。我们期望与企业们一起乘风破浪,仰望星空、脚踏实地,持续在数字化转型的实践道路上并肩前行。

 

相关文章
|
7月前
|
调度
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
一个销售额结算的周期任务的调度周期是月调度---每月1号进行调度,但是有一天调整了计算口径后希望重新计算过去几个月的销售额,此时补数据任务的业务日期应该如何选择?
163 4
Dataphin功能Tips系列(6)-月调度周期任务补数据的业务日期选择
|
7月前
|
SQL 安全 数据建模
Dataphin常见问题之计算任务没有按调度执行如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
7月前
|
数据采集 运维 Java
有了 Dataphin v4.0,跨系统调度依赖再也不是难题
Dataphin v4.0引入了新的触发式节点,用于解决多数据平台间的调度问题。当上游系统(如Unix的crontab)完成数据采集后,可通过触发式节点通知Dataphin开始拉取数据,避免传统轮询方式的效率低和资源占用。触发式节点需满足Dataphin OpenAPI开通和网络连通条件,并通过SDK进行外部触发。示例展示了如何创建和使用触发式节点,以及使用Java SDK模拟触发请求。
341 0
|
7月前
|
存储 数据采集 安全
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
瓴羊Dataphin数据安全能力再升级,内置分类分级模板、上线隐私计算模块
211 0
|
2月前
|
存储 人工智能 安全
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
瓴羊Dataphin连续俩年获得DAMA年度优秀数据治理产品奖,本次与DAMA联合发布“DAMA x 瓴羊 数据管理技能认证”,助力提升全民数据素养。
165 0
【荣誉奖项】荣获2024数据治理优秀产品!瓴羊Dataphin联合DAMA发布数据管理技能认证
|
5月前
|
运维 关系型数据库 调度
想一套Dataphin管理云上云下的集群和数据?“注册调度集群”来帮忙!
在实际业务场景中,部分企业在云上和云下(本地机房)都存在集群和数据库,企业期望通过一套Dataphin同时对这些集群和数据库进行管理,如何有效解决数据跨网络传输带来的安全性低和流量成本高的问题是其中的关键。为了解决上述问题,Dataphin推出“注册调度集群”功能,帮助企业实现一套Dataphin管理云上云下的集群和数据。
|
6月前
|
数据采集 数据可视化 数据管理
【企业实践】台州银行携手瓴羊Dataphin共建数据平台,打造小微金融治理新标杆
台州银行数据治理项目携手瓴羊Dataphin,荣获中国信息通信研究院评为“2023年铸基计划高质量数字化转型典型优秀案例”、数字化研究机构沙丘社区选为“2024中国数据资产管理最佳实践案例”双重认可。
577 4
【企业实践】台州银行携手瓴羊Dataphin共建数据平台,打造小微金融治理新标杆
|
7月前
|
调度 SQL
|
7月前
|
SQL 存储 数据可视化
Dataphin常见问题之30G的内存都不够用如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章