Dataphin功能Tips系列(47)-支持通过Spark本地客户端提交Spark Batch任务

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 支持通过Spark本地客户端提交Spark Batch任务

一、场景

原来的Spark Jar任务和PySpark任务提交,需要借助外部执行机器作为“跳板机”,这会产生以下问题:

  1. 单点故障风险,缺乏高可用性:
  • 跳板机作为单一的连接点,一旦发生故障(如硬件故障、网络中断等),将导致整个Spark任务提交流程中断,无法实现高可用性。
  1. 资源分配集中,无法实现均衡负载:
  • 由于所有任务必须通过跳板机提交,资源分配过于集中,容易造成瓶颈。特别是在高负载情况下,跳板机可能成为任务提交和执行的性能瓶颈。
  1. 缺乏Spark Job的全生命周期管理:
  • 无法管理Spark Job,在Dataphin终止Spark_jar任务后,只能结束Dataphin调度系统内的任务,而无法终止跳板机的进程,也无法终止 yarn 上的application

二、解决方案及功能

Dataphin支持通过Spark本地客户端的方式提交Spark Jar和PySpark任务

  1. 消除单点故障:
  • 容器化部署spark客户端,当容器检测到故障时,自动触发恢复过程,启动新的容器,继续提供服务。
  1. 提升资源利用效率:
  • 使用Docker容器实现任务的动态分配和负载均衡,充分利用集群资源,避免资源浪费,也可以跟随系统自动扩容
  1. 增强对Spark Job监控和管理,管理全生命周期:
  • 用户可以方便地进行任务的提交、终止和监控,提升工作效率。

目前Spark执行机器和Spark本地客户端两种模式都支持,如果两个都开启,在任务左上角可以选择需要的客户端版本

如需将原来用执行机器提交的任务 转为本地客户端进行提交,可在任务左上角进行切换,提交并发布后即可生效

相关文章
|
2月前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
|
2月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
|
2月前
|
SQL 数据采集
Dataphin功能Tips系列(56)如何实现质量规则的批量修改
本文介绍了在Dataphin中针对Dataphin表和全域数据表的自定义SQL规则的批量修改的方法。
|
2月前
|
弹性计算 调度
Dataphin功能Tips系列(52)-调度资源组弹性伸缩
Dataphin支持通过自定义资源组实现弹性资源调配:设置资源上下限,允许资源组间相互“借用”空闲资源。当开发环境任务暂停时,其未使用的资源可被生产环境借用,确保资源高效利用,同时保障各环境资源需求。配置时只需明确开发与生产环境的资源上下限,并关联对应项目任务即可实现动态调整。
|
2月前
|
存储 分布式计算 供应链
Dataphin功能Tips系列(51)-支持增全量一体实时集成
本文介绍了基于增全量一体实时集成的库存管理与分析解决方案。通过将业务中台的库存表同步至MaxCompute Delta表,实现离线与实时分析的统一支持。相比传统方案,该方法确保数据一致性,优化存储成本,降低维护复杂度,并大幅提升实时性,满足高效库存管理需求。
|
2月前
|
供应链
Dataphin功能Tips系列(55)如何通过规则排序实现不同的自动上架效果
本文介绍了如何在Dataphin中配置自动上架规则以高效管理数据。
|
2月前
Dataphin功能Tips系列(54)如何将资产自动变更为暂不上架
在资产运营管理中,为避免某些表(如贴源表、中间表等)被自动上架,Dataphin 提供了“暂不上架”规则配置功能。通过创建规则组和规则,可精细化管理资产对象。
|
2月前
|
数据采集 存储 监控
星河中的数据旅程:从普通字段到核心指标 -- 基于Dataphin的数据源资产全链路管理
在数据星河中,Starrocks星球的字段居民渴望登上资产管理平台,贡献数据力量。通过元数据采集、标准稽核与质量监控,字段们获得新身份“核心业务指标”。借助Dataphin平台功能,如自定义属性和QuickBI对接,它们最终参与经营分析报表,助力决策。Dataphin V4.4提升了全链路管理能力,新增大数据存储元数据采集、自定义指标等功能,释放数据潜力。加入Dataphin,探索数据无限可能!
107 8
|
1月前
|
运维 安全 数据管理
Dataphin V5.1 企业级发布:全球数据无缝集成,指标管理全新升级!
企业数据管理难题?Dataphin 5.1版来解决!聚焦跨云数据、研发效率、指标管理和平台运维四大场景,助力数据团队轻松应对挑战。无论是统一指标标准、快速定位问题,还是提升管理安全性,Dataphin都能提供强大支持。3分钟了解新版本亮点,让数据治理更高效!
|
6月前
|
安全 数据挖掘 大数据
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期
Dataphin的技术架构与实践路径,涵盖多引擎兼容、混合云架构、统一资产消费等方面,Dataphin通过持续升级,帮助企业实现全生命周期的数据资产管理,助力企业在大模型时代更好地“建好数据”、“用好数据”。
406 87
开放、兼容的数据建设与治理平台——瓴羊Dataphin“进化论” |【瓴羊数据荟】数据MeetUp第三期

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等