Dataphin功能Tips系列(47)-支持通过Spark本地客户端提交Spark Batch任务

简介: 支持通过Spark本地客户端提交Spark Batch任务

一、场景

原来的Spark Jar任务和PySpark任务提交,需要借助外部执行机器作为“跳板机”,这会产生以下问题:

  1. 单点故障风险,缺乏高可用性:
  • 跳板机作为单一的连接点,一旦发生故障(如硬件故障、网络中断等),将导致整个Spark任务提交流程中断,无法实现高可用性。
  1. 资源分配集中,无法实现均衡负载:
  • 由于所有任务必须通过跳板机提交,资源分配过于集中,容易造成瓶颈。特别是在高负载情况下,跳板机可能成为任务提交和执行的性能瓶颈。
  1. 缺乏Spark Job的全生命周期管理:
  • 无法管理Spark Job,在Dataphin终止Spark_jar任务后,只能结束Dataphin调度系统内的任务,而无法终止跳板机的进程,也无法终止 yarn 上的application

二、解决方案及功能

Dataphin支持通过Spark本地客户端的方式提交Spark Jar和PySpark任务

  1. 消除单点故障:
  • 容器化部署spark客户端,当容器检测到故障时,自动触发恢复过程,启动新的容器,继续提供服务。
  1. 提升资源利用效率:
  • 使用Docker容器实现任务的动态分配和负载均衡,充分利用集群资源,避免资源浪费,也可以跟随系统自动扩容
  1. 增强对Spark Job监控和管理,管理全生命周期:
  • 用户可以方便地进行任务的提交、终止和监控,提升工作效率。

目前Spark执行机器和Spark本地客户端两种模式都支持,如果两个都开启,在任务左上角可以选择需要的客户端版本

如需将原来用执行机器提交的任务 转为本地客户端进行提交,可在任务左上角进行切换,提交并发布后即可生效

相关文章
|
4月前
|
机器人 数据中心
Dataphin功能Tips系列(79)精准获知标准更新动态,协同治理更高效
Dataphin支持数据标准变更订阅,可实时通过站内信、邮箱或钉群机器人通知相关人员,确保业务及时响应。用户可通过标准列表、个人中心等入口批量订阅,变更消息包含状态、版本及跳转链接,便于快速查看与处理。
187 8
|
4月前
|
数据采集 监控 调度
Dataphin功能Tips系列(76)质量规则调度配置系列(3)-定时调度
Dataphin「定时调度」功能支持按需设定数据质量检测时间与频率,适用于定期检查数据质量问题的场景。提供手动配置和系统推荐两种方式,可自动执行规则并生成报告,帮助用户高效发现并处理问题。
175 9
|
4月前
|
数据采集 运维 调度
Dataphin功能Tips系列(75)质量规则调度配置系列(2)-固定任务触发调度
Dataphin“固定任务触发调度”支持在任务成功或运行前触发质量规则校验。适用于表数据来源任务固定的场景,通过绑定强规则可阻断下游任务,防止脏数据扩散,提升数据质量管控能力。
213 9
|
4月前
|
数据管理
Dataphin功能Tips系列(78)自定义属性助力资产精细化管理
Dataphin V5.3升级自定义属性功能,支持多选、超链接及引用系统属性,实现资产“归口部门”与组织架构同步、指标看板一键跳转等场景,提升资产配置灵活性与管理效率。
164 8
|
4月前
|
数据采集 调度
Dataphin功能Tips系列(74)质量规则调度配置系列(1)-数据更新触发调度
Dataphin通过“数据更新触发调度”功能,结合强规则校验,可在订单表数据更新时自动触发质量检查,异常时阻断下游任务,有效防止脏数据扩散,保障关键业务链路的数据准确性与稳定性。
203 8
|
4月前
|
安全 数据安全/隐私保护
Dataphin功能Tips系列(73)Dataphin行级权限:构建灵活高效的权限管理体系
Dataphin行级权限通过“控制字段”实现精细化数据管控,有效避免传统字段权限过度开放带来的安全风险,提升权限管理效率与灵活性,满足复杂场景下的数据安全需求。
229 4
|
4月前
Dataphin功能Tips系列(77)如何实现数据资产上下架的精准管控与高效流转
在企业数据治理中,Dataphin支持按资产范围灵活配置上下架审批流程。通过标签、项目等条件圈选资产,绑定自定义审批模板,实现核心资产精细管控与大规模资产高效流转的平衡,提升数据运营效率。
175 1
|
9月前
|
测试技术 数据处理 调度
Dataphin功能Tips系列(57)「预览」vs「运行」:离线集成的神奇按钮
在数据开发过程中,使用Dataphin处理离线集成任务时,可能遇到数据过滤和字段计算组件配置正确性的验证问题。通过「预览」功能,可快速验证处理逻辑而不影响目标表;对于需要调度的任务,担心资源占用和耗时超出预期时,可使用「运行」功能进行全流程测试,评估实际耗时与资源消耗。「预览」适合逻辑验证,「运行」用于真实环境模拟,两者结合助力高效开发与调试。
251 5
|
9月前
|
SQL Java 关系型数据库
Dataphin功能Tips系列(53)-离线集成任务如何合理配置JVM资源
本文探讨了将MySQL数据同步至Hive时出现OOM问题的解决方案。
235 5
|
9月前
|
SQL 数据采集
Dataphin功能Tips系列(56)如何实现质量规则的批量修改
本文介绍了在Dataphin中针对Dataphin表和全域数据表的自定义SQL规则的批量修改的方法。
248 4