Dataphin V2.9.5.3版本发布,进行语法拓展、进一步打通企业邮箱系统、支持海量节点一键补数

本文涉及的产品
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
数据可视化DataV,5个大屏 1个月
智能数据建设与治理Dataphin,200数据处理单元
简介: 2021年10月,Dataphin发布V2.9.5.3版本,重点在数据集成、语法拓展、批量运维、告警渠道等模块进行了优化升级:

产品简介

Dataphin是阿里巴巴集团数据治理方法论基于内部实践的产品化输出,致力于帮助各企业用中台方法论打造企业级好数据。Dataphin一站式提供数据采、建、管、用全生命周期管理的能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。此外,Dataphin还提供了多种计算引擎支持及可拓展的开放能力,以适应各行各业的平台技术架构和个性化诉求。


新版本概览

2021年10月,Dataphin发布V2.9.5.3版本,重点在数据集成、语法拓展、批量运维、告警渠道等模块进行了优化升级:

  • 数据集成:新增文件合并、列头导出、空值适配等能力,以降低清洗成本提升配置灵活性
  • 语法拓展:支持建表语句TBLPROPERTIES参数、EXPLAIN等语法,适配多样性数据处理需求
  • 发布中心:针对引用字段在开发生产环境不一致的场景进行识别阻断,增强发布管控能力,降低数据质量问题产生的风险
  • 运维中心:拓展支持海量节点一键补数据功能,并简化实例批量操作步骤,提升运维效率和操作体验
  • 平台能力:新增支持配置基于SMTP和Exchange协议邮箱进行告警邮件发送,以打通企业邮箱系统,增强告警适配性

此外,该版本进一步优化了页面查询和加载性能,旨在为用户提供更完善的产品能力和更流程的使用体验,以加速企业数据中台建设进程。


新版本重点特性详解

特性1:数据集成HDFS和FTP输出组件支持设置文件合并和列头导出;MaxCompute输出组件优化针对空值字段的适配

针对FTP和HDFS输出组件,可根据传输速率和存储要求配置是否需要合并输出,以提升数据同步效率;可自行选择是否需要导出列头,可减少后链路的加工处理。

MaxCompute输出组件针对来源表重类型为tinnyint、smallint、int等类型的空值字段增加了兼容处理,可正常同步而不报错,降低前置数据清洗成本。

特性2:新增支持建表TBLPROPERTIES参数、EXPLAIN、DELETE WHERE语法,适配多样性数据处理需求

建表语句新增支持TBLPROPERTIES参数语法;新增适配EXPLAIN语法以支持分析查询语句或表结构来分析性能瓶颈;新增适配DELETE WHERE语法以支持选择性删除,可适配更灵活多样的数据处理需求。

特性3:针对代码任务引用的字段在开发生产环境不一致的场景进行发布阻断,降低数据质量问题产生的风险

某些场景下,任务中引用的来源表字段可能在开发环境和生产环境不一致,尤其是select *的场景,导致运行的预期效果和测试不一致。本次升级,针对这种情况进行了sql解析,若引用字段在开发环境和生产环境不一致,则阻断发布并给用户提示,以增强发布管控能力,避免可能由此产生的数据不一致或运行报错等质量问题,降低后续排查成本。

特性4:运维中心拓展支持海量补数据功能,提升运维效率

任务上线后,如果修改了计算逻辑,或上游来源数据进行了更新,经常需要通过补数据操作对历史分区数据进行刷新。尤其在《个人信息保护法》出台后,全局任务补数据的频率大大增加,对于运维人员来说操作成本较高。

这个版本,Dataphin新增海量补数据模式,可以通过选中任务所在项目、或直接输入节点输出名称的方式快捷指定目标任务,列表操作也新增了运维负责人和所属项目的筛选,帮助用户快速定位任务,大大提升了操作效率。此外,本期在补数据业务日期的配置上也进行了升级,小时分钟调度任务可指定具体时间段,天任务可自定义输入非连续日期。最后,针对配置为暂停调度的任务,生成的补数据实例可根据实际情况指定是否需要正常运行,防止阻塞下游节点运行,以适配更灵活多样的补数据场景。

特性5:简化补数据实例、逻辑表周期实例的批量操作前置步骤,降低操作成本

由于补数据实例列表和逻辑表周期实例列表的节点均是多层结构,且存在混合运行状态,希望筛选出某种状态的节点进行批量操作的前置成本较高。本期,这两个列表优化了批量操作判断逻辑,用户无需进行前置判断和筛选,可以直接选中当前页面所有实例并执行预期操作,后台将根据单个节点运行实例进行自动过滤,功能易用性进一步提升。对于补数据实例,新增了一键重跑失败实例和一键终止运行中实例的快捷操作,大大提升了批量运维的效率,降低手动操作成本。

特性6:Dag图和操作弹框下游列表性能优化

本期重点针对运维Dag图和操作弹框下游列表的查询和加载性能进行了较大的优化。以800个节点场景为例,Dag加载时间由原来的15-20s缩短至5s内;补数据和重跑操作的下游节点列表,1000个节点的展示时间由原来的10s缩短至3秒左右,整体性能提升约2.5倍。

特性7:新增支持配置基于SMTP和Exchange协议邮箱进行告警邮件发送

历史版本中,Dataphin的告警邮件均通过Dataphin内置邮箱发送。对于部分企业客户来说,希望能通过公司自建的邮件系统收发告警邮件,以进行后续的统计分析。本期,Dataphin新增支持配置基于SMTP和Exchange协议邮箱进行告警邮件发送,并支持发送测试邮件,以打通企业邮箱系统,增强告警适配性。


总结与展望

本次发布的V2.9.5.3版本中,Dataphin围绕数据集成、语法拓展、批量运维、告警渠道等模块进行了功能迭代升级;在下一个版本中,我们将支持离线代码模板、clickhouse数据源、参数化视图等新功能,并优化即席查询、重跑下游列表等模块,敬请期待!




阿里云数据中台是阿里巴巴数据中台唯一商业化输出,以数据中台方法论为内核,构建起”快、准、全、统、通“的智能大数据体系。

阿里云数据中台产品矩阵是以Dataphin为基座,以Quick系列为业务场景化切入:

  • - Dataphin,智能数据建设与治理
  • - Quick BI,数据可视化分析
  • - Quick Audience,一站式消费者运营和管理
  • - Quick Tracking,全域行为洞察
  • - Quick Stock, 智能货品运营
  • - Quick Decision,风控决策数字引擎

目前正对外输出系列解决方案,包括通用数据中台解决方案、零售数据中台解决方案、金融数据中台解决方案、互联网数据中台解决方案等。


相关文章
|
3月前
Dataphin功能Tips系列(7)-维表版本策略
在创建普通维度逻辑表和事实逻辑表关联维度时,如何配置维表版本策略?
144 2
|
20天前
|
SQL 运维 安全
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
1379 2
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
2月前
|
存储 SQL 多模数据库
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
Lindorm通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
|
1月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用合集之如何从Dataphin使用界面查看版本
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
3月前
|
SQL 运维 数据管理
Dataphin补数据又双叒叕升级了,支持筛选节点类型,支持输入或粘贴节点名称批量补数据
Dataphin 4.0版本针对补数据操作进行了升级,旨在提升用户体验。在面对数据缺失问题时,如某企业因上游系统故障需紧急回刷历史数据,Dataphin提供了按节点类型筛选下游节点的功能,减少了手动操作的错误和时间消耗。对于大规模任务管理,如银行数据中心的历史数据补充,Dataphin支持按照节点名称批量补数据,提高了效率和准确性。此外,还优化了逻辑表补数据的性能,并允许配置超时任务自动重跑,以应对调度高峰。
|
3月前
|
SQL 分布式计算 数据可视化
Dataphin常见问题之看不到上个版本的血缘如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
3月前
|
SQL 运维 调度
Dataphin V3.14 版本升级|研发平台更易用,治理能力更完备,企业级适配更灵活
Dataphin V3.14 重磅升级,平台支持企业级适配,适配企业特色;研发体验易用性提升,数据研发更高效、任务运维更便捷;数据治理能力更完备,支持多对象批量操作,规则级告警配置、分级分类自动继承继承!
367 0
|
8月前
|
SQL 运维 API
Dataphin(智能数据建设与治理)V3.13版本升级速览
本次发布的V3.13 版本中,Dataphin 不仅提升了易用性,支持了计算任务批量操作(离线集成&实时计算任务)、运维列表查看及批量操作(实例排序、手动任务批量运行、逻辑表任务修改负责人)等功能;也新增了多个特色功能,如:任务传参及灵活调度(跨节点参数)、治理经验沉淀(质量知识库)、资产治理相关对象的跨租户发布(数据标准、安全)、跨集群资源调度、分析平台手工表等,以满足灵活、多样性的业务诉求。
469 2
|
3月前
|
SQL 运维 监控
Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力
Dataphin V3.9 版本升级|支持一站式数据汇聚处理、优化研发体验、提升数据治理能力
121 0
|
9月前
|
SQL API 数据安全/隐私保护
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——6. 数据服务:集中管控,快速服务业务系统
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——6. 数据服务:集中管控,快速服务业务系统
180 0

相关产品

  • 智能数据建设与治理 Dataphin