Dataphin是瓴羊旗下的智能数据建设与治理平台,是阿里巴巴多年内部数据建设与治理实践及方法论的产品化输出,致力于通过一站式智能化的数据建设及治理能力,帮助企业构建起生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产。
一、Dataphin V5.1 版本升级功能点
01- 拓展 AWS 生态,适配AWS计算引擎及数据源
- 引擎适配:支持AWS EMR作为离线计算引擎
- 数据源:离线集成、数据服务、全域质量、元数据采集支持Amazon Redshift以及Amazon RDS
02- 强化研发技术支撑,加速企业数字能力建设
- API数据源支持OAuth2.0认证及自定义签名认证,满足多样化数据接入诉求
- 增全量一体实时同步支持任务运行隔离,可灵活按照表级别控制同步任务
- 支持租户级任务运维,打破项目壁垒,你关心的任务尽在手中
03- 完善运营消费链路,完整呈现从需求到实现的全过程
- 新增“业务指标”管理,助力指标清晰定义和理解一致
- 新增“指标关系图”让复杂计算逻辑变“透明”
04- 平台综合能力提升,增强平台可扩展性及稳定性
- 支持自定义系统菜单,构建企业级统一门户
- 全新升级模式,调度停止时间从3小时缩短至15分钟
二、新版本重点特性详解及应用场景示例
特性 1:对接AWS生态,支持Amazon EMR、Amazon Redshift、Amazon RDS
应用场景:
面向中国出海的企业
- 使用Amazon EMR 作为离线计算引擎的客户
- 未使用Amazon EMR作为计算引擎,但数据存储在Amazon,可使用Dataphin接入Amazon数据源
功能概览:
- 支持AWS云上部署
- 支持使用 Amazon EMR 作为离线计算引擎
- 支持Amazon Redshift、Amazon RDS for PostgreSQL/MySQL/SQL Server/Oracle/DB2数据源
- 功能范围:离线集成、数据服务、全域质量、元数据采集
特性 2:新增“业务指标”管理,助力指标清晰定义和理解一致
应用场景:
- 从分析需求管理角度:面向业务分析与数据开发人员,业务指标通过标准化管理双向赋能:既作为需求表达载体助力业务人员结构化输出,又通过系统化落地帮助开发人员精准对接需求,从而降低沟通成本、减少开发误差,实现全链路提效。
- 从指标查找使用角度:面向资产管理人员(尤其业务侧),基于业务-技术指标的关联体系,可快速了解需求的开发实现与拆解逻辑,沉淀场景化分析知识,助力业务人员快速定位关键指标、驱动精准决策。
功能概览:
业务指标管理能力通过标准化和系统化的方式,在平台上充当业务人员与技术人员的桥梁,确保指标的清晰定义和理解一致,以提高数据分析效率和决策准确性,促进团队协作,减少偏差,增强数据驱动能力。
- 支持业务指标定义,包括:名称、指标口径、归属目录、自定义属性、使用说明等信息;支持配置业务指标的可见权限;支持编辑、手动上架/暂不上架、删除等完整的上架管理操作
- 支持添加“相关业务指标”,从而可以按场景快速聚合相关指标,并在查询时进行关联推荐
- 支持为业务指标添加关联的技术指标,也支持在编辑技术指标信息时添加关联的业务指标
- 支持在前台按目录查看业务指标列表与详情、支持混合检索业务指标与技术指标
特性 3:“指标关系图”让复杂计算逻辑变“透明”
应用场景:
- 业务异常根因分析:核心指标波动时(如月活用户环比下跌15%),业务分析师可通过关系图逐层下钻拆解(MAU→DAU→新增用户/留存率→关键行为转化节点),快速定位异常环节(如某渠道注册流程断裂导致新增锐减),及时给出策略调整建议有效支撑业务。
- 指标口径变更推演:业务口径调整时(如复购率计算新增支付成功条件),通过关系图透视指标逻辑层级(复购率→用户购买次数→订单支付状态),明确需同步修改的派生指标(如有效复购率),规避口径迭代风险。
功能概览:
- 开发模块创建指标/原子指标时,新增“指标口径”定义:对于衍生原子指标/衍生指标,可通过@快速引用其他指标便于规范化配置
- 技术指标上架配置,可开启“指标关系图”的展示,并根据需要选择是否隐藏 SQL 计算逻辑(可一定程度上对敏感指标进行保护)
- 技术指标详情可查看“指标关系图”:以可视化的方式清晰地展示指标按照开发逻辑一步步往下拆解的依赖关系,如:衍生指标-->派生指标-->衍生原子指标-->原子指标,便于了解指标的生成过程、加工逻辑,提高数据透明度和可解释性
- 开发逻辑透视:逐层展示指标加工规则(聚合/关联/计算逻辑),消除"黑盒计算"隐患
- 业务价值传递:用流程图替代技术文档,让运营人员直观理解"会员复购率"等复杂指标的业务构成要素
特性 4:支持自定义系统菜单,构建企业级统一门户
应用场景:面向企业管理员,支持通过自定义系统菜单的方式,在Dataphin的菜单中嵌入企业其余门户的URL。
功能概览:
- 支持创建菜单分组,或在已有系统菜单的分组中通过iframe的方式嵌入外部系统的URL;
- 支持对嵌入的菜单进行权限管控,灵活控制每个角色的菜单,默认仅超级管理员和系统管理员可查看自定义菜单。
特性 5:全新升级模式,调度停止时间从3小时缩短至15分钟
应用场景:在之前的升级模式中,存在如下不便:
- 升级前需要停止掉所有正在运行的任务,同时暂定任务的调度,对于小时任务多的用户存在较大影响;
- 系统升级时,产品界面展示404、503错误码,容易造成歧义。
功能概览:
- 升级期间提供维护界面,清晰告知用户当前系统处于维护状态;
- 正在运行的任务无需终止,且大额缩减调度停服时间,仅需停止15分钟;
- 缩短产品不可用时长,仅需维护40分钟;
补充说明:
- 仅V5.1.1及以后的版本升级到更高版本时可用新版升级模式;
- 推出实例运维工具—Dataphin Manager,邀请有自主运维诉求的用户进行自主升级。
特性 6:数据标注“码表”支持直接引用已有表快速创建,一键同步码值数据
应用场景:
- 码表通常在数仓系统中以“维表”的形式存在,针对已经存在的维表,能否快速将其作为码表使用呢?
- 针对主数据系统梳理好的核心表,希望可以快速引用创建为码表,从而保证核心数据的一致性和数据更新时效性,无需重复创建
功能概览:
- 码表定义方式新增“从表引入”:支持引用有 select 权限的计算源/已通过元数据采集任务采集到的数据源表作为来源,一键获取指定范围的数据快速创建对应的码表;支持添加过滤条件仅获取需要的数据。
- 创建完成后,如有数据更新,可基于引用配置一键更新码值、或手动编辑已获取的码值数据,便于灵活管理。
特性 7:API数据源及管道组件升级,适配多样化认证的API
应用场景:
出于安全合规及业务场景多样化的考量,与企业级 ERP 系统如聚水潭、金蝶等进行 API 对接时,传统静态 Token 及基础认证方式(如固定密钥、简单用户名密码)已难以满足复杂的数据交互安全需求。这类静态认证模式存在明显安全短板,容易在传输过程中被截获、伪造或因系统漏洞泄露。
为了让客户能够更安全的接入API数据,Dataphin5.1支持了两种新的API认证方式。
- 一种是基于 OAuth 2.0的动态授权机制,授权服务器验证通过后,颁发短期有效的 Access Token,用于 API 请求认证;
- 一种是请求签名认证,通过对每一次 API 请求的关键参数进行加密签名,确保数据完整性与防抵赖性。
功能概览:
- API数据源支持OAuth2.0认证,支持API调用时动态获取Token
- API输入及输出组件支持支持自定义签名规则,支持根据时间戳、随机数及请求参数使用MD5HEX和HMAC系列函数生成动态签名
特性 8:增全量一体新增Hudi入湖支持,并支持表级全量任务运维
应用场景:
- 增全量一体任务中,若重新运行单表的全量任务将导致所有表的实时增量任务暂停
- 对于实时增量集成的场景是不友好且低效的,可能会增大数据延迟,影响下游业务消费
功能概览:
- 支持多表运行隔离,单表运行发生变更不再影响其他表
- 增全量一体新增支持MySQL到Hudi,目前增全量一体支持的数据湖有:Databricks、Hudi、MaxCompute Delta
特性 9:租户级统一运维,运维不再分项目隔离
应用场景:
在v5.1版本之前,Dataphin的运维按照项目做了隔离,带来了大量的不便利:
- 运维界面操作任务(如: 批量修改优先级),须切换至任务所属项目,频繁切换导致体验下降
- 根据任务ID搜索任务,须明确知道其所属项目,否则须逐个切换项目尝试
功能概览:
- 运维合并项目,项目作为统一列表的筛选项和展示项
- 支持查看同一个依赖路径上任意两个节点间的运行甘特图,帮助评估耗时分布,定位瓶颈问题
- 支持修改实例优先级;支持下载实例列表(支持下载筛选结果)
三、总结与展望
下个版本中,Dataphin 将在智能化、国际化时区、Iceberg数据湖、API行级权限、批量补数据等方面进行支持,更多精彩功能,敬请期待!