针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: OSS(Object Storage Service)是对象存储服务,适用于存放各种文件类型,Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中,Dataphin对于OSS的数据同步场景做了全面的功能升级,包括数据源、输入组件与数据组件,一起来了解一下吧~

一、OSS数据源支持填写目录

背景:在Dataphin中创建数据源的时候,需要通过测试连接,保证填写的数据源各项配置均正确,才可以成功创建数据源。这个设计是为了保证后续功能使用数据源的时候,不会因为数据源配置项填写错误,无法连接从而导致任务失败。V3.12之前,OSS数据源仅支持填写到Bucket级别。但是存在这样的场景,某些账号仅有一个Bucket下某个目录的权限,此时用这个账号密码去测试连接,校验是否有访问该Bucket的权限,就会失败,导致数据源无法创建。

功能:针对这个场景,在OSS数据源中新增了“目录”非必填配置项,在遇到上述场景的时候,可以将有权限的目录填入,此时测试连接就会只校验该账号是否有访问该Bucket下该目录的权限,可成功创建数据源。在OSS输入或输出组件中,如果选择了填写了目录的OSS数据源实例,也会在前缀中展示作为默认的目录,默认目录可编辑。

二、OSS输入组件支持读取Excel文件

背景:序言中说到,OSS适用于存储各类型的文件,Excel文件作为一种常见的文件类型,时常会被存储到OSS中,所以自然也有读取OSS中Excel文件数据的需求了。

功能:V3.12之前,OSS输入组件支持读取Text和CSV文件。本次升级中,新增支持读取xls和xlsx两种Excel文件类型。

  • 支持选择读取的sheet:可按名称或按索引选择需读取的sheet。读取多张sheet以英文逗号分隔,也可输入* 读取所有sheet。
  • 导出sheet名:如选择多张sheet时,可能有根据sheet名称来分类数据的场景,所以可选择导出sheet名称,加入一个输出字段标识来源sheet名称。
  • 文件内容起始行、结束行:文件中可能存在第一行为字段名称,或者首尾存在无效数据的情况。可通过指定文件内容起始行与结束行,指定需要读取的数据。

三、OSS输出文件名命名规则优化

背景:原本的OSS输入文件名,会在填写的Object前缀后面加上随机后缀,保证文件不重名,但是这样的可读性较差。同时写入的文件个数也是默认为任务的并发数,这个默认设置无法满足,在数据量很大需要使用并发的场景下,且想写到一个文件中的需求。

功能:针对上述的两个问题,本期归纳了不同场景,给出适合且灵活的文件写入与命名方式。

  • 支持选择写入文件个数:支持选择写入单个文件或多个文件。选择单个文件,将数据写入目标端oss的单个文件中;选择多个文件,将数据写入目标端oss的多个文件,且文件数量为任务并发数。(需注意,并发数需要配合输入组件的切分键使用,如输入端未配置切分键,并发设置不生效,仍为1。)
  • 支持选择后缀格式:选择生成多个文件时,可选择生成_0, _1, _2等序列后缀,也可选择生成UUID随机数后缀。当选择前缀冲突策略为保留原文件追加时,仅能生成UUID随机数后缀,以保证生成不重复的文件名。



结语:文件类型的数据集成场景中,功能与操作都会比结构化数据集成复杂一些。这需要我们从数据源、读取到写入全流程进行需求洞察与功能优化,提高文件类型数据集成的易用性与可操作性。

相关文章
|
1月前
|
数据采集 SQL 数据可视化
Dataphin功能Tips系列(72)一键数据探查,打造高质量数据开发、分析流程
Dataphin数据探查功能助力高效识别数据质量问题,支持手动与自动两种探查模式。通过一键生成质量报告,快速检测空值、异常值、重复值等问题,全面掌握数据分布与健康状况,提升数据准备与分析准确性。
182 7
|
3月前
|
搜索推荐 数据管理
Dataphin功能Tips系列(70)自定义菜单:构建一站式数据管理平台
Dataphin通过自定义菜单功能,支持嵌入企业其他平台URL,实现统一的数据开发与管理平台,提升团队协作效率。
154 8
|
29天前
|
机器人 数据中心
Dataphin功能Tips系列(79)精准获知标准更新动态,协同治理更高效
Dataphin支持数据标准变更订阅,可实时通过站内信、邮箱或钉群机器人通知相关人员,确保业务及时响应。用户可通过标准列表、个人中心等入口批量订阅,变更消息包含状态、版本及跳转链接,便于快速查看与处理。
103 8
|
1月前
|
数据采集 监控 调度
Dataphin功能Tips系列(76)质量规则调度配置系列(3)-定时调度
Dataphin「定时调度」功能支持按需设定数据质量检测时间与频率,适用于定期检查数据质量问题的场景。提供手动配置和系统推荐两种方式,可自动执行规则并生成报告,帮助用户高效发现并处理问题。
|
1月前
|
数据采集 运维 调度
Dataphin功能Tips系列(75)质量规则调度配置系列(2)-固定任务触发调度
Dataphin“固定任务触发调度”支持在任务成功或运行前触发质量规则校验。适用于表数据来源任务固定的场景,通过绑定强规则可阻断下游任务,防止脏数据扩散,提升数据质量管控能力。
|
1月前
|
数据管理
Dataphin功能Tips系列(78)自定义属性助力资产精细化管理
Dataphin V5.3升级自定义属性功能,支持多选、超链接及引用系统属性,实现资产“归口部门”与组织架构同步、指标看板一键跳转等场景,提升资产配置灵活性与管理效率。
|
1月前
|
数据采集 调度
Dataphin功能Tips系列(74)质量规则调度配置系列(1)-数据更新触发调度
Dataphin通过“数据更新触发调度”功能,结合强规则校验,可在订单表数据更新时自动触发质量检查,异常时阻断下游任务,有效防止脏数据扩散,保障关键业务链路的数据准确性与稳定性。
125 8
|
1月前
|
安全 数据安全/隐私保护
Dataphin功能Tips系列(73)Dataphin行级权限:构建灵活高效的权限管理体系
Dataphin行级权限通过“控制字段”实现精细化数据管控,有效避免传统字段权限过度开放带来的安全风险,提升权限管理效率与灵活性,满足复杂场景下的数据安全需求。
131 4
|
1月前
Dataphin功能Tips系列(77)如何实现数据资产上下架的精准管控与高效流转
在企业数据治理中,Dataphin支持按资产范围灵活配置上下架审批流程。通过标签、项目等条件圈选资产,绑定自定义审批模板,实现核心资产精细管控与大规模资产高效流转的平衡,提升数据运营效率。