针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: OSS(Object Storage Service)是对象存储服务,适用于存放各种文件类型,Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中,Dataphin对于OSS的数据同步场景做了全面的功能升级,包括数据源、输入组件与数据组件,一起来了解一下吧~

一、OSS数据源支持填写目录

背景:在Dataphin中创建数据源的时候,需要通过测试连接,保证填写的数据源各项配置均正确,才可以成功创建数据源。这个设计是为了保证后续功能使用数据源的时候,不会因为数据源配置项填写错误,无法连接从而导致任务失败。V3.12之前,OSS数据源仅支持填写到Bucket级别。但是存在这样的场景,某些账号仅有一个Bucket下某个目录的权限,此时用这个账号密码去测试连接,校验是否有访问该Bucket的权限,就会失败,导致数据源无法创建。

功能:针对这个场景,在OSS数据源中新增了“目录”非必填配置项,在遇到上述场景的时候,可以将有权限的目录填入,此时测试连接就会只校验该账号是否有访问该Bucket下该目录的权限,可成功创建数据源。在OSS输入或输出组件中,如果选择了填写了目录的OSS数据源实例,也会在前缀中展示作为默认的目录,默认目录可编辑。

二、OSS输入组件支持读取Excel文件

背景:序言中说到,OSS适用于存储各类型的文件,Excel文件作为一种常见的文件类型,时常会被存储到OSS中,所以自然也有读取OSS中Excel文件数据的需求了。

功能:V3.12之前,OSS输入组件支持读取Text和CSV文件。本次升级中,新增支持读取xls和xlsx两种Excel文件类型。

  • 支持选择读取的sheet:可按名称或按索引选择需读取的sheet。读取多张sheet以英文逗号分隔,也可输入* 读取所有sheet。
  • 导出sheet名:如选择多张sheet时,可能有根据sheet名称来分类数据的场景,所以可选择导出sheet名称,加入一个输出字段标识来源sheet名称。
  • 文件内容起始行、结束行:文件中可能存在第一行为字段名称,或者首尾存在无效数据的情况。可通过指定文件内容起始行与结束行,指定需要读取的数据。

三、OSS输出文件名命名规则优化

背景:原本的OSS输入文件名,会在填写的Object前缀后面加上随机后缀,保证文件不重名,但是这样的可读性较差。同时写入的文件个数也是默认为任务的并发数,这个默认设置无法满足,在数据量很大需要使用并发的场景下,且想写到一个文件中的需求。

功能:针对上述的两个问题,本期归纳了不同场景,给出适合且灵活的文件写入与命名方式。

  • 支持选择写入文件个数:支持选择写入单个文件或多个文件。选择单个文件,将数据写入目标端oss的单个文件中;选择多个文件,将数据写入目标端oss的多个文件,且文件数量为任务并发数。(需注意,并发数需要配合输入组件的切分键使用,如输入端未配置切分键,并发设置不生效,仍为1。)
  • 支持选择后缀格式:选择生成多个文件时,可选择生成_0, _1, _2等序列后缀,也可选择生成UUID随机数后缀。当选择前缀冲突策略为保留原文件追加时,仅能生成UUID随机数后缀,以保证生成不重复的文件名。



结语:文件类型的数据集成场景中,功能与操作都会比结构化数据集成复杂一些。这需要我们从数据源、读取到写入全流程进行需求洞察与功能优化,提高文件类型数据集成的易用性与可操作性。

相关文章
|
3月前
|
存储 测试技术 持续交付
自动化测试与持续集成/持续交付(CI/CD):优化软件开发流程的利器
自动化测试与持续集成/持续交付(CI/CD)是现代软件开发中至关重要的环节,通过将自动化测试与持续集成/持续交付相结合,可以实现开发流程的高效优化,提高软件质量和交付速度。本文将探讨自动化测试与CI/CD的概念、原理及其在软件开发中的重要性,以及如何实施这些技术以提升团队的协作效率和软件交付质量。
59 1
|
3月前
|
存储 Go
Go 浅析主流日志库:从设计层学习如何集成日志轮转与切割功能
本文将探讨几个热门的 go 日志库如 logrus、zap 和官网的 slog,我将分析这些库的的关键设计元素,探讨它们是如何支持日志轮转与切割功能的配置。
103 0
Go 浅析主流日志库:从设计层学习如何集成日志轮转与切割功能
|
3月前
|
存储 Java 对象存储
springboot配置阿里云OSS存储实现文件上传下载功能
【1月更文挑战第1天】springboot配置阿里云OSS存储实现文件上传下载功能
590 2
|
10天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
31 7
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:移动应用中的人工智能集成与用户体验优化
【4月更文挑战第3天】 随着人工智能技术的不断进步,移动应用领域正在经历一场革命。本文将深入探讨移动应用中人工智能集成的最新趋势,以及如何通过这些技术提升用户体验。我们将分析自然语言处理、机器学习和计算机视觉等AI技术在移动应用中的具体应用场景,并讨论它们对用户互动、个性化服务和智能推荐系统的影响。此外,文章还将提出一系列策略,帮助开发者在保持用户隐私和数据安全的前提下,有效地集成人工智能功能。
|
1月前
|
监控 Oracle 关系型数据库
Dataphin实时集成Oracle CDC相关问题排查
本文档提供了Dataphin平台Oracle CDC实时集成相关问题排查指南,覆盖了权限等常见问题,旨在帮助快速定位和解决Oracle数据库变更数据捕获(CDC)集成过程中所可能遇到的技术难题,确保数据的实时、准确同步。
|
1月前
|
敏捷开发 分布式计算 数据管理
探索自动化测试在持续集成环境中的优化策略
【2月更文挑战第18天】 在高速迭代的软件开发过程中,自动化测试已成为确保产品质量和加快交付速度的关键。本文深入探讨了自动化测试在持续集成(CI)环境中面临的挑战,并提出了一系列优化策略。通过对测试流程、工具选择和测试数据管理等方面的细致分析,旨在为软件测试人员提供实用的改进方法,以提高自动化测试的效率和准确性。
|
3月前
|
存储 数据处理
Dataphin集成任务支持自定义FTP标记完成文件内容(V3.14)
在文件传输的场景中,标记完成文件(有时也被称为标档文件)作为一种重要的确认机制被广泛应用。这一机制通过创建特定的“传输完成标识文件”,用于明确指示数据文件已成功完成全量传输,并达到可以进行下一步业务处理的状态,从而有效防止了基于不完整数据流的错误操作。
|
3月前
|
SQL 关系型数据库 MySQL
Apache Flink 和 Paimon 在自如数据集成场景中的使用
Apache Flink 和 Paimon 在自如数据集成场景中的使用
314 0
|
3月前
|
存储 对象存储 Python
Python中使用阿里云OSS存储实现文件上传和下载功能
Python中使用阿里云OSS存储实现文件上传和下载功能
452 2