针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: OSS(Object Storage Service)是对象存储服务,适用于存放各种文件类型,Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中,Dataphin对于OSS的数据同步场景做了全面的功能升级,包括数据源、输入组件与数据组件,一起来了解一下吧~

一、OSS数据源支持填写目录

背景:在Dataphin中创建数据源的时候,需要通过测试连接,保证填写的数据源各项配置均正确,才可以成功创建数据源。这个设计是为了保证后续功能使用数据源的时候,不会因为数据源配置项填写错误,无法连接从而导致任务失败。V3.12之前,OSS数据源仅支持填写到Bucket级别。但是存在这样的场景,某些账号仅有一个Bucket下某个目录的权限,此时用这个账号密码去测试连接,校验是否有访问该Bucket的权限,就会失败,导致数据源无法创建。

功能:针对这个场景,在OSS数据源中新增了“目录”非必填配置项,在遇到上述场景的时候,可以将有权限的目录填入,此时测试连接就会只校验该账号是否有访问该Bucket下该目录的权限,可成功创建数据源。在OSS输入或输出组件中,如果选择了填写了目录的OSS数据源实例,也会在前缀中展示作为默认的目录,默认目录可编辑。

二、OSS输入组件支持读取Excel文件

背景:序言中说到,OSS适用于存储各类型的文件,Excel文件作为一种常见的文件类型,时常会被存储到OSS中,所以自然也有读取OSS中Excel文件数据的需求了。

功能:V3.12之前,OSS输入组件支持读取Text和CSV文件。本次升级中,新增支持读取xls和xlsx两种Excel文件类型。

  • 支持选择读取的sheet:可按名称或按索引选择需读取的sheet。读取多张sheet以英文逗号分隔,也可输入* 读取所有sheet。
  • 导出sheet名:如选择多张sheet时,可能有根据sheet名称来分类数据的场景,所以可选择导出sheet名称,加入一个输出字段标识来源sheet名称。
  • 文件内容起始行、结束行:文件中可能存在第一行为字段名称,或者首尾存在无效数据的情况。可通过指定文件内容起始行与结束行,指定需要读取的数据。

三、OSS输出文件名命名规则优化

背景:原本的OSS输入文件名,会在填写的Object前缀后面加上随机后缀,保证文件不重名,但是这样的可读性较差。同时写入的文件个数也是默认为任务的并发数,这个默认设置无法满足,在数据量很大需要使用并发的场景下,且想写到一个文件中的需求。

功能:针对上述的两个问题,本期归纳了不同场景,给出适合且灵活的文件写入与命名方式。

  • 支持选择写入文件个数:支持选择写入单个文件或多个文件。选择单个文件,将数据写入目标端oss的单个文件中;选择多个文件,将数据写入目标端oss的多个文件,且文件数量为任务并发数。(需注意,并发数需要配合输入组件的切分键使用,如输入端未配置切分键,并发设置不生效,仍为1。)
  • 支持选择后缀格式:选择生成多个文件时,可选择生成_0, _1, _2等序列后缀,也可选择生成UUID随机数后缀。当选择前缀冲突策略为保留原文件追加时,仅能生成UUID随机数后缀,以保证生成不重复的文件名。



结语:文件类型的数据集成场景中,功能与操作都会比结构化数据集成复杂一些。这需要我们从数据源、读取到写入全流程进行需求洞察与功能优化,提高文件类型数据集成的易用性与可操作性。

相关文章
|
1月前
|
存储 NoSQL 关系型数据库
PolarDB开源数据库进阶课17 集成数据湖功能
本文介绍了如何在PolarDB数据库中接入pg_duckdb、pg_mooncake插件以支持数据湖功能, 可以读写对象存储的远程数据, 支持csv, parquet等格式, 支持delta等框架, 并显著提升OLAP性能。
57 1
|
2月前
|
存储 前端开发 Java
Harry技术添加存储(minio、aliyun oss)、短信sms(aliyun、模拟)、邮件发送等功能
### SpringBoot3 + Vue3 前后端分离的Java快速开发框架更新 本次更新主要包含以下内容: 1. **端口修改**:为避免与Minio存储服务冲突,后端启动端口从9000改为9999。 2. **添加存储支持**:集成Minio和阿里云OSS对象存储服务,详细配置请参考相关文档。 3. **短信服务**:接入阿里云短信服务,并增加模拟发送功能,方便本地测试。 4. **邮件发送**:引入邮件发送功能,支持简单文本邮件和带附件邮件。 5. **完善个人中心**:优化个人中心页面,提升用户体验。
192 85
Harry技术添加存储(minio、aliyun oss)、短信sms(aliyun、模拟)、邮件发送等功能
|
8天前
|
关系型数据库 MySQL 数据库
|
21天前
|
SQL 弹性计算 DataWorks
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
|
8天前
|
SQL 分布式计算 关系型数据库
|
2月前
|
人工智能 数据处理 C#
AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能
微软推出的AI Dev Gallery,为Windows开发者提供开源AI工具包和示例库,支持本地运行AI模型,提升开发效率。
139 13
|
3月前
|
人工智能 自然语言处理 搜索推荐
Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能
Open Notebook 是一款开源的 AI 笔记工具,支持多格式笔记管理,并能自动将笔记转换为博客或播客,适用于学术研究、教育、企业知识管理等多个场景。
279 0
Open Notebook:开源 AI 笔记工具,支持多种文件格式,自动转播客和生成总结,集成搜索引擎等功能
|
4月前
|
缓存 资源调度 JavaScript
Vue集成Excalidraw实现在线画板功能
Excalidraw是一款开源在线绘图工具,适用于白板、思维导图、原型设计等场景。支持手绘风格、多种图形元素、导出功能及多人协作,深受开发者喜爱。本文档介绍了如何在Vue项目中集成Excalidraw,包括安装依赖、配置文件修改、页面添加等步骤,帮助开发者快速上手。
430 0
Vue集成Excalidraw实现在线画板功能
|
4月前
|
传感器 前端开发 Android开发
在 Flutter 开发中,插件开发与集成至关重要,它能扩展应用功能,满足复杂业务需求
在 Flutter 开发中,插件开发与集成至关重要,它能扩展应用功能,满足复杂业务需求。本文深入探讨了插件开发的基本概念、流程、集成方法、常见类型及开发实例,如相机插件的开发步骤,同时强调了版本兼容性、性能优化等注意事项,并展望了插件开发的未来趋势。
96 2