针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]-阿里云开发者社区

针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]

2023-09-07 539

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

云数据库 PolarDB MySQL 版，列存表分析加速 8核16GB

PolarSearch，搜索节点 4核8GB

简介： OSS（Object Storage Service）是对象存储服务，适用于存放各种文件类型，Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中，Dataphin对于OSS的数据同步场景做了全面的功能升级，包括数据源、输入组件与数据组件，一起来了解一下吧～

一、OSS数据源支持填写目录

背景：在Dataphin中创建数据源的时候，需要通过测试连接，保证填写的数据源各项配置均正确，才可以成功创建数据源。这个设计是为了保证后续功能使用数据源的时候，不会因为数据源配置项填写错误，无法连接从而导致任务失败。V3.12之前，OSS数据源仅支持填写到Bucket级别。但是存在这样的场景，某些账号仅有一个Bucket下某个目录的权限，此时用这个账号密码去测试连接，校验是否有访问该Bucket的权限，就会失败，导致数据源无法创建。

功能：针对这个场景，在OSS数据源中新增了“目录”非必填配置项，在遇到上述场景的时候，可以将有权限的目录填入，此时测试连接就会只校验该账号是否有访问该Bucket下该目录的权限，可成功创建数据源。在OSS输入或输出组件中，如果选择了填写了目录的OSS数据源实例，也会在前缀中展示作为默认的目录，默认目录可编辑。

二、OSS输入组件支持读取Excel文件

背景：序言中说到，OSS适用于存储各类型的文件，Excel文件作为一种常见的文件类型，时常会被存储到OSS中，所以自然也有读取OSS中Excel文件数据的需求了。

功能：V3.12之前，OSS输入组件支持读取Text和CSV文件。本次升级中，新增支持读取xls和xlsx两种Excel文件类型。

支持选择读取的sheet：可按名称或按索引选择需读取的sheet。读取多张sheet以英文逗号分隔，也可输入* 读取所有sheet。
导出sheet名：如选择多张sheet时，可能有根据sheet名称来分类数据的场景，所以可选择导出sheet名称，加入一个输出字段标识来源sheet名称。
文件内容起始行、结束行：文件中可能存在第一行为字段名称，或者首尾存在无效数据的情况。可通过指定文件内容起始行与结束行，指定需要读取的数据。

三、OSS输出文件名命名规则优化

背景：原本的OSS输入文件名，会在填写的Object前缀后面加上随机后缀，保证文件不重名，但是这样的可读性较差。同时写入的文件个数也是默认为任务的并发数，这个默认设置无法满足，在数据量很大需要使用并发的场景下，且想写到一个文件中的需求。

功能：针对上述的两个问题，本期归纳了不同场景，给出适合且灵活的文件写入与命名方式。

支持选择写入文件个数：支持选择写入单个文件或多个文件。选择单个文件，将数据写入目标端oss的单个文件中；选择多个文件，将数据写入目标端oss的多个文件，且文件数量为任务并发数。（需注意，并发数需要配合输入组件的切分键使用，如输入端未配置切分键，并发设置不生效，仍为1。）
支持选择后缀格式：选择生成多个文件时，可选择生成_0, _1, _2等序列后缀，也可选择生成UUID随机数后缀。当选择前缀冲突策略为保留原文件追加时，仅能生成UUID随机数后缀，以保证生成不重复的文件名。

结语：文件类型的数据集成场景中，功能与操作都会比结构化数据集成复杂一些。这需要我们从数据源、读取到写入全流程进行需求洞察与功能优化，提高文件类型数据集成的易用性与可操作性。

针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]

一、OSS数据源支持填写目录

二、OSS输入组件支持读取Excel文件

三、OSS输出文件名命名规则优化

数据库

热门文章

最新文章

相关课程

相关电子书

相关实验场景