针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: OSS(Object Storage Service)是对象存储服务,适用于存放各种文件类型,Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中,Dataphin对于OSS的数据同步场景做了全面的功能升级,包括数据源、输入组件与数据组件,一起来了解一下吧~

一、OSS数据源支持填写目录

背景:在Dataphin中创建数据源的时候,需要通过测试连接,保证填写的数据源各项配置均正确,才可以成功创建数据源。这个设计是为了保证后续功能使用数据源的时候,不会因为数据源配置项填写错误,无法连接从而导致任务失败。V3.12之前,OSS数据源仅支持填写到Bucket级别。但是存在这样的场景,某些账号仅有一个Bucket下某个目录的权限,此时用这个账号密码去测试连接,校验是否有访问该Bucket的权限,就会失败,导致数据源无法创建。

功能:针对这个场景,在OSS数据源中新增了“目录”非必填配置项,在遇到上述场景的时候,可以将有权限的目录填入,此时测试连接就会只校验该账号是否有访问该Bucket下该目录的权限,可成功创建数据源。在OSS输入或输出组件中,如果选择了填写了目录的OSS数据源实例,也会在前缀中展示作为默认的目录,默认目录可编辑。

二、OSS输入组件支持读取Excel文件

背景:序言中说到,OSS适用于存储各类型的文件,Excel文件作为一种常见的文件类型,时常会被存储到OSS中,所以自然也有读取OSS中Excel文件数据的需求了。

功能:V3.12之前,OSS输入组件支持读取Text和CSV文件。本次升级中,新增支持读取xls和xlsx两种Excel文件类型。

  • 支持选择读取的sheet:可按名称或按索引选择需读取的sheet。读取多张sheet以英文逗号分隔,也可输入* 读取所有sheet。
  • 导出sheet名:如选择多张sheet时,可能有根据sheet名称来分类数据的场景,所以可选择导出sheet名称,加入一个输出字段标识来源sheet名称。
  • 文件内容起始行、结束行:文件中可能存在第一行为字段名称,或者首尾存在无效数据的情况。可通过指定文件内容起始行与结束行,指定需要读取的数据。

三、OSS输出文件名命名规则优化

背景:原本的OSS输入文件名,会在填写的Object前缀后面加上随机后缀,保证文件不重名,但是这样的可读性较差。同时写入的文件个数也是默认为任务的并发数,这个默认设置无法满足,在数据量很大需要使用并发的场景下,且想写到一个文件中的需求。

功能:针对上述的两个问题,本期归纳了不同场景,给出适合且灵活的文件写入与命名方式。

  • 支持选择写入文件个数:支持选择写入单个文件或多个文件。选择单个文件,将数据写入目标端oss的单个文件中;选择多个文件,将数据写入目标端oss的多个文件,且文件数量为任务并发数。(需注意,并发数需要配合输入组件的切分键使用,如输入端未配置切分键,并发设置不生效,仍为1。)
  • 支持选择后缀格式:选择生成多个文件时,可选择生成_0, _1, _2等序列后缀,也可选择生成UUID随机数后缀。当选择前缀冲突策略为保留原文件追加时,仅能生成UUID随机数后缀,以保证生成不重复的文件名。



结语:文件类型的数据集成场景中,功能与操作都会比结构化数据集成复杂一些。这需要我们从数据源、读取到写入全流程进行需求洞察与功能优化,提高文件类型数据集成的易用性与可操作性。

相关文章
|
6天前
|
缓存 关系型数据库 数据库
【Docker 专栏】Docker 与容器化数据库的集成与优化
【5月更文挑战第9天】本文探讨了Docker与容器化数据库集成的优势,如快速部署、环境一致性、资源隔离和可扩展性,并列举了常见容器化数据库(如MySQL、PostgreSQL和MongoDB)。讨论了集成方法、注意事项、优化策略,包括资源调整、缓存优化和监控告警。此外,强调了数据备份、恢复测试及性能评估的重要性。未来,随着技术发展,二者的集成将更紧密,为数据管理带来更多可能性。掌握此技术将应对数字化时代的机遇与挑战。
【Docker 专栏】Docker 与容器化数据库的集成与优化
|
6天前
|
敏捷开发 数据管理 测试技术
探索自动化测试在持续集成环境中的优化策略
【5月更文挑战第6天】 本文旨在深入剖析自动化测试在持续集成(CI)环境中所面临的挑战,并提出一系列创新的优化策略。通过对现代软件开发过程中自动化测试角色的分析,我们揭示了在快速迭代和部署的背景下,如何通过改进测试框架、选择合适的测试工具、以及实施数据驱动测试等手段来提高测试效率和准确性。文章不仅聚焦于技术层面的解决方案,还探讨了团队协作和流程管理对提升自动化测试效能的重要性。
|
6天前
|
传感器 数据采集 数据处理
MATLAB热传导方程模型最小二乘法模型、线性规划对集成电路板炉温优化
MATLAB热传导方程模型最小二乘法模型、线性规划对集成电路板炉温优化
|
6天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 0
|
6天前
|
敏捷开发 测试技术 持续交付
深入探究持续集成在软件测试中的应用与优化
【4月更文挑战第28天】随着敏捷开发模式的普及,持续集成(Continuous Integration, CI)已成为软件开发工作流中不可或缺的一环。本文将深入探讨CI在软件测试领域的关键作用,分析其如何提升测试效率和质量,并指出实践中常见的挑战及解决策略。通过对自动化测试流程、测试驱动开发(TDD)以及持续部署(CD)等关键技术的综合运用,揭示了构建高效、可靠软件系统的方法论。
|
6天前
|
敏捷开发 Devops 测试技术
深入探究持续集成在软件测试中的应用与优化
【4月更文挑战第28天】随着敏捷开发和DevOps文化的兴起,持续集成(CI)已经成为现代软件开发不可或缺的一环。本文将探讨持续集成在软件测试领域的关键作用,分析其如何提高测试效率、确保产品质量,并指出实施过程中可能遇到的挑战及相应的解决策略。通过案例研究和最佳实践的分享,旨在为读者提供一套系统的持续集成优化方案,以支持更高效、更可靠的软件发布流程。
|
6天前
|
机器学习/深度学习 存储 算法
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:移动应用中的人工智能集成与用户体验优化
【4月更文挑战第3天】 随着人工智能技术的不断进步,移动应用领域正在经历一场革命。本文将深入探讨移动应用中人工智能集成的最新趋势,以及如何通过这些技术提升用户体验。我们将分析自然语言处理、机器学习和计算机视觉等AI技术在移动应用中的具体应用场景,并讨论它们对用户互动、个性化服务和智能推荐系统的影响。此外,文章还将提出一系列策略,帮助开发者在保持用户隐私和数据安全的前提下,有效地集成人工智能功能。
|
6天前
|
监控 Cloud Native 测试技术
持续集成与持续交付(CI/CD)在云原生环境中的应用与优化
传统软件开发模式下的集成和交付流程往往繁琐且易出错,而随着云原生技术的快速发展,持续集成与持续交付(CI/CD)在云原生环境中的应用变得尤为重要。本文将探讨CI/CD在云原生环境中的应用及优化策略,包括自动化测试、容器化部署以及监控和反馈机制等方面,旨在帮助开发团队更好地应对云原生时代的挑战。
30 2
|
6天前
|
敏捷开发 分布式计算 监控
深入探究持续集成在软件测试中的应用与优化
随着敏捷开发和DevOps实践的普及,持续集成(CI)已成为软件开发周期中不可或缺的一环。本文将探讨持续集成在软件测试领域的核心作用,分析其优势及面临的挑战,并提出创新性的优化策略。通过对自动化测试流程的深度整合、实时反馈机制以及高效配置管理等关键要素的细致剖析,旨在为读者提供一套系统化的持续集成改进方法,以提升软件测试效率和质量。