开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks支持路径配置成通配符吗?

DataWorks支持路径配置成通配符吗?

展开
收起
真的很搞笑 2023-12-24 13:18:20 33 0
3 条回答
写回答
取消 提交回答
  • DataWorks在某些情况下支持路径配置成通配符,但具体支持情况可能会因功能和数据源的不同而有所差异。

    对于数据集成任务中的源端文件路径,如果生成的文件名称不固定,可以考虑以下情况:

    1. OSS(对象存储服务)
      在DataWorks中使用OSS作为数据源时,通常支持使用通配符来匹配文件名。例如,你可以配置类似于/path/to/files/*.csv的路径,其中*代表任意字符,用于匹配所有CSV文件。

    2. LogService(日志服务)
      如果你正在从LogService中读取日志数据,由于日志文件通常是自动分割和命名的,因此可能需要使用LogService提供的API或者DataWorks中特定的日志读取功能来处理这种情况,而不是直接使用通配符。

    3. 其他数据源
      对于其他类型的数据源,如MySQL、Oracle等关系型数据库,或者MaxCompute、Hadoop等大数据平台,通常不会使用通配符来匹配文件名,因为这些系统中的数据是以表或分区的形式组织的,而不是以文件形式存在。

    2023-12-29 12:12:41
    赞同 展开评论 打赏
  • 不支持使用通配符,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-12-25 08:01:24
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks数据集成任务中,源端MySQL的表名配置是支持使用通配符的。在"数据预览"页面的"表名"部分,您可以输入包含通配符的表名来进行匹配。例如,如果您有一个名为"table 20220101"的表,您可以输入"table %2022%"来匹配所有以"table_2022"开头的表。然而,这种模糊匹配的方式可能会对数据同步的效率产生影响,特别是在数据库中的表数量较多的情况下。因为DataWorks需要在每次同步时都检查所有的表,以找到匹配的表,这可能会导致数据同步的速度变慢。此外,模糊匹配方式也可能存在误匹配的情况,例如,如果数据库中有两个名字非常相似的表,它们可能会被误匹配。对于文件类型,目前仅支持TEXT、ORC、RC、SEQ、CSV和parquet。

    2023-12-24 20:50:41
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多