开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DataWorks可不可以将oss文件名解析成一个字段存在表的一个字段里面的?

DataWorks中OSS离线同步至MaxCompute. 配置oss路径的时候, 可不可以将oss文件名解析成一个字段存在表的一个字段里面的, 用那个脚本模式配置的话, 可行的吗?

展开
收起
真的很搞笑 2023-12-17 16:09:09 77 0
3 条回答
写回答
取消 提交回答
  • 不支持的哈 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-12-18 07:44:40
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks中,您可以使用OSS离线同步至MaxCompute的功能。如果需要将OSS文件名解析为一个字段并存储在表的一个字段中,您可以选择使用脚本模式进行任务配置。

    在脚本模式下,您需要按照脚本的统一格式编写Reader参数和Writer参数。对于Reader参数,可以定义数据源、nullFormat等关键信息。对于Writer参数,则可以参考如下示例:假设MaxCompute表有三个字段a、b和c,您只希望同步c和b两个字段,可以将列配置为 "column": ["c","b"],表示会把Reader的第一列和第二列导入MaxCompute的c字段和b字段,而MaxCompute表中新插入的a字段会被置为null。

    2023-12-17 18:26:02
    赞同 展开评论 打赏
  • 在阿里云的DataWorks中,当你从OSS(Object Storage Service)离线同步数据到MaxCompute时,通常你定义的是数据的存储路径、格式以及其他相关参数。对于将数据文件名作为一个字段存入MaxCompute表的需求,DataWorks本身并不直接支持这一功能。

    但是,你可以通过编写自定义的脚本或使用DataWorks的数据处理框架来实现这一需求。下面是一个基本的步骤指南,描述如何使用脚本模式来实现:

    • 编写脚本:你可以使用Python、SQL或其他DataWorks支持的脚本语言来编写一个脚本,该脚本将从OSS读取文件名,并将其作为一个字段的值进行处理。
    • 使用DataWorks的自定义节点:在DataWorks中,你可以创建一个自定义的数据处理节点,并在其中运行你的脚本。这个节点可以负责从OSS读取数据,解析文件名,并将其作为一个字段添加到数据记录中。
    • 数据写入MaxCompute:脚本处理完数据后,你可以将其写入MaxCompute表,其中包含了从OSS文件名解析出的字段。
    2023-12-17 16:59:20
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

相关镜像