开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute边儿如何从 OSS 对象存储获取到上传的文件并进行相应的处理任务?

大数据计算MaxCompute目前有一个场景,大致流程如下:

  1. 用户通过前端界面上传 PDF/DOC 等文件,文件会上传到 OSS 对象存储
  2. 将用户上传的文件信息及上传记录保存到 MaxCompute 表中,会涉及到两张表(MaxCompute中的表)
    表1: file_upload,记录文件信息,包括文件id、文件名、文件类型、文件在OSS中的地址链接等
    表2: upload_record,记录文件上传记录,包括文件上传记录id、上传者、上传时间、上传文件id(上传文件id与表1中的文件id关联)
  3. MaxCompute + DataWorks 会将文件进行处理(处理包括:格式转换、数据校正与清洗),将转换后的文件保存至 OSS 对象存储,并将结果再记录到MaxCompute表(表3,记录相应的结果,但是目前还没有明确具体字段)中

我目前的疑问有:

  1. 上传文件到 OSS 之后,MaxCompute+Dataworks 这边儿如何从 OSS 对象存储获取到上传的文件并进行相应的处理任务
  2. 如何在收到用户上传文件之后去更新 MaxCompute 中的表,即 1) 收到用户上传文件之后在 file_upload 表中记录文件信息;2) 在 upload_record 中记录上传记录
  3. MaxCompute+Dataworks 处理完之后如何去更新表3

我目前对 MaxCompute 和 DataWorks 了解不是很多,还在看文档
我目前根据文档大概熟悉了如何在 MaxCompute 中建表,使用Python SDK去写简单的Python代码查表中的数据,但是还不清楚如何把把我这整个需求串起来。

能否提供支持指导一下?用户新上传文件之后,maxcompute+dataworks这边儿可以发现有新文件然后去处理。

展开
收起
cuicuicuic 2024-05-06 18:19:33 30 0
1 条回答
写回答
取消 提交回答
  • 1)用户上传文件的这个操作,我理解得需要你用工具来监听,或者oss这边能投送,mc这边没办法直接获取到oss的元数据变化;

    2)mc的表记录这些数据都没问题,得看你怎么拿到oss元数据、然后传给MaxCompute,MaxCompute再做处理。 ,此回答整理自钉群“MaxCompute开发者社区2群”

    2024-05-06 20:13:56
    赞同 3 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
OSS运维进阶实战手册 立即下载
《OSS运维基础实战手册》 立即下载
OSS运维基础实战手册 立即下载