开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

我想要完成一个功能 问下使用dataworks或者maxcompute如何完成呀?

我想要完成一个功能 大数据计算MaxCompute 读取maxcompute中的某些数据 并且要求50个并发去处理这些数据 处理逻辑是请求第三方接口gpt 然后返回结果 写回maxcompute中 其中要求50个并发是必须的 问下使用dataworks或者maxcompute如何完成呀?

展开
收起
真的很搞笑 2023-11-30 11:43:24 55 0
2 条回答
写回答
取消 提交回答
  • 改这个odps.stage.mapper.split.size,另外是根据数据量来分片的 ,此回答整理自钉群“MaxCompute开发者社区2群”

    2023-11-30 21:10:02
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    要实现在大数据计算MaxCompute中读取数据并进行50个并发处理,可以使用DataWorks或者MaxCompute来完成。下面是一种可能的解决方案:

    1. 创建MaxCompute表:首先,在MaxCompute中创建一个表,用于存储读取的数据以及处理后的结果。

    2. 编写数据处理程序:使用MaxCompute支持的编程语言(如SQL、Python或Java),编写数据处理程序。该程序负责从MaxCompute表中读取数据,并通过50个并发线程发送请求到第三方接口进行处理。

    3. 设置并发度参数:在MaxCompute作业中设置并发度参数,控制同时执行的任务数。您提到了odps.stage.num参数,可以尝试将其设置为50以满足您的需求。但请注意,并发度的最佳设置取决于多个因素,包括数据量、任务复杂性和资源限制等。您可能需要根据具体情况进行调优和测试。

    4. 返回结果写回MaxCompute:当第三方接口返回处理结果时,将结果写回MaxCompute表中,以便进一步分析和使用。

    5. 调度作业:使用DataWorks等工作流调度工具,配置作业的调度策略和触发条件,以便按照需求自动执行数据处理任务。

    2023-11-30 14:00:24
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载