文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

我想要完成一个功能问下使用dataworks或者maxcompute如何完成呀?

我想要完成一个功能大数据计算MaxCompute 读取maxcompute中的某些数据并且要求50个并发去处理这些数据处理逻辑是请求第三方接口gpt 然后返回结果写回maxcompute中其中要求50个并发是必须的问下使用dataworks或者maxcompute如何完成呀?

展开

收起

真的很搞笑 2023-11-30 11:43:24 213 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

芯在这

改这个odps.stage.mapper.split.size，另外是根据数据量来分片的，此回答整理自钉群“MaxCompute开发者社区2群”

2023-11-30 21:10:02

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
要实现在大数据计算MaxCompute中读取数据并进行50个并发处理，可以使用DataWorks或者MaxCompute来完成。下面是一种可能的解决方案：
1. 创建MaxCompute表：首先，在MaxCompute中创建一个表，用于存储读取的数据以及处理后的结果。
2. 编写数据处理程序：使用MaxCompute支持的编程语言（如SQL、Python或Java），编写数据处理程序。该程序负责从MaxCompute表中读取数据，并通过50个并发线程发送请求到第三方接口进行处理。
3. 设置并发度参数：在MaxCompute作业中设置并发度参数，控制同时执行的任务数。您提到了odps.stage.num参数，可以尝试将其设置为50以满足您的需求。但请注意，并发度的最佳设置取决于多个因素，包括数据量、任务复杂性和资源限制等。您可能需要根据具体情况进行调优和测试。
4. 返回结果写回MaxCompute：当第三方接口返回处理结果时，将结果写回MaxCompute表中，以便进一步分析和使用。
5. 调度作业：使用DataWorks等工作流调度工具，配置作业的调度策略和触发条件，以便按照需求自动执行数据处理任务。
2023-11-30 14:00:24

赞同展开评论

问答分类：

分布式计算 MaxCompute DataWorks 数据处理大数据云原生大数据计算服务 MaxCompute 大数据开发治理平台 DataWorks

问答标签：

云原生大数据计算服务 MaxCompute dataworks 大数据开发治理平台 DataWorks maxcompute 功能大数据开发治理平台 DataWorks

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大数据计算MaxCompute表结构变更功能还是得走申请吗？

227

1

0

DataWorks尝试使用dw的迁移功能，老师能帮忙看下这是正常的么？

274

5

0

如何使用PolarDB-X的全局CDC功能将数据同步到下游的大数据系统？

256

1

0

我们升级dataworks版本并按照文档操作后，发现硅谷节点不支持数据脱敏功能怎么办？

211

1

0

dataworks自定义功能开发接口需要收费吗？

172

0

0

DataWorks用逆向建模功能时，会直接报错，这个有什么办法解决吗？

196

1

0

MaxCompute Tunnel路由功能是什么

175

1

0

ODPS逻辑层包含哪些角色，它们各自的功能是什么？

260

1

0

dataworks集成线下CDP/CDH集群,是否支持数据治理中心和安全中心的功能?

175

1

0

DataWorks补数据功能更新后，好像不能做到补偿一个节点的下游所有，这个功能没法实现了?

198

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

互联网医院软件开发技术指南：AI问诊APP、小程序与后台系统

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

传统数仓、实时数仓、云数仓有什么区别？大厂架构师终于讲明白了

Agent Graph Engineering：从线性 Workflow 到可扩展 Agent 系统

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

MaxCompute这个yaml资源在生产环境中无法找到,什么原因？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

大数据计算MaxCompute failed：odps-0110999怎么办？

删除，和变动的数据，hive分区要怎么处理呢？

在大数据计算MaxCompute怎么将字符串日期快速转成timestamp类型？

关于优化AI交互策略的改进建议——基于用户分层实现工具价值与体验平衡

大数据计算MaxCompute有没有SQL可以列出项目下已有的外表呢？

展开全部

odps是什么?

吴刚专访--大数据和 MaxCompute 技术和故事

Python+大数据计算平台，PyODPS架构手把手教你搭建

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

【逐云】阿里“水电煤”背后的人物故事

分布式存储系统

阿里云大数据计算平台的自动化、精细化运维之路

【最全合集】一文看尽 2019杭州云栖大会 MaxCompute 技术分享

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

MaxCompute常用语句汇总(更新ing)

展开全部

还有其他疑问?