文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

在MaxCompute用studio写的一个python udf，这个函数具备分布式处理能力吗？

在MaxCompute用 function studio 写的一个python udf，用sql去查询这个函数具备分布式处理能力吗？我这边写了一个求两个文本相似度的函数，大概有4000个标题，互相之间求相似度。跑了10分钟没跑出来。http://logview.odps.aliyun.com/logview/?h=http://service.cn.maxcompute.aliyun-inc.com/api&p=wd_prod&i=20230613015544318gyr0qw9jpqt5&token=Z3NBdTRSQlY0L1pWZVpKUUpHMjUzcFdoTVhzPSxPRFBTX09CTzoyOTc3MjAxOSwxNjg5MjEzMzQ0LHsiU3RhdGVtZW50IjpbeyJBY3Rpb24iOlsib2RwczpSZWFkIl0sIkVmZmVjdCI6IkFsbG93IiwiUmVzb3VyY2UiOlsiYWNzOm9kcHM6Kjpwcm9qZWN0cy93ZF9wcm9kL2luc3RhbmNlcy8yMDIzMDYxMzAxNTU0NDMxOGd5cjBxdzlqcHF0NSJdfV0sIlZlcnNpb24iOiIxIn0=

展开

收起

三分钟热度的鱼 2023-06-20 08:57:20 181 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

圆不溜秋的小猫猫

看任务是在正常跑着的，只不过并发都是1，可以通过参数来调整一下每个map阶段和reduce阶段中worker的数量 1. odps.stage.mapper.split.size：修改每个Map Worker的输入数据量，即输入文件的分片大小，从而间接控制每个Map阶段下Worker的数量。 2. odps.stage.reducer.num：修改每个Reduce阶段的Worker数量。详情参考一下这个文档：https://help.aliyun.com/document_detail/469143.htm?spm=a2c4g.96004.0.0.4b939364n7qZ0L#concept-2278178 此回答整理自钉群“MaxCompute开发者社区2群”

2023-06-20 09:26:35

赞同展开评论

问答分类：

SQL 分布式计算 MaxCompute Python 云原生大数据计算服务 MaxCompute

问答标签：

Python函数云原生大数据计算服务 MaxCompute python 云原生大数据计算服务 MaxCompute分布式 Python分布式 maxcompute分布式

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

如何使用Python获取MaxCompute项目中的所有表名？

184

0

0

大数据计算MaxCompute有使用python在dataworks里面访问holo的例子吗？

274

1

0

如何使用Python调用MaxCompute上的数据?

596

7

0

大数据计算MaxCompute的python怎么导入第三方包？

302

2

0

在大数据计算MaxCompute通过Python udf访问外网能成功吗？

210

1

0

如果我想本地python服务连接阿里云maxcompute服务，可以吗？

298

1

0

如何在Python中获取MaxCompute表的字段名称？

178

0

0

使用MaxCompute Python SDK（PyODPS）时to_pandas 就不是集群模式?

306

1

0

大数据计算MaxCompute写了 python脚本后在pyodps3里面运行，报错怎么解决？

232

1

0

大数据计算MaxCompute在dataworks使用python调用公网api，但网络不通为什么？

239

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

构建高可用大模型应用架构：大模型服务进程保活 + 全自动故障自愈实践.163

SQL Server迁移必看！深度解析SQLServer兼容性三大核心维度与选型指南

为什么我说PostgreSQL是Agent Database的最佳选择

海洋边缘交换二期（OMEX II）项目

4D Gaussian Splatting 是怎么工作的：从规范 Gaussian 到形变场的原理拆解

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

大数据计算MaxCompute作业运维排序报错，如何解决？

咨询一下，我配置了MySQL实时同步到MaxCompute的任务，但MySQL数据更新后，MaxCo

在大数据计算MaxCompute中，这种多久能查询到？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

优酷背后的大数据秘密

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

【转载】时隔一年多，我又用起了 Superset

展开全部

还有其他疑问?