问题一:大数据计算MaxCompute哪个效率会高一些呢?
大数据计算MaxCompute使用pyodps 和 odpssql对mc表数据进行清洗处理 哪个效率会高一些呢?
参考答案:
SQL的方式我理解更直接一些,PyODPS底层会转换成SQL对数据进行处理。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566610
问题二:大数据计算MaxCompute默认情况下会受哪些因素影响?
大数据计算MaxCompute默认情况下会受哪些因素影响?我看它跟数据条数、数据大小都没有直观的联系。
参考答案:
正常是跟数据量的大小有关系,
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566609
问题三:大数据计算MaxCompute里的mapper instance数量受哪些因素影响?
大数据计算MaxCompute里的mapper instance数量受哪些因素影响?
参考答案:
可以通过参数设置一下Map Worker的内存大小(odps.stage.mapper.mem) 或者 Map Worker的输入数据量(odps.stage.mapper.split.size),可以间接的控制每个Map阶段下Worker的数量
参考下这里:https://help.aliyun.com/zh/maxcompute/user-guide/flag-parameters#section-h58-j3q-057
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566608
问题四:问下大数据计算MaxCompute policy的文件大小是512kb 这个能调整的吗?
问下大数据计算MaxCompute policy的文件大小是512kb 这个能调整的吗?will overwrite the old policy content (yes/no)? FAILED: failed to check policy format: the policy size exceeds limit (512000 bytes) [ RequsetId: 654303086F409C5F01C42C24 ].
参考答案:
你的问题与代码和程序运行有关。
你在尝试上传或修改MaxCompute的policy文件时遇到了问题。根据你给出的错误信息,问题的原因是你的policy文件大小超过了512KB的限制。
如果你需要上传或修改的policy文件大小超过了这个限制,那么你需要对其进行压缩或者分割成多个文件。在大多数情况下,你可以使用.zip或者.rar格式进行压缩,以减少文件大小。
对于你的第二个问题,“will overwrite the old policy content (yes/no)?”,这取决于你选择的是“yes”还是“no”。如果你选择“yes”,那么新的policy将会覆盖旧的policy。
总结一下,要解决这个问题,你可以:
- 压缩你的policy文件,使其大小不超过512KB。
- 根据需要选择是否覆盖旧的policy。
关于本问题的更多回答可点击进行查看:
https://developer.aliyun.com/ask/566606
问题五:请问下大数据计算MaxCompute如下这个环境变量我要在哪里提前配置?调度资源上?
请问下大数据计算MaxCompute如下这个环境变量我要在哪里提前配置?调度资源上?
参考答案:
在MaxCompute中,可以通过以下方式设置环境变量:
- 在提交作业时,通过命令行参数设置环境变量。例如:
python my_job.py --env ALIBABA_CLOUD_ACCESS_KEY_ID=<accesskey id> --env ALIBABA_CLOUD_ACCESS_KEY_SECRET=<accesskey secret>
- 在Python脚本中,使用os模块设置环境变量。例如:
import os os.environ['ALIBABA_CLOUD_ACCESS_KEY_ID'] = '<accesskey id>' os.environ['ALIBABA_CLOUD_ACCESS_KEY_SECRET'] = '<accesskey secret>'
- 在调度资源上,可以在创建任务时设置环境变量。
关于本问题的更多回答可点击进行查看: