问题一:对于大数据计算服务 MaxCompute,是否有可能进行非典型操作,比如将得到的大量结果数据实时逆向
对于大数据计算服务 MaxCompute,是否有可能进行非典型操作,比如将得到的大量结果数据实时逆向
参考回答:
不支持
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/606738
问题二:大数据计算MaxCompute计算集群部分机器当时水位比较高,导致作业运行时间延长?
大数据计算MaxCompute计算集群部分机器当时水位比较高,导致作业运行时间延长?
参考回答:
当大数据计算MaxCompute的部分计算集群机器出现水位(watermark)较高时,这通常意味着这些机器正在处理大量的数据或任务,导致其资源(如CPU、内存、磁盘I/O等)处于较饱和状态。这种情况下,作业的运行时间可能会受到影响
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/606737
问题三:大数据计算MaxCompute的费用比较高了,阿里云有没有方式根据历史使用情况,直接给推荐个方案。
大数据计算MaxCompute的费用比较高了,阿里云有没有方式根据历史使用情况,直接给推荐个方案。
参考回答:
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/606736
问题四:大数据计算MaxCompute数据分区是pt,country,app_type可以设置jvm的内存?
大数据计算MaxCompute数据分区是pt,country,app_type可以设置jvm的内存?
参考回答:
在阿里云大数据计算服务MaxCompute(原名ODPS)中,数据分区是指对表进行逻辑上的划分,如您提到的pt,country,app_type,这些是分区键,用于根据不同的时间点、国家和应用类型对数据进行组织。但是,MaxCompute本身是一个分布式计算系统,其内存管理是在集群层面实现的,并不由用户直接设置单个JVM的内存大小。
MaxCompute会根据作业规模自动分配所需的计算资源,包括CPU、内存以及磁盘空间等。用户提交SQL作业时,可以通过控制台或API指定任务的并发度(即Task Slot数量),进而间接影响到分配给任务的总资源量。
如果您的问题是关于执行MapReduce或者Spark类型的自定义UDF(User Defined Function)程序时如何设置JVM内存,那么对于MaxCompute中的Java SDK或者其他支持的计算框架,在编写这类代码时确实可以设置运行环境的JVM参数,但这通常是在开发定制化组件或函数时通过对应的计算引擎配置来完成,而不是针对整个MaxCompute数据分区操作。例如,如果你使用了E-MapReduce进行计算,则可以在启动应用程序时设置相关JVM参数。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/606735
问题五:大数据计算MaxCompute 实际只能产生100个reducer?
大数据计算MaxCompute 实际只能产生100个reducer?
参考回答:
odps.stage.reducer.num 加大试试。 先按照玉阳的500加,不行就再加 。你的数据倾斜看起来也比较严重,SET odps.sql.groupby.skewindata=true;
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/606734