maxcompute函数问题之数据量较大经常OOM如何解决

简介: MaxCompute函数包括内置函数和自定义函数(UDF),它们用于在MaxCompute平台上执行数据处理和分析任务;本合集将介绍MaxCompute函数的使用方法、函数编写和优化技巧,以及常见的函数错误和解决途径。

问题一:您好,请问一下大数据计算MaxCompute,bitmap位图函数,可以用在窗口函数里吗?

您好,请问一下大数据计算MaxCompute,bitmap位图函数,可以用在窗口函数里吗?



参考答案:

当前没有这个内建函数哈



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/544837?spm=a2c6h.13066369.question.36.78292568Aorxb9&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@544837._.ID_544837-RL_maxcompute%E5%87%BD%E6%95%B0-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_37



问题二:大数据计算MaxCompute odps script 调用UDF函数没问题,但是在pyodps中?

大数据计算MaxCompute odps script 调用UDF函数没问题,但是在pyodps中调用udf函数报错

ScriptError: ODPS-0123055: InstanceId: 20230809084802771gotqe4

ODPS-0123055:Script exception - Traceback (most recent call last):

File "/home/admin/calculate_oil_dilution_rate.py", line 56, in init

from odps_bak import ODPS

File "work/odps_bak.zip/odps_bak/init.py", line 24, in <module>

from .core import ODPS

File "work/odps_bak.zip/odps_bak/core.py", line 22, in <module>

from .rest import RestClient

File "work/odps_bak.zip/odps_bak/rest.py", line 24, in <module>

import requests

File "work/requests.zip/requests/init.py", line 45, in <module>

from .exceptions import RequestsDependencyWarning

File "work/requests.zip/requests/exceptions.py", line 9, in <module>

from .compat import JSONDecodeError as CompatJSONDecodeError

File "work/requests.zip/requests/compat.py", line 13, in <module>

import charset_normalizer as chardet

File "work/charset_normalizer.zip/charset_normalizer/init.py", line 24, in <module>

from .api import from_bytes, from_fp, from_path, normalize

File "work/charset_normalizer.zip/charset_normalizer/api.py", line 35

sequences: bytes,

^

SyntaxError: invalid syntax

我的udf函数前面加了# coding:utf-8 ,是不是就意味着这是udf python2?



参考答案:

用python3的版本的,python2官方都已经停止维护了吧。 https://help.aliyun.com/zh/maxcompute/user-guide/python-3-udfs?spm=a2c4g.11186623.0.0.67386adas0Sqph  可以再参考参考示例

https://help.aliyun.com/zh/maxcompute/user-guide/python-3-udfs?spm=a2c4g.11186623.0.0.67386adas0Sqph#b90a973019kwa



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/542206?spm=a2c6h.13066369.question.39.78292568UZc50c&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@542206._.ID_542206-RL_maxcompute%E5%87%BD%E6%95%B0-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_38



问题三:你好,大数据计算MaxCompute在运行pyodpsDataFrame的persist函数时报这?

问题1:你好,大数据计算MaxCompute在运行pyodpsDataFrame的persist函数时报这个警告,要怎么规避呢?FutureWarning: In a future version of pandas, a length 1 tuple will be returned when iterating over a groupby with a grouper equal to a list of length 1. Don't supply a list with a single grouper to avoid this warning.

for name, group in df.groupby(partitions):

问题2:不太懂怎么改,只有一个分区



参考答案:

回答1:就是一个版本的警告而已 下一个版本不能这样写,不影响你正常使用。提前规避那就是你要根据提示修改了,需要根据提示要求修改。而且是pandas的未来版本要求,可能这个回头得参考下pandas新版本后开源的方法。

回答2:目前只是个警告,可以看下pandas官网有没有对应处理方式呢。这个警告是由于在使用groupby函数时,传递的参数是一个长度为1的列表,而不是一个单独的值。为了避免这个警告,您可以将传递给groupby函数的参数改为单独的值,而不是包含一个元素的列表。例如,如果您原来使用了类似于df.groupby([column_name])这样的代码,请改为df.groupby(column_name)即可。这样就可以避免出现FutureWarning警告了。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/542204?spm=a2c6h.13066369.question.38.78292568Y4G5g3&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@542204._.ID_542204-RL_maxcompute%E5%87%BD%E6%95%B0-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_39



问题四:请问大数据计算MaxCompute里面有打乱某一列内部顺序的函数吗?

请问大数据计算MaxCompute里面有打乱某一列内部顺序的函数吗?



参考答案:

可以调整列的顺序。但不能打乱。

https://help.aliyun.com/zh/maxcompute/user-guide/partition-and-column-operations-1?spm=a2c4g.11186623.0.0.4dc442abu9xTDL#section-86u-o11-e1h



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/541031?spm=a2c6h.13066369.question.41.78292568LPdgfI&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@541031._.ID_541031-RL_maxcompute%E5%87%BD%E6%95%B0-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_40



问题五:大数据计算MaxCompute自定义函数没有问题,测过的,就是要用的数据量比较大,容易OOM,这怎么办?

大数据计算MaxCompute自定义函数没有问题,测过的,就是要用的数据量比较大,容易OOM,这怎么办?



参考答案:

可以调一下这个参数看看

odps.sql.joiner.instances:设定Join Task的Instance数量,默认为-1,在[0,2000]之间调整。场景:每个Join Instance处理的数据量比较大,耗时较长,没有发生长尾,可以考虑增大使用这个参数。

odps.sql.udf.jvm.memory:设定UDF JVM Heap使用的最大内存,单位M,默认1024M,在[256,12288]之间调整。场景:某些UDF在内存计算、排序的数据量比较大时,会报内存溢出错误,这时候可以调大该参数,不过这个方法只能暂时缓解,还是需要从业务上去优化。



关于本问题的更多回答可点击进行查看:

https://developer.aliyun.com/ask/535633?spm=a2c6h.13066369.question.40.78292568jy8N3z&scm=20140722.S_community@@%E9%97%AE%E7%AD%94@@535633._.ID_535633-RL_maxcompute%E5%87%BD%E6%95%B0-LOC_search~UND~community~UND~item-OR_ser-V_3-P0_42

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
分布式计算 DataWorks 大数据
maxcompute函数问题之udaf函数传到线上报错如何解决
MaxCompute函数包括内置函数和自定义函数(UDF),它们用于在MaxCompute平台上执行数据处理和分析任务;本合集将介绍MaxCompute函数的使用方法、函数编写和优化技巧,以及常见的函数错误和解决途径。
|
2月前
|
SQL 分布式计算 DataWorks
maxcompute函数问题之注册函数后运行结果错误如何解决
MaxCompute函数包括内置函数和自定义函数(UDF),它们用于在MaxCompute平台上执行数据处理和分析任务;本合集将介绍MaxCompute函数的使用方法、函数编写和优化技巧,以及常见的函数错误和解决途径。
|
2月前
|
SQL 分布式计算 DataWorks
maxcompute函数问题之没有内建函数如何解决
MaxCompute函数包括内置函数和自定义函数(UDF),它们用于在MaxCompute平台上执行数据处理和分析任务;本合集将介绍MaxCompute函数的使用方法、函数编写和优化技巧,以及常见的函数错误和解决途径。
|
2月前
|
JSON 分布式计算 DataWorks
maxcompute函数问题之注册MaxCompute函数失败如何解决
MaxCompute函数包括内置函数和自定义函数(UDF),它们用于在MaxCompute平台上执行数据处理和分析任务;本合集将介绍MaxCompute函数的使用方法、函数编写和优化技巧,以及常见的函数错误和解决途径。
|
2月前
|
SQL 分布式计算 大数据
maxcompute函数问题之无法使用sequence函数如何解决
MaxCompute函数包括内置函数和自定义函数(UDF),它们用于在MaxCompute平台上执行数据处理和分析任务;本合集将介绍MaxCompute函数的使用方法、函数编写和优化技巧,以及常见的函数错误和解决途径。
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
46 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
37 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1
|
2月前
|
分布式计算 关系型数据库 数据库连接
MaxCompute数据问题之数据迁移如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
31 0