问题一:您好,请问一下大数据计算MaxCompute,bitmap位图函数,可以用在窗口函数里吗?
您好,请问一下大数据计算MaxCompute,bitmap位图函数,可以用在窗口函数里吗?
参考答案:
当前没有这个内建函数哈
关于本问题的更多回答可点击进行查看:
问题二:大数据计算MaxCompute odps script 调用UDF函数没问题,但是在pyodps中?
大数据计算MaxCompute odps script 调用UDF函数没问题,但是在pyodps中调用udf函数报错
ScriptError: ODPS-0123055: InstanceId: 20230809084802771gotqe4
ODPS-0123055:Script exception - Traceback (most recent call last):
File "/home/admin/calculate_oil_dilution_rate.py", line 56, in init
from odps_bak import ODPS
File "work/odps_bak.zip/odps_bak/init.py", line 24, in <module>
from .core import ODPS
File "work/odps_bak.zip/odps_bak/core.py", line 22, in <module>
from .rest import RestClient
File "work/odps_bak.zip/odps_bak/rest.py", line 24, in <module>
import requests
File "work/requests.zip/requests/init.py", line 45, in <module>
from .exceptions import RequestsDependencyWarning
File "work/requests.zip/requests/exceptions.py", line 9, in <module>
from .compat import JSONDecodeError as CompatJSONDecodeError
File "work/requests.zip/requests/compat.py", line 13, in <module>
import charset_normalizer as chardet
File "work/charset_normalizer.zip/charset_normalizer/init.py", line 24, in <module>
from .api import from_bytes, from_fp, from_path, normalize
File "work/charset_normalizer.zip/charset_normalizer/api.py", line 35
sequences: bytes,
^
SyntaxError: invalid syntax
我的udf函数前面加了# coding:utf-8 ,是不是就意味着这是udf python2?
参考答案:
用python3的版本的,python2官方都已经停止维护了吧。 https://help.aliyun.com/zh/maxcompute/user-guide/python-3-udfs?spm=a2c4g.11186623.0.0.67386adas0Sqph 可以再参考参考示例
关于本问题的更多回答可点击进行查看:
问题三:你好,大数据计算MaxCompute在运行pyodpsDataFrame的persist函数时报这?
问题1:你好,大数据计算MaxCompute在运行pyodpsDataFrame的persist函数时报这个警告,要怎么规避呢?FutureWarning: In a future version of pandas, a length 1 tuple will be returned when iterating over a groupby with a grouper equal to a list of length 1. Don't supply a list with a single grouper to avoid this warning.
for name, group in df.groupby(partitions):
问题2:不太懂怎么改,只有一个分区
参考答案:
回答1:就是一个版本的警告而已 下一个版本不能这样写,不影响你正常使用。提前规避那就是你要根据提示修改了,需要根据提示要求修改。而且是pandas的未来版本要求,可能这个回头得参考下pandas新版本后开源的方法。
回答2:目前只是个警告,可以看下pandas官网有没有对应处理方式呢。这个警告是由于在使用groupby函数时,传递的参数是一个长度为1的列表,而不是一个单独的值。为了避免这个警告,您可以将传递给groupby函数的参数改为单独的值,而不是包含一个元素的列表。例如,如果您原来使用了类似于df.groupby([column_name])这样的代码,请改为df.groupby(column_name)即可。这样就可以避免出现FutureWarning警告了。
关于本问题的更多回答可点击进行查看:
问题四:请问大数据计算MaxCompute里面有打乱某一列内部顺序的函数吗?
请问大数据计算MaxCompute里面有打乱某一列内部顺序的函数吗?
参考答案:
可以调整列的顺序。但不能打乱。
关于本问题的更多回答可点击进行查看:
问题五:大数据计算MaxCompute自定义函数没有问题,测过的,就是要用的数据量比较大,容易OOM,这怎么办?
大数据计算MaxCompute自定义函数没有问题,测过的,就是要用的数据量比较大,容易OOM,这怎么办?
参考答案:
可以调一下这个参数看看
odps.sql.joiner.instances:设定Join Task的Instance数量,默认为-1,在[0,2000]之间调整。场景:每个Join Instance处理的数据量比较大,耗时较长,没有发生长尾,可以考虑增大使用这个参数。
odps.sql.udf.jvm.memory:设定UDF JVM Heap使用的最大内存,单位M,默认1024M,在[256,12288]之间调整。场景:某些UDF在内存计算、排序的数据量比较大时,会报内存溢出错误,这时候可以调大该参数,不过这个方法只能暂时缓解,还是需要从业务上去优化。
关于本问题的更多回答可点击进行查看: