帮忙看下大数据计算MaxCompute，通过spark on mc去注册吗？

帮忙看下大数据计算MaxCompute，从华为云迁移到阿里云之后，对于spark，我们考虑使用spark on mc

我们还有自定义udf函数，原来我们会通过hive sql “CREATE FUNCTION”创建udf，在spark on mc跑，udf可以在不修改源码的情况，通过spark on mc去注册吗？
还是说只能基于maxcompute语法修改，通过maxcompute sdk提交到maxcompute上

展开

收起

真的很搞笑 2023-11-12 07:55:29 61 0

3 条回答

写回答

取消提交回答

芯在这

mc创建udf也是通过CREATE FUNCTION语法，可以参考如下文档：https://help.aliyun.com/zh/maxcompute/user-guide/function-operations?spm=a2c4g.11186623.0.i267#section-6r8-ozn-xjb，此回答整理自钉群“MaxCompute开发者社区2群”

2023-11-12 15:30:56

赞同展开评论打赏
sunrr

当您从华为云迁移到阿里云的MaxCompute服务后，对于Spark作业，确实可以考虑当您从华为云迁移到阿里云的MaxCompute服务后，对于Spark作业，确实可以考虑使用MaxCompute提供的Spark on MC功能。Spark on MC是MaxCompute提供的兼容开源的Spark计算服务，它为用户提供了熟悉的开发和使用方式来提交和运行Spark作业。

关于自定义UDF函数的问题，如果您之前是通过Hive SQL的“CREATE FUNCTION”创建的UDF，那么在Spark on MC上运行时，这些UDF函数是不需要修改源码的。您可以直接在Spark on MC上注册这些UDF函数。具体来说，您需要确保UDF函数所涉及的资源已经上传至MaxCompute，并且在Spark配置中添加相应的资源路径和参数。例如，使用MaxCompute客户端时，您可以执行命令来添加资源，并在Spark配置中增加如下两个参数：spark.hadoop.odps.cupid.resources和spark.pyspark.python。此外，对于资源名的大小写，MaxCompute是不敏感的，但在注册自定义函数时，类名仍然需要与原始资源名保持一致。

总之，您可以在不修改UDF源码的情况下，通过Spark on MC在MaxCompute上注册和使用这些自定义函数。

2023-11-12 09:22:21

赞同展开评论打赏
vohelon

Spark on MaxCompute是阿里云上的一个解决方案，它提供了在MaxCompute上运行Spark作业的方式。在这种情况下，您可以使用Spark来处理和分析MaxCompute中的数据。

关于您提到的自定义UDF（用户自定义函数）问题，一般情况下，Spark和MaxCompute都支持自定义函数，但是具体实现方式可能会有所不同。在Hive中创建的UDF可以使用Spark on MaxCompute来调用，但是需要确保UDF的代码符合Spark的语法和规则。

如果您想在不修改源代码的情况下，将自定义UDF从Hive迁移到Spark on MaxCompute，可能需要进行一些调整。在Hive中创建UDF时，需要使用Hive的语法和规则。而在Spark中创建UDF时，需要使用Spark的语法和规则。因此，您可能需要重新编写或调整UDF的代码，以使其符合Spark的语法和规则。

Spark https://help.aliyun.com/zh/maxcompute/user-guide/spark/?spm=a2c4g.11186623.0.i41

2023-11-12 08:43:02

赞同展开评论打赏