开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

帮忙看下大数据计算MaxCompute,通过spark on mc去注册吗?

帮忙看下大数据计算MaxCompute,从华为云迁移到阿里云之后,对于spark,我们考虑使用spark on mc

我们还有自定义udf函数,原来我们会通过hive sql “CREATE FUNCTION”创建udf,在spark on mc跑,udf可以在不修改源码的情况,通过spark on mc去注册吗?
还是说只能基于maxcompute语法修改,通过maxcompute sdk提交到maxcompute上

展开
收起
真的很搞笑 2023-11-12 07:55:29 52 0
3 条回答
写回答
取消 提交回答
  • 当您从华为云迁移到阿里云的MaxCompute服务后,对于Spark作业,确实可以考虑当您从华为云迁移到阿里云的MaxCompute服务后,对于Spark作业,确实可以考虑使用MaxCompute提供的Spark on MC功能。Spark on MC是MaxCompute提供的兼容开源的Spark计算服务,它为用户提供了熟悉的开发和使用方式来提交和运行Spark作业。

    关于自定义UDF函数的问题,如果您之前是通过Hive SQL的“CREATE FUNCTION”创建的UDF,那么在Spark on MC上运行时,这些UDF函数是不需要修改源码的。您可以直接在Spark on MC上注册这些UDF函数。具体来说,您需要确保UDF函数所涉及的资源已经上传至MaxCompute,并且在Spark配置中添加相应的资源路径和参数。例如,使用MaxCompute客户端时,您可以执行命令来添加资源,并在Spark配置中增加如下两个参数:spark.hadoop.odps.cupid.resourcesspark.pyspark.python。此外,对于资源名的大小写,MaxCompute是不敏感的,但在注册自定义函数时,类名仍然需要与原始资源名保持一致。

    总之,您可以在不修改UDF源码的情况下,通过Spark on MC在MaxCompute上注册和使用这些自定义函数。

    2023-11-12 09:22:21
    赞同 展开评论 打赏
  • Spark on MaxCompute是阿里云上的一个解决方案,它提供了在MaxCompute上运行Spark作业的方式。在这种情况下,您可以使用Spark来处理和分析MaxCompute中的数据。

    关于您提到的自定义UDF(用户自定义函数)问题,一般情况下,Spark和MaxCompute都支持自定义函数,但是具体实现方式可能会有所不同。在Hive中创建的UDF可以使用Spark on MaxCompute来调用,但是需要确保UDF的代码符合Spark的语法和规则。

    如果您想在不修改源代码的情况下,将自定义UDF从Hive迁移到Spark on MaxCompute,可能需要进行一些调整。在Hive中创建UDF时,需要使用Hive的语法和规则。而在Spark中创建UDF时,需要使用Spark的语法和规则。因此,您可能需要重新编写或调整UDF的代码,以使其符合Spark的语法和规则。

    Spark https://help.aliyun.com/zh/maxcompute/user-guide/spark/?spm=a2c4g.11186623.0.i41

    2023-11-12 08:43:02
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Hybrid Cloud and Apache Spark 立即下载
    Scalable Deep Learning on Spark 立即下载
    Comparison of Spark SQL with Hive 立即下载