开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute如何在datawork上弄python3的pandas 库?

大数据计算MaxCompute如何在datawork上弄python3的pandas 库?

展开
收起
cuicuicuic 2024-03-04 10:43:44 32 0
4 条回答
写回答
取消 提交回答
  • 已经内置了。

    MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传等流程。
    功能说明
    丰富的内置镜像

    内置如Pandas、NumPy、Scikit-learn、Xgboost等各类科学计算、数据分析类镜像,面向数据分析、数据挖掘等场景需求可直接使用,避免了繁琐的环境准备、打包及上传流程。

    使用方式高效便捷

    使用SQL调用UDF函数时,直接通过Flag参数方式指定所需镜像,即可在当前作业中生效;使用PyODPS(仅支持0.11.5及以上版本)开发时也可通过参数直接指定所需镜像。

    参考 https://help.aliyun.com/zh/maxcompute/user-guide/image-management?spm=a2c4g.11186623.0.0.7f776beaVegDFp

    2024-03-17 08:43:25
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在DataWorks上使用Python 3的Pandas库,您可以通过以下步骤进行操作:

    1. 环境准备:确保您的MaxCompute集群支持Python 3环境。DataWorks平台通常会预装NumPy和Pandas库,但具体版本可能会有所不同。
    2. 下载兼容包:由于MaxCompute集群内的Python版本可能与本地环境不同,您需要下载与集群内Python版本兼容的Pandas包。可以访问Python包的镜像站点,选择与集群内Python版本(如Python 3.7)相匹配的Pandas包进行下载。
    3. 上传资源:将下载的Pandas包上传到DataWorks的资源管理中。注意,资源后缀与下载的包后缀必须一致。
    4. 创建资源:在DataWorks的控制台中创建资源,关联您上传的Pandas包。这样,在配置任务时,就可以选择这个资源作为执行环境的一部分。
    5. 配置任务:在DataWorks的任务配置中,指定使用包含Pandas库的资源。确保所有依赖包都已经包含在内,以避免运行时出现依赖问题。
    6. 测试验证:创建一个简单的任务来测试Pandas库是否能够正常工作。如果遇到任何问题,检查包的版本和依赖关系,确保它们与MaxCompute集群的环境兼容。

    此外,由于Python沙箱限制,DataWorks中执行的非自定义函数代码可以使用平台预装的NumPy和Pandas。不支持其他带有二进制代码的三方包。

    总的来说,通过上述步骤,您应该能够在DataWorks上成功配置并使用Python 3的Pandas库。如果在操作过程中遇到困难,建议查阅官方文档或联系技术支持获取帮助。

    2024-03-04 13:36:50
    赞同 展开评论 打赏
  • 在 MaxCompute DataWorks 上使用 Python3 和 Pandas 库可以通过以下步骤来实现:

    1. 创建Python资源: 首先,在MaxCompute DataWorks上创建一个Python类型的资源,选择Python版本为3.x。在资源中可以上传你需要使用的Python脚本文件,确保其中包含了对Pandas库的引用和使用。

    2. 编写Python脚本: 在创建的Python资源中编写你的Python脚本,导入Pandas库并执行相应的数据处理和分析操作。

    3. 提交作业: 将编写好的Python脚本作为一个作业提交到MaxCompute上运行。你可以选择使用MaxCompute中的PyODPS插件来连接MaxCompute,并在作业中引用Python资源中的脚本。

    4. 配置Python环境: 在MaxCompute DataWorks上,你也可以通过任务配置界面设置Python环境,选择Python3作为执行环境,并在需要的情况下将Pandas库打包上传至MaxCompute,以便在作业执行时使用。

    总的来说,你可以通过创建Python资源、编写Python脚本、提交作业以及配置Python环境等方式,在MaxCompute DataWorks上使用Python3和Pandas库来进行数据处理和分析。

    2024-03-04 13:15:04
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 热门讨论

    热门文章

    相关电子书

    更多
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载
    大数据&AI实战派 第2期 立即下载