大数据计算MaxCompute如何在datawork上弄python3的pandas 库?
已经内置了。
MaxCompute提供镜像管理功能,内置数据分析、科学计算、机器学习(如Pandas、Numpy、Scikit-learn、Xgboost)等各类常用镜像,并已对镜像进行预先加热,您可在SQL UDF、PyODPS开发等场景中直接引用已有镜像,无需执行繁琐的镜像打包、上传等流程。
功能说明
丰富的内置镜像
内置如Pandas、NumPy、Scikit-learn、Xgboost等各类科学计算、数据分析类镜像,面向数据分析、数据挖掘等场景需求可直接使用,避免了繁琐的环境准备、打包及上传流程。
使用方式高效便捷
使用SQL调用UDF函数时,直接通过Flag参数方式指定所需镜像,即可在当前作业中生效;使用PyODPS(仅支持0.11.5及以上版本)开发时也可通过参数直接指定所需镜像。
在DataWorks上使用Python 3的Pandas库,您可以通过以下步骤进行操作:
此外,由于Python沙箱限制,DataWorks中执行的非自定义函数代码可以使用平台预装的NumPy和Pandas。不支持其他带有二进制代码的三方包。
总的来说,通过上述步骤,您应该能够在DataWorks上成功配置并使用Python 3的Pandas库。如果在操作过程中遇到困难,建议查阅官方文档或联系技术支持获取帮助。
在 MaxCompute DataWorks 上使用 Python3 和 Pandas 库可以通过以下步骤来实现:
创建Python资源: 首先,在MaxCompute DataWorks上创建一个Python类型的资源,选择Python版本为3.x。在资源中可以上传你需要使用的Python脚本文件,确保其中包含了对Pandas库的引用和使用。
编写Python脚本: 在创建的Python资源中编写你的Python脚本,导入Pandas库并执行相应的数据处理和分析操作。
提交作业: 将编写好的Python脚本作为一个作业提交到MaxCompute上运行。你可以选择使用MaxCompute中的PyODPS插件来连接MaxCompute,并在作业中引用Python资源中的脚本。
配置Python环境: 在MaxCompute DataWorks上,你也可以通过任务配置界面设置Python环境,选择Python3作为执行环境,并在需要的情况下将Pandas库打包上传至MaxCompute,以便在作业执行时使用。
总的来说,你可以通过创建Python资源、编写Python脚本、提交作业以及配置Python环境等方式,在MaxCompute DataWorks上使用Python3和Pandas库来进行数据处理和分析。
https://help.aliyun.com/zh/maxcompute/user-guide/image-management?spm=a2c4g.11186623.0.0.d33d11c14FCR4R#cc001ae8e37r1看下这个,pandas已经内置了,在pyodps里直接用就行 ,此回答整理自钉群“MaxCompute开发者社区2群”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。