开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute的pyodps可以调用DI?

大数据计算MaxCompute的pyodps可以调用DI?

展开
收起
三分钟热度的鱼 2023-07-11 17:21:31 97 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    在大数据计算MaxCompute的pyodps中,可以通过Tunnel模块调用集成数据DI进行数据上传和下载。Tunnel模块是MaxCompute提供的数据隧道服务,可以实现高速、可靠的数据上传和下载,支持多种数据格式和压缩方式。
    以下是一个使用Tunnel模块从集成数据DI下载数据的示例代码:
    python
    Copy
    from odps import ODPS
    from odps.tunnel import TunnelDownloader

    创建ODPS连接

    odps = ODPS('your_access_id', 'your_access_key', 'your_project_name', endpoint='your_endpoint')

    创建TunnelDownloader对象

    downloader = TunnelDownloader(odps)

    下载数据

    downloader.download('your_table_name', '/path/to/local/file')
    在该示例中,使用TunnelDownloader对象从集成数据DI下载your_table_name表的数据,并保存到本地文件/path/to/local/file中。TunnelDownloader对象的构造函数需要传入一个ODPS连接对象,用于连接MaxCompute和集成数据DI服务。

    2023-07-29 13:08:52
    赞同 展开评论 打赏
  • 是的,大数据计算MaxCompute的Python SDK pyodps 提供了对 Data Integration(DI) 的支持。通过 pyodps,您可以使用 Python 脚本调用 DI 任务,并实现数据集成、转换和同步等操作。

    以下是一些常见的使用方式:

    1. 创建 DI 车手任务:使用 pyodps 创建一个 DI 车手任务对象,指定任务名称和所属项目。
    from odps import ODPS
    from odps.models import projects
    
    odps = ODPS('<your access id>', '<your secret access key>', project='<your project name>')
    task = projects.Task(odps, 'my_task_name', project='my_project')
    
    1. 设置 DI 车手任务参数:通过 .set_xxx() 方法设置 DI 车手任务的输入、输出、脚本和其他相关参数。
    task.set_script('di_script_name')
    task.set_input('input_table1', 'input_table2')
    task.set_output('output_table')
    task.set_partition('ds=20210101')
    # 设置其他参数
    task.set('key', 'value')
    
    1. 执行 DI 车手任务:使用 .submit() 方法提交 DI 车手任务并执行。
    instance = task.submit()
    instance.wait_for_success()
    
    1. 获取 DI 车手任务结果:根据需要,可以通过 .get_result() 方法获取 DI 车手任务的结果。
    result = instance.get_result()
    print(result)
    

    通过以上方法,您可以在 Python 环境中方便地调用 DI 任务,完成数据集成和转换等操作。

    2023-07-28 21:57:12
    赞同 展开评论 打赏
  • pyodps本身不能调度di,可以做上下游依赖,pyodps执行一次,di节点也执行一次。此回答整理自钉群“MaxCompute开发者社区2群”

    2023-07-11 17:35:08
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载