开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

您好,Dataworks我们用到pyodps3里调用算法,必须使用原生DataFrame怎么办,?

您好,Dataworks我们用到pyodps3里调用算法,必须使用原生DataFrame怎么办,下载数据会很慢,而且容易OOM,用阿里得DataFrame不兼容算法?

展开
收起
真的很搞笑 2023-07-12 08:27:07 129 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    阿里云 DataWorks 中,如果您需要使用 PyODPS3 调用算法,同时需要使用原生 DataFrame,可以通过以下方法实现:
    将 PyODPS3 中的 DataFrame 转换为原生 DataFrame:可以使用 PyODPS3 中的 to_pandas() 方法,将 PyODPS3 中的 DataFrame 对象转换为 Pandas 中的 DataFrame 对象,然后再将 Pandas 中的 DataFrame 对象转换为原生 DataFrame。
    具体而言,可以使用如下代码实现:
    python
    Copy
    import pandas as pd
    from odps.df import DataFrame

    使用 PyODPS3 获取 DataFrame 对象

    odps_df = DataFrame(...)

    将 PyODPS3 中的 DataFrame 转换为 Pandas 中的 DataFrame

    pandas_df = odps_df.to_pandas()

    将 Pandas 中的 DataFrame 转换为原生 DataFrame

    native_df = pandas_df.values.tolist()
    需要注意的是,将 PyODPS3 中的 DataFrame 转换为 Pandas 中的 DataFrame 可能会导致性能损失和内存消耗,因此建议在数据量较小的情况下使用。
    直接使用 PyODPS3 中的 DataFrame:如果您的算法可以直接使用 PyODPS3 中的 DataFrame,可以直接使用 PyODPS3 中的 DataFrame 进行算法计

    2023-07-30 20:17:23
    赞同 展开评论 打赏
  • 在群公告可以找到,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-07-12 10:00:51
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载