开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

MaxCompute上使用pyodps连接云上数据库计算auc,数据量太大老是撑爆内存

问题描述

阿里云MaxCompute上,我使用pyodps连接云上数据库后(get_table.to_df()),想计算一下auc(使用sklearn中的roc_auc_score计算),但是数据量太大,老是把服务器内存撑爆(很奇怪为啥没在云上计算,而是占用服务器大量内存)

主要计算代码:

from opds import DataFrame

a_df = DataFrame(odps.get_table('temp_tb'))

roc_auc_score(y_ture = a_df.label,y_score = a_df.score)

这样计算是在本地计算的嘛?否则内存应该占用不多吧?不太懂,应该如何处理呢,求大佬教

期望结果

直接在云上计算,不占用大量本地内存

已尝试的方法

展开
收起
zhaoyj2021 2022-11-07 12:05:25 242 0
1 条回答
写回答
取消 提交回答
  • MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。

    看着是运行到了本地,导致本地内存爆了。

    你可以参考这篇文章改一下。

    https://developer.aliyun.com/article/782779

    我理解用udf或者用Python第三方库才能解决你的问题。

    2022-11-07 17:51:41
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    DTCC 2022大会集锦《云原生一站式数据库技术与实践》 立即下载
    阿里云瑶池数据库精要2022版 立即下载
    2022 DTCC-阿里云一站式数据库上云最佳实践 立即下载