备案控制台

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks找阿里运维截图提示如图所示，看描述是cpu资源沾满了么？

DataWorks现在的pyodps脚本固化历史分区数据执行超过48小时执行不完，看日志，只跑了1/5的样子，找阿里运维截图提示如图所示，看描述是cpu资源沾满了么？我们数据量并不大，8000个分区，2.7亿条数据而已
pyodps大致操作如下
import datetime
from odps import ODPS
import pandas as pd

sql =
SELECT DISTINCT pt
FROM p.XXXXXXXta.st.XXXXXXXtatai order by pt desc

instance = odps.run_sql(sql)
instance.wait_for_success()

results = []

with instance.open_reader() as reader:
for record in reader:
results.append(record.values)

distinct_pt_df = pd.DataFrame(results, columns=['pt'])

total_partitions = len(distinct_pt_df)

for index, row in distinct_pt_df.iterrows():
partition_str = str(row['pt'])

print(f"当前执行序号：{index+1} / 总个数：{total_partitions}")
sql_insert = f
INSERT OVERWRITE TABLE sc_dr_ytai_sjzq.STG_SD_YT_SETL_FEE_STT_D PARTITION(pt='{partition_str}')
select XXXXXXXta
from scXXXXXXXtaqXXXXXXXtaai c
where XXXXXXXtaloc not in ('3', '4')
and a.psn_no = d.psn_no;

print (sql_insert )
insert_instance = odps.run_sql(sql_insert )
insert_instance.wait_for_success()!

展开

收起

真的很搞笑 2024-03-31 20:13:41 59 0

2 条回答

写回答

取消提交回答

芯在这

看起来使用了pandas 会下载到本地执行独享调度资源组有限制下载不能超过50m，建议是用odps的df ，不过odps的df不支持遍历可以咨询MaxCompute同学看下是否有其他解法
from odps.df import DataFrame ，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2024-04-01 17:38:38

赞同展开评论打赏
Skyund

您的DataWorks PyODPS脚本在处理历史分区数据时遇到了执行时间过长的问题，仅完成了约1/5的进度，且阿里云运维提供了截图提示，似乎指向CPU资源占用满的情况。考虑到您提到的数据规模（8000个分区，2.7亿条数据），虽然不算非常庞大，但在某些特定操作或资源限制下，依然可能导致长时间运行甚至阻塞。

2024-03-31 20:41:53

赞同展开评论打赏

问答分类：

运维分布式计算 MaxCompute DataWorks SQL Python 大数据开发治理平台 DataWorks 云原生大数据计算服务 MaxCompute 日志服务

问答标签：

运维资源运维截图 CPU资源大数据开发治理平台 DataWorks资源 dataworks运维

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

相关产品：

大数据开发治理平台 DataWorks

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

DataWorks这些都是在公共资源下的，选项中没有出现，如何快速批量切换到已有的独享资源集成下呢？

41

1

0

DataWorks为啥运维中心里没有 detail log 的url，哪里有呢？

21

1

0

SREWorks是如何应用运维规范和标准化思想的？SREWorks如何描述业务系统？

39

1

0

dataworks有做什么更新吗，跨项目克隆/运维中心的按钮都没有了？

38

1

0

dataworks的MaxCompute配额（30CU）相当于CPU和存储资源多少？

133

13

0

DataWorks运维界面出错数和还有这个出错数和我们这个警告的数量对不上，运维界面的是怎么统计的？

42

0

0

dataworks怎么和spark EMR集成开发和运维调度？

35

0

0

s工具的CPU和内存规格现在能在yaml文件里面配置直接部署了？

1028

1

0

我们现在就用go+fc，那这样的话，我的yaml文件，CPU和内存的配置要怎么写呢？

789

1

0

VCPU是什么东西，以前的按内存量使用，现在需要在基础上再加一个CPU使用费用是吗？

819

1

0

大数据与机器学习

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

相关产品

大数据开发治理平台 DataWorks

文档详情产品详情

热门讨论

热门文章

数据来源：com.alibaba.fastjson.JSONException: syntax er

dataworks里面的stg层、ods层、dwd层、dws层、是怎么分层的呢？

如何下载dataworks产品文档？

请教一下DataWorks，doris和starRocks 选型，选哪个？

Dataphin和 Dataworks 有啥区别呢？

兄弟们啊，同步中DI、RI到底什么意思，是什么的缩写？

数据服务报429请求次数过多咋办呀

报错信息：invalid jdbc url, DatabaseName not configured

DataWorks failed: ODPS-0130071:[0,0] Semantic ana？

阿里云有敏感词检测的API吗？可以用在PyODPS吗？

展开全部

DataWorks售前咨询

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

DataWorks：新一代 Data+AI 数据开发与数据治理平台演进

大数据&AI的16种可能，2020阿里云客户最佳实践合集下载

数据中台的智能进化—阿里巴巴十二年数据平台发展历程

DataWorks操作报错合集之错误提示“ODPS-0130161: Parse exception - invalid token 'WITH', expect 'SEMICOLON'”，该怎么办

【2023云栖】田奇铣：大模型驱动DataWorks数据开发治理平台智能化升级

DataWorks on EMR StarRocks，打造标准湖仓新范式

【云栖实录】DataWorks：新一代智能湖仓一体数据开发与治理平台

DataWorks操作报错合集之配置项目连通oss数据源 , 报The request signature we calculated does not match the signature you provided.如何解决

展开全部

相关课程

更多

企业运维之云上网络原理与实践课程

1349

14

去学习

企业级运维之云原生与Kubernetes实战课程

3264

34

去学习

面向运维的 python 脚本速成-1024程序员节创造营公益课

2036

4

去学习

Linux企业运维实战 - 入门及常用命令

1937

29

去学习

一站式大数据开发治理平台DataWorks初级课程

1231

11

去学习

玩转云上智能运维

302

9

去学习

相关电子书

更多

企业运维之云原生和Kubernetes 实战 立即下载

可视化架构运维实践 立即下载

2021云上架构与运维峰会演讲合集 立即下载

相关实验场景

更多