问题一:DataWorks公共调度资源组下线公告是什么?
DataWorks公共调度资源组下线公告是什么?
参考回答:
- 2024年4月1日起,用户的新建任务将暂停使用DataWorks公共数据集成资源组。已经配置了DataWorks公共数据集成资源组的任务可继续正常运行,但不能对这些任务进行修改,若您需修改这些任务,请于2024年4月1日前切换为DataWorks独享数据集成资源组。
- 2024年9月1日起,DataWorks公共数据集成资源组不再提供服务,已经配置DataWorks公共数据集成资源组的任务将无法执行。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/584232
问题二:dataworks中的pyodps和mars版本可以更新吗 ?
dataworks中的pyodps和mars版本可以更新吗 ?
参考回答:
DataWorks中的PyODPS和Mars版本可以进行更新以满足不同的开发需求。目前,DataWorks中已经安装了0.6和0.8两个版本的Mars,您可以通过在代码头部增加mars_version注释的方式选择所需版本。此外,DataWorks也为用户提供了PyODPS 3节点,在该节点上,您可以使用Python代码直接编写MaxCompute作业,并进行作业的周期性调度。这样,不仅可以提升开发效率,也使任务的处理更加方便和高效。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/584230
问题三:DataWorks表数量很多,挨个点开查询比较慢,有批量查询的方法吗?
DataWorks表数量很多,挨个点开查询比较慢,有批量查询的方法吗?
参考回答:
可以看下元数据的api是否有满足需求的
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/584225
问题四:DataWorks中odps 引擎得with as走的是内存吗?
DataWorks中odps 引擎得with as走的是内存吗?
参考回答:
在DataWorks的PyODPS节点中,当使用with as子句时,其处理的数据主要是存储在内存中的。这是因为,PyODPS为MaxCompute的Python版SDK,它在执行任务时会占用一定的系统资源,如CPU和内存。具体来说,Map Task每个Instance的Memory大小是可以设定的,单位是M,范围通常在 [256,12288]之间调整。然而,如果数据量过大,可能会导致内存使用超限,进程被杀死。因此,在使用with as等操作时,需要特别注意内存的使用情况,避免本地数据的大量操作,以减小对系统资源的压力。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/584224
问题五:DataWorks除了数据地图还有别的方法查一张表的上下游吗?
DataWorks除了数据地图还有别的方法查一张表的上下游吗?
参考回答:
除了使用DataWorks的数据地图功能,还可以通过以下方法查找一张表的上下游:
- 查看任务列表:在DataWorks控制台中,可以查看所有正在运行的任务列表。通过任务列表,您可以找到与该表相关的上游和下游任务。
- 查看作业详情:在任务列表中,选择需要查看的作业,然后点击作业名称进入作业详情页面。在该页面中,您可以查看作业的输入输出参数、执行计划等信息,从而了解该作业对表的影响。
- 查看数据流图:在DataWorks控制台中,可以查看整个数据流图。通过数据流图,您可以找到与该表相关的所有任务和依赖关系,从而了解表的上下游情况。
- 查看日志文件:在DataWorks控制台中,可以查看作业的日志文件。通过日志文件,您可以获取作业的执行情况和错误信息,从而了解表的上下游情况。
需要注意的是,以上方法只能提供一些基本的上下游信息,如果您需要更详细的信息,建议使用DataWorks的数据地图功能进行查询。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/584223