DataWorks不仅提供单表离线模式,还支持多种数据同步任务类型。这些类型包括整库离线同步(一次性全量同步、周期性全量同步、离线全增量同步、一次性增量同步、周期性增量同步)以及一键实时同步(一次性全量同步,实时增量同步)。此外,DataWorks还提供了数据类型转换的功能,您可以选择在源端和目标端使用相同的数据类型以避免数据类型转换,或者在源端和目标端使用不同的数据类型,然后在同步时手动转换数据类型。
在DataWorks中,您可以使用赋值节点将上下文传输下来的二维数组保存到表中。首先,您需要在上游节点中将需要传递的二维数组作为输出参数(outputs)设置好。然后,在下游的赋值节点中,将这个输出参数连接到一个ODPS SQL节点,以便将这个二维数组写入到MaxCompute表中。请注意,数据同步中心仅支持能够抽象为逻辑二维表的数据同步。同时,由于节点上下文中的资源非常受限,例如PyODPS节点的内存限制较强,因此在处理大型数据时需要谨慎操作。
DataWorks的全局参数没有特定的版本限制。然而,对于不同版本的DataWorks,支持使用的系统参数和自定义参数可能会有所不同。例如,DataWorks提供了两个系统参数:${bdp.system.cyctime}
和${bdp.system.bizdate}
,这两个参数在后续版本的DataWorks中可能会有所调整或增加。
此外,您需要注意的是,某些特定功能可能会受到使用限制。例如,当您在使用PyODPS节点时,由于内存使用的限制,如果任务执行过程中发生"Got killed"错误,这表示内存使用超过了限制。在这种情况下,建议避免在PyODPS节点中直接下载大量数据并在DataWorks中进行处理,或者避免在PyODPS节点中写入过多的数据处理代码。对于包的支持也有限制,例如,DataWorks的PyODPS节点不支持matplotlib等一些包。
因此,为了确保您的任务可以正常运行,建议您在使用DataWorks时充分了解其对各种操作和使用方式的限制,并根据实际情况进行相应的配置和调整。