DataWorks在测试数据集成时,任务完成后,请问是什么原因导致的呢？

DataWorks在测试数据集成时,任务完成后,目标库的数据是源库的数据 3倍量, 请问是什么原因导致的呢？不是分区表且写入前会清理怎么办？

展开

收起

真的很搞笑 2023-12-03 16:43:27 78 版权

4 条回答

写回答

取消提交回答

sunrr
这个情况可能是因为你使用了全量数据同步的方式，并且在同步过程中，源库的数据被多次读取和写入。

DataWorks在进行数据集成时，有两种同步方式：增量同步和全量同步。增量同步只同步源库中新产生的数据，而全量同步则会同步源库中的所有数据。

如果你的任务是全量同步，那么在任务执行过程中，源库的所有数据都会被读取一次，然后在目标库中写入一次。如果任务执行过程中出现了错误，那么任务会重试，这就可能导致源库的数据被多次读取和写入，从而使得目标库的数据是源库数据的3倍。

解决这个问题的方法是：
1. 在DataWorks的控制台中，找到你选择的任务，然后点击"修改"按钮。
2. 在弹出的窗口中，找到"同步方式"选项，然后将其设置为"增量同步"。
3. 保存更改后，重新启动你的数据集成任务。
2023-12-05 10:01:06

赞同展开评论
芯在这

1）追加写入，非覆盖写入
2）覆盖写入但是每天写入一个分区 3天就有3份数据，算了一下总数是一致的 2）核实一下源端查的是否是这个实例的库表jdbc:oracle:thin:@//202.193.199.73:1521/glhis"selectedDatabase":"GLHIS", "table":[ "GLHIS.MET_CAS_DIAGNOSE" ],

，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2023-12-03 22:58:06

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

这种情况可能是由于数据同步任务中出现了重复写入的问题。您在配置数据集成同步任务时，需要确保正确设置了源端和目标端的数据库或数据仓库信息。DataWorks支持各种类型的数据源，并可以在数据集成同步任务配置过程中，通过选择数据源名称来控制同步读取和写入的数据库或数据仓库。

如果确认不是分区表且写入前已清理，那么重复写入的问题可能与离线同步、实时同步或全增量同步的配置有关。建议您检查这些配置是否正确，并且考虑重新执行数据集成同步任务，以排除可能出现的错误。

2023-12-03 17:04:23

赞同展开评论
Star时光
当使用DataWorks进行测试数据集成时，如果目标库的数据是源库数据的3倍量，可能有以下几个原因：
1. 任务重复运行：请确保任务没有被重复运行。如果同一个任务多次运行，数据将会被重复写入目标库，导致数据量增加。
2. 数据过滤条件未正确设置：在数据集成任务中，如果没有正确设置过滤条件或者使用了错误的过滤条件，可能会将源库中的一部分或全部数据写入目标库，从而导致数据量增加。
3. 数据冗余：如果目标表没有设置唯一约束或者主键，并且在写入数据时没有进行去重操作，那么相同的数据可能会被重复写入目标库，导致数据量增加。
解决这个问题的方法如下：
1. 检查任务运行情况：确保任务只运行一次，不要重复执行。可以在DataWorks的任务监控页面或任务调度记录中查看任务运行情况。
2. 检查过滤条件：检查数据集成任务中的过滤条件是否正确设置，以确保只选择需要的数据进行写入目标库。
3. 设置唯一约束和主键：在目标表中设置适当的唯一约束或主键，以避免重复写入相同的数据。
4. 清理目标库数据：如果已经发现目标库中存在重复数据，可以先清空目标库中的数据，然后重新运行数据集成任务。
2023-12-03 16:47:42

赞同展开评论

DataWorks在测试数据集成时,任务完成后,请问是什么原因导致的呢？

大数据开发治理DataWorks

相关文章

热门讨论

热门文章