场景一
作为第一次使用Dataphin的数据开发,在离线集成任务中,你遇到了这样的问题:某原始表中存在部分错误记录,需要剔除后生成新字段,再迁移到新库中,因此你在集成管道中设置了过滤和字段计算组件。谨慎的你想知道组件配置是否正确,这时该如何快速验证处理后的数据呢?
解决方案及功能
- 点击「预览」。
- 执行任务成功后,控制台会自动跳转到「运行结果」,在这里可以看到除输出组件之外的执行结果。
场景二
看到了正确处理的数据,你又遇到了新的问题:任务需要每小时调度一次,但原始表数据量比较大,你担心耗时和资源占用超出预期。那么,该如何测试任务的真实运行情况,避免生产环境“翻车”呢?
解决方案及功能
- 点击「运行」。
- 成功执行任务后,控制台自动跳转到「日志信息」-「运行信息」,在这里可以看到本次运行的总耗时、读取和写入的数据条数。点击下方的「通道信息」,可以看到本次运行的资源消耗情况,以及读取和写入速率等等。
总结一下
「预览」= 只读不写验逻辑,整个管道任务中,只有输出组件不执行,可以快速无风险验证数据处理,不会对目标表产生影响。
「运行」= 真实跑一遍,执行读取+写入全流程,可以用于开发测试,精准评估全量数据从输入到输出的实际耗时和资源占用。