最近在使用datax3.0把数据从oracle同步到mysql,第一次使用时觉的很是方便、高效,只要配置好job的json文件,再调用python $dataxhome/bin/datax.py $jobhome/*.json即可完成数据的同步。
后来有个问题,困惑之久,这些个数据同步的job并非定时调起,在特定条件下发起,而且要依据job的执行成功与否来决定是否继续执行其他操作。
那么问题来了,1.如何不通过日志文件来判断某个job是否在运行、2.如何知道job是否运行成功、3.出错时错误数据如何记录?
因为官方说淘宝通过datax每天要同步海量数据,肯定是通过系统调度完成,上面那些问题或许也会碰到,那么有谁能知道,淘宝在应用datax时,是如何监控这些个job的?
LocalTGCommunicationManager这个类可以获得JobCommunication,communication里面应该是可以获得State和Throwable,可以试试
数加平台支持任务调度设置,从天级别到分钟级别都可以,还可以设置依赖关系。
datax同步任务只是其中一类,还有其他很多类型的任务。
另外,数加平台推出了一个数据集成的产品,跟你的场景比较匹配,可以看看。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。