一、场景
在实际运行实时研发任务前,往往需要进行调试,目前本地调试支持自动采样的数据源有限,不支持自动采样的数据源需要手动上传数据,流程繁琐,调试效率很慢,并且这并非真正的流式读取,那有更好的办法进行调试吗?
二、解决方案及功能
Dataphin 支持 session 集群用于调试,支持流式数据的调试(即一边从来源表中读取数据,一边进行计算,与真实线上运行任务的结果一致,只是不会将结果写入到结果表中,而是写入到 dataphin 自建的 connector 中,既方便调试人员查看和分析数据,同时又不会干扰线上生产环境的数据)
①创建session集群前需要先在调度集群上划分一个资源组,之后的实时作业提交到session集群时,使用该资源组的资源(根据需求配置cpu和内存资源,最少不少于3c12g)
②新建session集群
③配置session集群内TM数量、Slot数量,JM和TM各占用的CPU和内存资源
可以看到,如果①中资源组给的资源过少,就会导致TM数量以及JM和TM各占用的CPU和内存资源都比较少,这可能会导致性能瓶颈,特别是在处理高负载作业时,如果一个作业占用了大量的 TM 资源,其他作业可能会受到影响,甚至可能出现作业执行缓慢或者失败的情况
④点击调试,选择采集线上数据,并选择我们刚刚配置的session集群即可