- 场景
①在缺乏数据的初期阶段,如何快速建立一个实时任务,跑通实时研发的整条链路?
②在测试功能时,如何快速跑通测试全链路?
③作为一个实时研发的新手小白,不同的实时数据源选择connector的时候不知道要怎么选择,创建元表的时候成功,但是flink_sql编译的时候报错参数不全,要怎么处理?
- 解决方案及功能
- Dataphin在实时研发模块提供了【引用示例代码】功能,其中包含模拟数据输入输出、Kafka实时数据处理、CDC实时数据同步入湖入仓等多个示例
【模拟数据输入输出示例】可以利用datagen connector 模拟输入, print connector 模拟输出,构造一个最简单的实时任务,走通实时研发的整条链路
- datagen connector:在缺乏实时数据的初期测试阶段,可以使用 datagen connector 生成模拟数据流,为 Flink SQL 任务提供稳定的测试数据,以便在无真实数据压力下进行功能测试和性能调优
- print connector:在开发过程中,可以插入 print connector 输出中间结果至控制台或日志,用于即时验证数据处理逻辑的正确性,快速迭代优化 SQL 语句
【CDC实时数据同步入湖入仓示例】通过Flink CDC读取MySQL的增量数据写到Kafka
通过示例代码,新手小白可以直接选择相应数据源的connector,而不需要自己在DDL中写,减少了数据源connector的学习成本;同时,借助示例代码,Dataphin会将对应任务的必填参数直接生成,避免了因参数缺少而编译报错的情况
【Kafka实时数据处理】在以下示例中输入connector只能选择Kafka,但是输出可以选择Kafka或者upsert Kafka,能够帮助小白学习,解决由于选错connector导致任务报错的问题
综上,通过【引用示例代码】可以自动生成代码,不仅能够让实时研发的新手小白迅速上手,快速走通实时研发的整条链路,而且可以减少数据源connector的学习成本,同时自动生成必填参数,避免了因参数缺少而编译报错的情况,可直接编译并运行,大大提升开发效率!