场景
在数据开发流程中,某客户需要将 StarRocks 挂载的外部Catalog数据写入内部Default Catalog的目标库,希望在 Dataphin 中看到内表的上游血缘信息,以实现数据资产的全链路追踪。
目前Dataphin暂不支持直接采集StarRocks外部Catalog元数据,那么,该如何实现上述功能呢?
解决方案
在提交/发布任务时,Dataphin会自动解析集成、数据库SQL等任务的血缘,因此在数据库SQL任务中,读取外部Catalog数据写入内表的数据链路可以通过这种方式加载到目标表的血缘信息中。下面就让我们来具体操作一下吧!
1. 在「数据源管理」中创建StarRocks数据源,并测试连接成功。
2. 在「元数据」中,为相应StarRocks数据源创建采集任务并运行。
- 进行数据开发时,选择相应的StarRocks数据源创建数据库SQL任务
- 在代码中,注意使用[Catalog].[database].[table]三段式进行表引用。
4. 提交并发布任务后,在「资产清单」中,选择「其他系统资产」,找到相应数据表,点击查看详情。
- 点击「血缘&影响」,就可以看到系统解析的血缘信息啦!