场景
在企业级数据开发与治理体系中,样例数据在多个关键场景中发挥着不可或缺的作用。例如,在安全分类识别和数据标准映射过程中,系统需依赖样例数据进行内容分析,以实现精准的敏感数据识别与标准落标;在数据预览环节,用户主要通过样例数据直观了解数据结构与内容形态;而在NL2SQL等场景中,样例数据还能帮助大模型深入理解字段语义与数据分布,从而生成更准确的查询SQL,提升分析效率。
但如果每次要用样例数据都临时去查一遍,不仅慢,还会反复占用计算资源,造成浪费。怎么办?
解决方案及功能
Dataphin 提供了统一的自动采样机制,把常用的样例数据提前准备好、集中管理,实现“采一次,多场景复用”,既提速又省资源。
前提:
- 在「治理」-「元数据」-「采样配置」中,选择开启数据采样。
- 这里,我们可以按照业务需求开启数据采样场景,并统一配置更新频率、存储等。例如,对采样数据的有效性要求高,可将采样更新频率调高,并开启空值补偿,提升数据完整性——但要注意相应的计算资源消耗也会增加。
- 接下来,我们针对计算源和数据源的场景进行单独的采样配置。对于计算源表(即Dataphin项目表和逻辑表),可选择仅圈选生产表进行采样,并指定采样任务的执行空间。
例如,我们可以分配专门的项目用于采样查询,不占用业务项目的计算资源。
如果必须使用业务项目资源,还可以设置“禁止扫描时段”,避开数据处理高峰期。
- 对于通过元数据采集接入的数据源,我们同样可以圈选需要采样的库表,灵活配置采样策略。