在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。
一方面,数据开发负责人在上线前需要通过数据探查对数据进行汇总统计和测试,判断数据符合业务预期;另一方面,数据使用者在申请数据表使用和消费时,也需要通过数据探查对表中数据的质量进行核对,避免因为数据质量问题导致决策有误。因此,不管是在需求分析与设计阶段,还是测试汇报阶段,数据探查都能帮助不同角色快速了解数据概貌,更早识别潜在风险。
但是,通过编写 SQL 语句等方式进行数据探查,不仅具备一定专业门槛,并且经常需要进行重复操作,造成人力浪费。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。
接下来,我们为大家介绍数据探查可以支持的应用场景、如何进行数据探查配置以及如何解读数据探查报告。
1、 应用场景
- 需求分析与设计阶段:快速评估数据可用性,例如数据质量、数据分布等。结合业务场景,帮助分析和判断需求实现的可行性。
- 测试汇报阶段:针对开发好的数据表产出数据探查报告,作为下游业务应用的输入。
- 日常开发:定期对数据表进行自动数据探查,及时发现潜在的数据问题和风险。
2、数据探查配置
1) 全局配置
数据探查任务可能会消耗较多的计算资源和系统资源,为了保证系统稳定性,运营管理员可以在数据探查全局配置中进行以下系统配置,从而更合理的运用资源:
- 支持自动探查的数据表范围:物理表支持按照所属项目、逻辑表支持按照所属板块配置可开启自动探查的范围,支持:全部项目/板块、全部生产项目/板块(包括当前以后的和后续新增的)、指定项目/板块三种方式。
- 探查记录保留时长:建议根据实际需求配置合理的保留时长,避免占用太多存储空间。支持仅保留最近 1 次运行记录及最近一次运行成功的报告、保留指定时长内的所有探查记录和报告 2 种方式。
- 探查任务并发数及运行超时配置:避免任务并发运行过高或运行时长太长而造成系统压力过大的问题。
- 高级参数配置:开启后,支持针对全局探查任务设置set参数,以便对探查任务运行进行调优或适配某些计算引擎的特殊设置。
2)探查任务配置
根据探查目的,可以配置并发起“自动探查”和“手动探查”任务,如:分析人员需要开发一张临时报表,选取相关数据表进行探查;开发人员针对周期调度的数据同步的目标表,配置在同步任务运行完成后进行探查,了解入仓的数据概况。下面以手动探查任务为例介绍配置方式:
- 探查分区:仅分区表需配置探查的分区范围。您可快捷选择已存在的指定分区(同数据表资产详情页面的明细信息-分区信息页签已生成的分区),也可手动填写表达式一次探查多个分区,例如:ds > '20230101' and (age >10 or age < 20) and city in ('beijing', 'hangzhou')。
- 探查内容:选择需探查的字段以及对应的探查场景,支持:字段值分布、空值统计、唯一值统计。
- 探查范围:用于设置需要探查记录数。支持全部记录、随机抽样n条记录、百分比抽样n%记录(具体支持方式受引擎限制)。
- 探查结果查看权限:支持给不同数据表配置探查报告的查看权限,以便更好的管控敏感数据。支持公开、仅管理员和负责人可见 2 种方式。
- 数据过滤:可设置数据过滤的脚本,更好地进行记录筛选。
配置完成后,支持查看基于当前探查配置生成的探查SQL,了解更多探查任务详情。
3)探查报告
针对探查成功的记录,您可查看不同字段数据类型生成的数据探查报告以及探查后字段的统计分布结果:
- 字段值分布:对字段值的分布情况进行统计,并生成字段值分布图,帮助您快速了解字段值分布概况,为后续链路的数据开发和应用提供参考。
- 空值统计:帮助您快速了解字段是否存在空值等异常记录,避免导致相关调度任务运行报错或影响下游数据计算的正确性。建议针对主键字段或不可为空值的字段配置该探查场景。
- 唯一值统计:为您统计该字段的唯一值记录数及重复值记录数最高的5个字段值。建议针对主键字段不可重复的值或出现频率最高字段的值配置该探查场景,
4)探查记录
探查记录抽屉为您展示根据全局配置保留的探查记录及对应的结果,包括记录名称、探查类型、探查状态、执行时长信息。同时,您可执行查看探查报告、查看运行日志、查看探查配置、基于当前探查配置快速发起新的探查等操作。
Dataphin 数据探查为数据质量稽核工作提供了强有力的支持,解放人力,实现 0 门槛操作,快来体验吧~