Dataphin数据探查助力快速了解数据概貌,更早识别潜在风险

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。

在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。


一方面,数据开发负责人在上线前需要通过数据探查对数据进行汇总统计和测试,判断数据符合业务预期;另一方面,数据使用者在申请数据表使用和消费时,也需要通过数据探查对表中数据的质量进行核对,避免因为数据质量问题导致决策有误。因此,不管是在需求分析与设计阶段,还是测试汇报阶段,数据探查都能帮助不同角色快速了解数据概貌,更早识别潜在风险。


但是,通过编写 SQL 语句等方式进行数据探查,不仅具备一定专业门槛,并且经常需要进行重复操作,造成人力浪费。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。


接下来,我们为大家介绍数据探查可以支持的应用场景、如何进行数据探查配置以及如何解读数据探查报告。

1、 应用场景

  1. 需求分析与设计阶段:快速评估数据可用性,例如数据质量、数据分布等。结合业务场景,帮助分析和判断需求实现的可行性。
  2. 测试汇报阶段:针对开发好的数据表产出数据探查报告,作为下游业务应用的输入。
  3. 日常开发:定期对数据表进行自动数据探查,及时发现潜在的数据问题和风险。

2、数据探查配置

1) 全局配置

数据探查任务可能会消耗较多的计算资源和系统资源,为了保证系统稳定性,运营管理员可以在数据探查全局配置中进行以下系统配置,从而更合理的运用资源:

  • 支持自动探查的数据表范围:物理表支持按照所属项目、逻辑表支持按照所属板块配置可开启自动探查的范围,支持:全部项目/板块全部生产项目/板块(包括当前以后的和后续新增的)、指定项目/板块三种方式。
  • 探查记录保留时长:建议根据实际需求配置合理的保留时长,避免占用太多存储空间。支持仅保留最近 1 次运行记录及最近一次运行成功的报告、保留指定时长内的所有探查记录和报告 2 种方式。
  • 探查任务并发数及运行超时配置:避免任务并发运行过高或运行时长太长而造成系统压力过大的问题。
  • 高级参数配置开启后,支持针对全局探查任务设置set参数,以便对探查任务运行进行调优或适配某些计算引擎的特殊设置

2)探查任务配置

根据探查目的,可以配置并发起“自动探查”和“手动探查”任务,如:分析人员需要开发一张临时报表,选取相关数据表进行探查;开发人员针对周期调度的数据同步的目标表,配置在同步任务运行完成后进行探查,了解入仓的数据概况。下面以手动探查任务为例介绍配置方式:

  • 探查分区仅分区表需配置探查的分区范围。您可快捷选择已存在的指定分区(同数据表资产详情页面的明细信息-分区信息页签已生成的分区),也可手动填写表达式一次探查多个分区,例如:ds > '20230101' and (age >10 or age < 20) and city in ('beijing', 'hangzhou')
  • 探查内容:选择需探查的字段以及对应的探查场景,支持:字段值分布、空值统计、唯一值统计。
  • 探查范围:用于设置需要探查记录数。支持全部记录、随机抽样n条记录、百分比抽样n%记录(具体支持方式受引擎限制)。
  • 探查结果查看权限:支持给不同数据表配置探查报告的查看权限,以便更好的管控敏感数据。支持公开、仅管理员和负责人可见 2 种方式。
  • 数据过滤:可设置数据过滤的脚本,更好地进行记录筛选。

配置完成后,支持查看基于当前探查配置生成的探查SQL,了解更多探查任务详情。

3)探查报告

针对探查成功的记录,您可查看不同字段数据类型生成的数据探查报告以及探查后字段的统计分布结果:

  • 字段值分布:对字段值的分布情况进行统计,并生成字段值分布图帮助您快速了解字段值分布概况,为后续链路的数据开发和应用提供参考。
  • 空值统计帮助您快速了解字段是否存在空值等异常记录,避免导致相关调度任务运行报错或影响下游数据计算的正确性。建议针对主键字段或不可为空值的字段配置该探查场景。
  • 唯一值统计为您统计该字段的唯一值记录数及重复值记录数最高的5个字段值建议针对主键字段不可重复的值或出现频率最高字段的值配置该探查场景,

4)探查记录

探查记录抽屉为您展示根据全局配置保留的探查记录及对应的结果,包括记录名称、探查类型、探查状态、执行时长信息。同时,您可执行查看探查报告、查看运行日志、查看探查配置、基于当前探查配置快速发起新的探查等操作。


Dataphin 数据探查为数据质量稽核工作提供了强有力的支持,解放人力,实现 0 门槛操作,快来体验吧~

相关文章
|
4月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
4月前
|
JSON 缓存 运维
Dataphin数据服务API开启IP白名单调用鉴权
Dataphin数据服务API提供便捷的API开发及运维、应用调用权限管理等功能,为数据业务化提供了坚实的支撑。在应用调用API的时候,Dataphin可支持通过AcessKey方式的调用鉴权。而在企业内部网络中,也可以使用IP白名单方式简化调用。本文将为您介绍如何开启IP白名单的调用鉴权。
185 0
|
2月前
|
SQL 运维 安全
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
Dataphin 是阿里巴巴旗下的一个智能数据建设与治理平台,旨在帮助企业构建高效、可靠、安全的数据资产。在V4.2版本中,Dataphin敏捷版上线助力企业打造轻量版数据中台,打通数据资产管理和消费,陪伴企业迈入数据高价值应用新阶段。
1628 2
Dataphin V4.2重大升级:上线敏捷版,打通数据资产管理和消费,开启数据价值放大新篇章
|
1月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
110 1
|
2月前
|
运维 关系型数据库 调度
想一套Dataphin管理云上云下的集群和数据?“注册调度集群”来帮忙!
在实际业务场景中,部分企业在云上和云下(本地机房)都存在集群和数据库,企业期望通过一套Dataphin同时对这些集群和数据库进行管理,如何有效解决数据跨网络传输带来的安全性低和流量成本高的问题是其中的关键。为了解决上述问题,Dataphin推出“注册调度集群”功能,帮助企业实现一套Dataphin管理云上云下的集群和数据。
|
3月前
|
存储 SQL 多模数据库
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
Lindorm通过与Dataphin的深度整合,进一步解决了数据集成和数据治理的问题,为企业提供更加高效和更具性价比的方案。
多模数据库Lindorm再升级:对接Dataphin,打通数据治理“最后一公里”
|
4月前
|
SQL 分布式计算 数据可视化
Dataphin常见问题之看不到上个版本的血缘如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。

热门文章

最新文章