Dataphin数据探查助力快速了解数据概貌,更早识别潜在风险

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。

在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。


一方面,数据开发负责人在上线前需要通过数据探查对数据进行汇总统计和测试,判断数据符合业务预期;另一方面,数据使用者在申请数据表使用和消费时,也需要通过数据探查对表中数据的质量进行核对,避免因为数据质量问题导致决策有误。因此,不管是在需求分析与设计阶段,还是测试汇报阶段,数据探查都能帮助不同角色快速了解数据概貌,更早识别潜在风险。


但是,通过编写 SQL 语句等方式进行数据探查,不仅具备一定专业门槛,并且经常需要进行重复操作,造成人力浪费。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。


接下来,我们为大家介绍数据探查可以支持的应用场景、如何进行数据探查配置以及如何解读数据探查报告。

1、 应用场景

  1. 需求分析与设计阶段:快速评估数据可用性,例如数据质量、数据分布等。结合业务场景,帮助分析和判断需求实现的可行性。
  2. 测试汇报阶段:针对开发好的数据表产出数据探查报告,作为下游业务应用的输入。
  3. 日常开发:定期对数据表进行自动数据探查,及时发现潜在的数据问题和风险。

2、数据探查配置

1) 全局配置

数据探查任务可能会消耗较多的计算资源和系统资源,为了保证系统稳定性,运营管理员可以在数据探查全局配置中进行以下系统配置,从而更合理的运用资源:

  • 支持自动探查的数据表范围:物理表支持按照所属项目、逻辑表支持按照所属板块配置可开启自动探查的范围,支持:全部项目/板块全部生产项目/板块(包括当前以后的和后续新增的)、指定项目/板块三种方式。
  • 探查记录保留时长:建议根据实际需求配置合理的保留时长,避免占用太多存储空间。支持仅保留最近 1 次运行记录及最近一次运行成功的报告、保留指定时长内的所有探查记录和报告 2 种方式。
  • 探查任务并发数及运行超时配置:避免任务并发运行过高或运行时长太长而造成系统压力过大的问题。
  • 高级参数配置开启后,支持针对全局探查任务设置set参数,以便对探查任务运行进行调优或适配某些计算引擎的特殊设置

2)探查任务配置

根据探查目的,可以配置并发起“自动探查”和“手动探查”任务,如:分析人员需要开发一张临时报表,选取相关数据表进行探查;开发人员针对周期调度的数据同步的目标表,配置在同步任务运行完成后进行探查,了解入仓的数据概况。下面以手动探查任务为例介绍配置方式:

  • 探查分区仅分区表需配置探查的分区范围。您可快捷选择已存在的指定分区(同数据表资产详情页面的明细信息-分区信息页签已生成的分区),也可手动填写表达式一次探查多个分区,例如:ds > '20230101' and (age >10 or age < 20) and city in ('beijing', 'hangzhou')
  • 探查内容:选择需探查的字段以及对应的探查场景,支持:字段值分布、空值统计、唯一值统计。
  • 探查范围:用于设置需要探查记录数。支持全部记录、随机抽样n条记录、百分比抽样n%记录(具体支持方式受引擎限制)。
  • 探查结果查看权限:支持给不同数据表配置探查报告的查看权限,以便更好的管控敏感数据。支持公开、仅管理员和负责人可见 2 种方式。
  • 数据过滤:可设置数据过滤的脚本,更好地进行记录筛选。

配置完成后,支持查看基于当前探查配置生成的探查SQL,了解更多探查任务详情。

3)探查报告

针对探查成功的记录,您可查看不同字段数据类型生成的数据探查报告以及探查后字段的统计分布结果:

  • 字段值分布:对字段值的分布情况进行统计,并生成字段值分布图帮助您快速了解字段值分布概况,为后续链路的数据开发和应用提供参考。
  • 空值统计帮助您快速了解字段是否存在空值等异常记录,避免导致相关调度任务运行报错或影响下游数据计算的正确性。建议针对主键字段或不可为空值的字段配置该探查场景。
  • 唯一值统计为您统计该字段的唯一值记录数及重复值记录数最高的5个字段值建议针对主键字段不可重复的值或出现频率最高字段的值配置该探查场景,

4)探查记录

探查记录抽屉为您展示根据全局配置保留的探查记录及对应的结果,包括记录名称、探查类型、探查状态、执行时长信息。同时,您可执行查看探查报告、查看运行日志、查看探查配置、基于当前探查配置快速发起新的探查等操作。


Dataphin 数据探查为数据质量稽核工作提供了强有力的支持,解放人力,实现 0 门槛操作,快来体验吧~

相关文章
|
8月前
|
SQL DataWorks 监控
Dataphin常见问题之数据怎么都补不过去如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
8月前
|
存储 Oracle 关系型数据库
Dataphin常见问题之想要周期执行任务如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
8月前
|
SQL 分布式计算 DataWorks
Dataphin常见问题之补数据任务卡着不动如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
8月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
8月前
|
JSON 缓存 运维
Dataphin数据服务API开启IP白名单调用鉴权
Dataphin数据服务API提供便捷的API开发及运维、应用调用权限管理等功能,为数据业务化提供了坚实的支撑。在应用调用API的时候,Dataphin可支持通过AcessKey方式的调用鉴权。而在企业内部网络中,也可以使用IP白名单方式简化调用。本文将为您介绍如何开启IP白名单的调用鉴权。
243 0
|
5天前
|
数据采集 SQL 人工智能
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
数据标准是数据治理的核心抓手,通过梳理数据标准可以有效提升数据质量。瓴羊Dataphin平台利用AI技术简化数据治理流程,实现自动化的数据标准建立、质量规则构建和特征识别,助力企业在大模型时代高效治理数据,推动数据真正为业务服务。
223 28
瓴羊Dataphin:AI驱动的数据治理——千里之行,始于标准 |【瓴羊数据荟】数据MeetUp第三期
|
26天前
|
数据采集 自然语言处理 供应链
央国企“严选”的瓴羊,如何让数据“供得出、流得动、用得好”?|【瓴羊Dataphin在信通院2024数据资产管理大会】
在产业变革新浪潮下,数据资产管理步入“繁花时代”,瓴羊高级解决方案专家黄彦之出席2024数据资产管理大会并分享了瓴羊基于12年阿里最佳数据实践,通过Dataphin等产品助力央国企数智化转型的路径与方法。大会发布《数据治理产业图谱3.0》,瓴羊Dataphin入选BUCM板块代表产品,彰显其领先经验。
100 18
|
2月前
|
人工智能 关系型数据库 MySQL
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
本文通过一个利用百炼大模型平台和Dataphin数据服务API构建一个客户360智能应用的案例,介绍如何使用Dataphin数据服务API在百炼平台创建一个自定义插件,用于智能应用的开发,提升企业智能化应用水平。
196 4
数据魔力,一触即发 —— Dataphin数据服务API,百炼插件新星降临!
|
2月前
|
安全 Java 数据库连接
Dataphin的数据共享的应用场景和方案
不同的业务场景对数据访问和使用有着各自独特的需求,从简单的数据下载到复杂的跨系统集成,选择合适的数据共享与访问方式至关重要。本文旨在探讨几种常见的Dataphin上的数据共享与访问机制——包括数据复制、数据下载、视图创建、行级及列级权限控制、API数据服务以及JDBC连接等,并分析它们各自的适用场景、优势及限制,以帮助企业更好地根据自身需求做出合理的选择。
140 0
|
3月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?

热门文章

最新文章