数据分析之「数据探查」—帮您快速掌握数据情报

简介: 为了帮助用户一眼看穿当前数据的质量、结构、分布、统计信息,Dataworks数据分析系统提供了数据探查这个情报管家。它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况;同时,也支持切换到详细模式,查看更多更全面的数据信息。

您为什么需要数据探查

数据探查能解决什么

您是否也有这样的困扰?
面对表格中一堆凌乱的数据,除了每一列的标题和类型之外,其它一无所知。。。

  1. 数据是否完整?是否有空白或空值?
  2. 数据是否唯一?有多少个不同的值?数据是否重复?
  3. 数据是否存在异常格式?数据格式的分布是什么?这些是您期望的格式吗?
  4. 数据存在哪些值范围,它们是预期值吗?给定数据的最大值,最小值和平均值是多少?这些是您期望的范围吗?
  5. 针对这票数据,您后续应该做怎样的处理,才能让他们发挥最大的价值?

34b27c67fdfede2633ce8b6ef60f86cb.jpg

都2020年了,难道还要被这些问题困扰吗?
当然不!

为解决这些问题,Dataworks数据分析系统提供了数据探查这个情报管家,目的就是帮用户一眼看穿当前数据的质量、结构、分布、统计信息。

同时,也帮助用户判断这票数据是否值得去做数据清洗,以及应该做一次性的可视化展示,还是值得做成报表以长期可视化展示。

所以,2020年,我们一定要充分用好这个小管家!

数据探查对大数据生态的价值

数据分析是一款数据快速洞察分析,数据编辑及数据可视化的平台,是Dataworks开发生态从数据集成 -> 数据开发 -> 数据服务 -> 数据分析->数据可视化这整个链路的重要组成部分。

数据探查又是数据分析平台完成数据预览、探查、加工、分析、可视化、分享等一整套数据处理生态链路不可或缺的一部分。

综上,若您能接触到数据,有了解自己数据情况的意愿,希望自己的数据发挥更大价值,那您就需要数据探查!

数据分析的数据探查是怎样的

功能简介

数据探查一般有以下3种方法,column profiling、cross-column profiling、cross-table profiling,我们采用了第一种方法,对每列数据进行类型和值分布的探查。
它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!

并且,整个数据探查过程在前端实现,具备Excel数据源的天然优点,不受odps任务慢的影响、自动支持各种数据引擎,给您更流畅的体验!
数据探查筛选和下钻.gif

详细介绍

针对概览模式

目前,我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况。

  1. 针对字符串类型(string)和日期型(date):以富文本展示top2的值及其占比,同时给出其它值的占比;若值的种类超过50%,我们会展示唯一值总数。
  2. 针对数字型(integer/float):以分箱柱状图的形式,给出其数据范围分布情况。
  3. 针对布尔型(boolean):以饼图的形式展示其占比。
  4. 针对混合型(探查到含有2种或以上类型):以饼图的形式展示各值类型占比。提醒用户当前列存在脏数据,若是脏数据被订正之后,我们就会按照上述3种情况来展示值分布。
  5. 针对空值(null),我们会标红预警。

针对详细模式

详细模式是为用户提供的深度探查功能,可以查看数据的统计信息等。我们以弹窗的形式,智能展示每列数据的字段名、字段类型等探查结果。

  1. 针对字符串类型(string)和日期型(date):展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。
  2. 针对数字型(integer/float):展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、统计信息、以及直方图。
  3. 针对布尔型(boolean),其中字符型中的true/false、数字型中的0/1会被识别为布尔型:展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、以及饼图分布。
  4. 针对混合型:展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5,以及各数据类型占比的饼图。

打开方式

数据探查概览模式有2种打开方式:
(1)从DataStudio跳转过来直接展示探查结果;
(2)自助点击「数据探查」按钮展开探查结果。
注:数据探查不会影响excel中数据,探查完数据,点「关闭」按钮收起,即可继续使用excel ToolBar。

详细模式打开方式是从概览模式右上角【详细模式】进入。

关键点演示

(1)从DataStudio跳转过来打开;
弹外跳转8.gif

(2)菜单栏点击数据探查按钮打开;
2数据探查 菜单栏打开.gif

(3)智能图表推荐、编辑刷新;
3数据探查 编辑刷新、智能图表推荐.gif

(4)数据筛选、直方图动态分桶、多级下钻;
数据探查筛选和下钻.gif

后续Action

  1. 优化数据统计分析能力,提供更加全面的数据统计信息,帮助您得到您最想要的信息。
  2. 针对您的反馈,进一步完善我们的数据探查。

尾声

数据探查是数据质量和数据决策非常重要的一个环节,也是决定最后数据正确性非常关键的一步!
精确的数据探查,可以帮助您更好地了解源数据的局限性、更好地进行数据清洗、更好地掌控开发时间表!

想要快速掌握您的数据情报,就来数据分析和我们一起探查吧!

另,本文重点介绍功能,技术相关内容可参看数据探查背后的技术分享

希望您会喜欢我们的数据探查!如有意见建议,欢迎留言,也欢迎找我们分享或吐槽。感谢!

相关文章
|
SQL 存储 数据采集
【技术分享】元数据与数据血缘实现思路
【技术分享】元数据与数据血缘实现思路
6628 0
|
数据采集 分布式计算 Hadoop
开源数据质量解决方案——Apache Griffin入门宝典(上)
开源数据质量解决方案——Apache Griffin入门宝典
2072 0
|
数据采集 存储 分布式计算
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
27844 2
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
|
SQL druid 搜索推荐
最强最全面的数仓建设规范指南 (一)
本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!
13954 2
|
数据采集 分布式计算 DataWorks
数据分析之「数据探查」—帮您快速掌握数据情报
为了帮助用户一眼看穿当前数据的质量、结构、分布、统计信息,Dataworks数据分析系统提供了数据探查这个情报管家。它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况;同时,也支持切换到详细模式,查看更多更全面的数据信息。
2812 0
|
SQL 人工智能 DataWorks
DataWorks:新一代 Data+AI 数据开发与数据治理平台演进
本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。
2674 7
|
数据采集 SQL 数据可视化
Dataphin数据探查助力快速了解数据概貌,更早识别潜在风险
在日常数据加工处理工作中,不同角色(运营、开发、数据分析师、业务人员等)尝尝会面临一个共同问题:数据是否可用?在数据量大、数据可信度不高的情况下,常常需要花费大量时间精力对数据进行校验,了解数据概貌并评估数据是否可用,也就是需要进行所谓的“数据探查”工作。因此,Dataphin 特别推出“数据探查”功能,只需要进行简单的配置,就可以周期性地执行探查任务并产出内容丰富、结果准确的可视化探查报告。此外,也可以保留历史的数据探查结果,便于结合历史数据进行对比分析,不仅降低了操作门槛,也能解放人力,提升工作效率。
840 0
|
数据库
数仓建设:数据域和主题域是什么关系?
数仓建设:数据域和主题域是什么关系?
10059 2
数仓建设:数据域和主题域是什么关系?
|
机器学习/深度学习 人工智能 安全
一文搞懂隐私计算
一文搞懂隐私计算
4534 0