数据分析之「数据探查」—帮您快速掌握数据情报

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 为了帮助用户一眼看穿当前数据的质量、结构、分布、统计信息,Dataworks数据分析系统提供了数据探查这个情报管家。它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况;同时,也支持切换到详细模式,查看更多更全面的数据信息。

您为什么需要数据探查

数据探查能解决什么

您是否也有这样的困扰?
面对表格中一堆凌乱的数据,除了每一列的标题和类型之外,其它一无所知。。。

  1. 数据是否完整?是否有空白或空值?
  2. 数据是否唯一?有多少个不同的值?数据是否重复?
  3. 数据是否存在异常格式?数据格式的分布是什么?这些是您期望的格式吗?
  4. 数据存在哪些值范围,它们是预期值吗?给定数据的最大值,最小值和平均值是多少?这些是您期望的范围吗?
  5. 针对这票数据,您后续应该做怎样的处理,才能让他们发挥最大的价值?

34b27c67fdfede2633ce8b6ef60f86cb.jpg

都2020年了,难道还要被这些问题困扰吗?
当然不!

为解决这些问题,Dataworks数据分析系统提供了数据探查这个情报管家,目的就是帮用户一眼看穿当前数据的质量、结构、分布、统计信息。

同时,也帮助用户判断这票数据是否值得去做数据清洗,以及应该做一次性的可视化展示,还是值得做成报表以长期可视化展示。

所以,2020年,我们一定要充分用好这个小管家!

数据探查对大数据生态的价值

数据分析是一款数据快速洞察分析,数据编辑及数据可视化的平台,是Dataworks开发生态从数据集成 -> 数据开发 -> 数据服务 -> 数据分析->数据可视化这整个链路的重要组成部分。

数据探查又是数据分析平台完成数据预览、探查、加工、分析、可视化、分享等一整套数据处理生态链路不可或缺的一部分。

综上,若您能接触到数据,有了解自己数据情况的意愿,希望自己的数据发挥更大价值,那您就需要数据探查!

数据分析的数据探查是怎样的

功能简介

数据探查一般有以下3种方法,column profiling、cross-column profiling、cross-table profiling,我们采用了第一种方法,对每列数据进行类型和值分布的探查。
它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!

并且,整个数据探查过程在前端实现,具备Excel数据源的天然优点,不受odps任务慢的影响、自动支持各种数据引擎,给您更流畅的体验!
数据探查筛选和下钻.gif

详细介绍

针对概览模式

目前,我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况。

  1. 针对字符串类型(string)和日期型(date):以富文本展示top2的值及其占比,同时给出其它值的占比;若值的种类超过50%,我们会展示唯一值总数。
  2. 针对数字型(integer/float):以分箱柱状图的形式,给出其数据范围分布情况。
  3. 针对布尔型(boolean):以饼图的形式展示其占比。
  4. 针对混合型(探查到含有2种或以上类型):以饼图的形式展示各值类型占比。提醒用户当前列存在脏数据,若是脏数据被订正之后,我们就会按照上述3种情况来展示值分布。
  5. 针对空值(null),我们会标红预警。

针对详细模式

详细模式是为用户提供的深度探查功能,可以查看数据的统计信息等。我们以弹窗的形式,智能展示每列数据的字段名、字段类型等探查结果。

  1. 针对字符串类型(string)和日期型(date):展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。
  2. 针对数字型(integer/float):展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、统计信息、以及直方图。
  3. 针对布尔型(boolean),其中字符型中的true/false、数字型中的0/1会被识别为布尔型:展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、以及饼图分布。
  4. 针对混合型:展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5,以及各数据类型占比的饼图。

打开方式

数据探查概览模式有2种打开方式:
(1)从DataStudio跳转过来直接展示探查结果;
(2)自助点击「数据探查」按钮展开探查结果。
注:数据探查不会影响excel中数据,探查完数据,点「关闭」按钮收起,即可继续使用excel ToolBar。

详细模式打开方式是从概览模式右上角【详细模式】进入。

关键点演示

(1)从DataStudio跳转过来打开;
弹外跳转8.gif

(2)菜单栏点击数据探查按钮打开;
2数据探查 菜单栏打开.gif

(3)智能图表推荐、编辑刷新;
3数据探查 编辑刷新、智能图表推荐.gif

(4)数据筛选、直方图动态分桶、多级下钻;
数据探查筛选和下钻.gif

后续Action

  1. 优化数据统计分析能力,提供更加全面的数据统计信息,帮助您得到您最想要的信息。
  2. 针对您的反馈,进一步完善我们的数据探查。

尾声

知识点

数据探查是数据质量和数据决策非常重要的一个环节,也是决定最后数据正确性非常关键的一步!
精确的数据探查,可以帮助您更好地了解源数据的局限性、更好地进行数据清洗、更好地掌控开发时间表!

想要快速掌握您的数据情报,就来数据分析和我们一起探查吧!

希望您会喜欢我们的数据探查!如有意见建议,欢迎留言,也欢迎找我们分享或吐槽。感谢!

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
4月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
3月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
9月前
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
550 142
|
10月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
558 92
|
11月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
446 73
|
10月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
307 22
|
8月前
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
831 0
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
810 4
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
247 2
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
330 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析

热门文章

最新文章