数据分析之「数据探查」—帮您快速掌握数据情报

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 为了帮助用户一眼看穿当前数据的质量、结构、分布、统计信息,Dataworks数据分析系统提供了数据探查这个情报管家。它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况;同时,也支持切换到详细模式,查看更多更全面的数据信息。

您为什么需要数据探查

数据探查能解决什么

您是否也有这样的困扰?
面对表格中一堆凌乱的数据,除了每一列的标题和类型之外,其它一无所知。。。

  1. 数据是否完整?是否有空白或空值?
  2. 数据是否唯一?有多少个不同的值?数据是否重复?
  3. 数据是否存在异常格式?数据格式的分布是什么?这些是您期望的格式吗?
  4. 数据存在哪些值范围,它们是预期值吗?给定数据的最大值,最小值和平均值是多少?这些是您期望的范围吗?
  5. 针对这票数据,您后续应该做怎样的处理,才能让他们发挥最大的价值?

34b27c67fdfede2633ce8b6ef60f86cb.jpg

都2020年了,难道还要被这些问题困扰吗?
当然不!

为解决这些问题,Dataworks数据分析系统提供了数据探查这个情报管家,目的就是帮用户一眼看穿当前数据的质量、结构、分布、统计信息。

同时,也帮助用户判断这票数据是否值得去做数据清洗,以及应该做一次性的可视化展示,还是值得做成报表以长期可视化展示。

所以,2020年,我们一定要充分用好这个小管家!

数据探查对大数据生态的价值

数据分析是一款数据快速洞察分析,数据编辑及数据可视化的平台,是Dataworks开发生态从数据集成 -> 数据开发 -> 数据服务 -> 数据分析->数据可视化这整个链路的重要组成部分。

数据探查又是数据分析平台完成数据预览、探查、加工、分析、可视化、分享等一整套数据处理生态链路不可或缺的一部分。

综上,若您能接触到数据,有了解自己数据情况的意愿,希望自己的数据发挥更大价值,那您就需要数据探查!

数据分析的数据探查是怎样的

功能简介

数据探查一般有以下3种方法,column profiling、cross-column profiling、cross-table profiling,我们采用了第一种方法,对每列数据进行类型和值分布的探查。
它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!

并且,整个数据探查过程在前端实现,具备Excel数据源的天然优点,不受odps任务慢的影响、自动支持各种数据引擎,给您更流畅的体验!
数据探查筛选和下钻.gif

详细介绍

针对概览模式

目前,我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况。

  1. 针对字符串类型(string)和日期型(date):以富文本展示top2的值及其占比,同时给出其它值的占比;若值的种类超过50%,我们会展示唯一值总数。
  2. 针对数字型(integer/float):以分箱柱状图的形式,给出其数据范围分布情况。
  3. 针对布尔型(boolean):以饼图的形式展示其占比。
  4. 针对混合型(探查到含有2种或以上类型):以饼图的形式展示各值类型占比。提醒用户当前列存在脏数据,若是脏数据被订正之后,我们就会按照上述3种情况来展示值分布。
  5. 针对空值(null),我们会标红预警。

针对详细模式

详细模式是为用户提供的深度探查功能,可以查看数据的统计信息等。我们以弹窗的形式,智能展示每列数据的字段名、字段类型等探查结果。

  1. 针对字符串类型(string)和日期型(date):展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。
  2. 针对数字型(integer/float):展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、统计信息、以及直方图。
  3. 针对布尔型(boolean),其中字符型中的true/false、数字型中的0/1会被识别为布尔型:展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、以及饼图分布。
  4. 针对混合型:展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5,以及各数据类型占比的饼图。

打开方式

数据探查概览模式有2种打开方式:
(1)从DataStudio跳转过来直接展示探查结果;
(2)自助点击「数据探查」按钮展开探查结果。
注:数据探查不会影响excel中数据,探查完数据,点「关闭」按钮收起,即可继续使用excel ToolBar。

详细模式打开方式是从概览模式右上角【详细模式】进入。

关键点演示

(1)从DataStudio跳转过来打开;
弹外跳转8.gif

(2)菜单栏点击数据探查按钮打开;
2数据探查 菜单栏打开.gif

(3)智能图表推荐、编辑刷新;
3数据探查 编辑刷新、智能图表推荐.gif

(4)数据筛选、直方图动态分桶、多级下钻;
数据探查筛选和下钻.gif

后续Action

  1. 优化数据统计分析能力,提供更加全面的数据统计信息,帮助您得到您最想要的信息。
  2. 针对您的反馈,进一步完善我们的数据探查。

尾声

知识点

数据探查是数据质量和数据决策非常重要的一个环节,也是决定最后数据正确性非常关键的一步!
精确的数据探查,可以帮助您更好地了解源数据的局限性、更好地进行数据清洗、更好地掌控开发时间表!

想要快速掌握您的数据情报,就来数据分析和我们一起探查吧!

希望您会喜欢我们的数据探查!如有意见建议,欢迎留言,也欢迎找我们分享或吐槽。感谢!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
138 71
|
1月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
223 92
|
4天前
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
58 20
|
2月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
155 73
|
1月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
85 22
|
2月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
95 5
|
2月前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
|
6月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
110 2
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
308 4
|
6月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
125 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析

热门文章

最新文章