DataWorks分析数据数据探查是什么?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在DataWorks中,数据探查(Data Exploration)是一种用于分析和了解数据的方法。数据探查旨在帮助用户对数据进行初步的认知和了解,发现数据的特征、趋势、异常等信息,并为后续的数据处理和分析提供基础。
DataWorks提供了一些常见的数据探查功能,可帮助用户对数据集进行探索和分析,包括但不限于以下内容:
数据预览:通过数据预览功能,可以快速查看数据集的前几行或随机抽取的样本数据,以获取数据的大致结构和内容。
数据统计:DataWorks提供了数据统计功能,能够对数值型数据进行基本的统计分析,如求和、平均值、最大/最小值、中位数等。
数据分布分析:通过直方图、箱线图、散点图等可视化方式,可以对数据的分布情况进行分析和展示,帮助用户发现数据的异常值、离群点等。
缺失值分析:DataWorks可以自动识别数据集中的缺失值,并提供缺失值的统计信息和可视化展示,帮助用户了解数据中的缺失情况。
数据关联分析:通过相关系数矩阵、热力图等方式,可以分析数据集中各个字段之间的相关性和关联程度,从而发现数据中的潜在关系。
通过这些数据探查功能,用户可以对数据进行初步的了解和分析,识别数据的特点、问题和潜在价值,为后续的数据处理、建模和分析工作提供指导和支持。
需要注意的是,具体的数据探查功能可能因DataWorks版本和配置而有所不同。建议参考阿里云官方文档或联系DataWorks技术支持团队获取最准确和最新的功能说明和使用指南。
数据探查功能可以帮您分析当前数据的质量、结构、分布和统计信息,帮助数据分析完成数据的预览、探查、加工、分析和可视化。数据探查通过列分析的方法,探查每列数据的类型和值的分布。您可以选中需要分析的数据,单击菜单栏中的数据探查,即可在电子表格顶部,以图形和富文本的形式,为您展示每列数据的类型、值分布的概览情况。 数据探查简单模式的说明如下:针对STRING和DATE类型:以富文本的形式为您展示Top2的值及其占比,同时展示其它值的占比。如果值的种类超过50%,则为您展示唯一值的总数。针对INTEGER和FLOAT类型:以分箱柱状图的形式,为您展示其数据范围的分布情况。针对BOOLEAN:以饼图的形式为您展示数据的占比。针对混合型(探查数据包括两种及以上类型):以饼图的形式为您展示各值类型的占比。提醒您当前列存在脏数据,如果脏数据已被清洗,则根据上述三种情况为您展示值的分布。针对空值null:将空值null的占比标红展示。单击右上方的详细模式,您可以在详细模式对话框中,查看每列数据的字段名称、字段类型、字段中文名、字段描述和安全等级等探查结果。数据探查详细模式的说明如下:针对STRING和DATE类型:为您展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。针对INTEGER和FLOAT类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5、统计信息和直方图。针对BOOLEAN类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5和饼图分布。说明 其中字符串类型中的true和false、数字类型中的0和1会被识别为BOOLEAN类型。 https://help.aliyun.com/document_detail/119774.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。