DataWorks如何实现数据的探查?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
数据探查功能可以帮您分析当前数据的质量、结构、分布和统计信息,帮助数据分析完成数据的预览、探查、加工、分析和可视化。数据探查通过列分析的方法,探查每列数据的类型和值的分布。
您可以选中需要分析的数据,单击菜单栏中的数据探查,即可在电子表格顶部,以图形和富文本的形式,为您展示每列数据的类型、值分布的概览情况。

数据探查简单模式的说明如下:
针对STRING和DATE类型:以富文本的形式为您展示Top2的值及其占比,同时展示其它值的占比。如果值的种类超过50%,则为您展示唯一值的总数。
针对INTEGER和FLOAT类型:以分箱柱状图的形式,为您展示其数据范围的分布情况。
针对BOOLEAN:以饼图的形式为您展示数据的占比。
针对混合型(探查数据包括两种及以上类型):以饼图的形式为您展示各值类型的占比。提醒您当前列存在脏数据,如果脏数据已被清洗,则根据上述三种情况为您展示值的分布。
针对空值null:将空值null的占比标红展示。
单击右上方的详细模式,您可以在详细模式对话框中,查看每列数据的字段名称、字段类型、字段中文名、字段描述和安全等级等探查结果。
数据探查详细模式的说明如下:
针对STRING和DATE类型:为您展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。
针对INTEGER和FLOAT类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5、统计信息和直方图。
针对BOOLEAN类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5和饼图分布。
在DataWorks中,数据探查是一个重要环节,它可以帮助用户深入了解数据的特征和规律,发现数据中的问题和潜在价值。具体来说,数据探查旨在了解来源数据的数据形态,例如数据质量、数据分布等,结合业务场景,帮助分析和判断需求实现的可行性。
以下是在DataWorks中进行数据探查的主要步骤:
数据探查功能可以帮您分析当前数据的质量、结构、分布和统计信息,帮助数据分析完成数据的预览、探查、加工、分析和可视化。
数据探查通过列分析的方法,探查每列数据的类型和值的分布。您可以选中需要分析的数据,单击菜单栏中的数据探查,即可在电子表格顶部,以图形和富文本的形式,为您展示每列数据的类型、值分布的概览情况。数据探查简单模式的说明如下:针对STRING和DATE类型:以富文本的形式为您展示Top2的值及其占比,同时展示其它值的占比。如果值的种类超过50%,则为您展示唯一值的总数。针对INTEGER和FLOAT类型:以分箱柱状图的形式,为您展示其数据范围的分布情况。针对BOOLEAN:以饼图的形式为您展示数据的占比。针对混合型(探查数据包括两种及以上类型):以饼图的形式为您展示各值类型的占比。提醒您当前列存在脏数据,如果脏数据已被清洗,则根据上述三种情况为您展示值的分布。针对空值null:将空值null的占比标红展示。单击右上方的详细模式,您可以在详细模式对话框中,查看每列数据的字段名称、字段类型、字段中文名、字段描述和安全等级等探查结果。数据探查详细模式的说明如下:针对STRING和DATE类型:为您展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。针对INTEGER和FLOAT类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5、统计信息和直方图。针对BOOLEAN类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5和饼图分布。说明 其中字符串类型中的true和false、数字类型中的0和1会被识别为BOOLEAN类型。
https://help.aliyun.com/document_detail/119774.html
您可能感兴趣的问题:
查看表详情数据探查
分析数据背景信息
查看表详情进入表详情页面
创建并管理电子表格创建电子表格
工作空间列表创建工作空间
已为您隐藏了部分结果,可点击显示所有
该回答能够满足您的需求吗: 是    否嘉宁嘉宁(嘉宁)@奋斗中10月17日 16:48@DataWorks自助答疑机器人数据探查 -allDataWorks自助答疑机器人@机器人10月17日 16:49@嘉宁
问:如何实现数据的探查
答:数据探查功能可以帮您分析当前数据的质量、结构、分布和统计信息,帮助数据分析完成数据的预览、探查、加工、分析和可视化。数据探查通过列分析的方法,探查每列数据的类型和值的分布。您可以选中需要分析的数据,单击菜单栏中的数据探查,即可在电子表格顶部,以图形和富文本的形式,为您展示每列数据的类型、值分布的概览情况。数据探查简单模式的说明如下:针对STRING和DATE类型:以富文本的形式为您展示Top2的值及其占比,同时展示其它值的占比。如果值的种类超过50%,则为您展示唯一值的总数。针对INTEGER和FLOAT类型:以分箱柱状图的形式,为您展示其数据范围的分布情况。针对BOOLEAN:以饼图的形式为您展示数据的占比。针对混合型(探查数据包括两种及以上类型):以饼图的形式为您展示各值类型的占比。提醒您当前列存在脏数据,如果脏数据已被清洗,则根据上述三种情况为您展示值的分布。针对空值null:将空值null的占比标红展示。单击右上方的详细模式,您可以在详细模式对话框中,查看每列数据的字段名称、字段类型、字段中文名、字段描述和安全等级等探查结果。数据探查详细模式的说明如下:针对STRING和DATE类型:为您展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。针对INTEGER和FLOAT类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5、统计信息和直方图。针对BOOLEAN类型:为您展示基本信息(字段个数、唯一值、零值、空值率等)、重复值Top5和饼图分布。说明 其中字符串类型中的true和false、数字类型中的0和1会被识别为BOOLEAN类型。
https://help.aliyun.com/document_detail/119774.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
在DataWorks中,可以通过以下步骤实现数据的探查:
DataWorks是阿里云提供的一款大数据开发和运维平台,可以用于数据的整理、清洗、分析和可视化等工作。在DataWorks中,有多种方式可以实现数据的探查:
数据预览:DataWorks提供了数据预览功能,可以直接在界面上查看数据的前几行或随机采样的数据。这对于快速了解数据的结构、格式和内容非常有帮助。
数据开发:通过DataWorks的数据开发模块,用户可以使用SQL、Python或其他编程语言编写数据处理逻辑。在开发过程中,可以通过打印输出、日志记录等方式来观察数据的中间结果,以便进行探查和调试。
可视化组件:DataWorks提供了丰富的可视化组件,如图表、仪表盘等,可以将数据以图形化的方式展示出来。用户可以通过配置和定制这些组件,实时查看和分析数据的各种指标和趋势。
SQL查询和分析:DataWorks支持使用SQL进行数据查询和分析。用户可以通过编写SQL语句,对数据进行各种复杂的查询、聚合、筛选和排序操作,从而深入挖掘和理解数据的特征和关系。
数据挖掘工具集成:DataWorks可以与其他数据挖掘工具集成,如MaxCompute、Hadoop、Spark等。通过这些工具的强大功能和算法,可以进行更深入的数据探索和分析,挖掘出隐藏在数据中的有价值的信息。
需要注意的是,数据探查不仅仅是单一的一项任务,而是一个持续的过程。在实际应用中,用户可以结合以上提到的方法,并根据具体需求和场景使用适当的工具和技术来实现对数据的探查。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。