备案控制台

开发者社区问答正文

如何进行探索性数据分析(EDA)？

如何进行探索性数据分析(EDA)？

展开

收起

珍宝珠 2019-11-13 10:42:18 6611 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

封神

专注在大数据分布式计算、数据库及存储领域，拥有13+年大数据引擎、数据仓库、宽表引擎、平台研发经验，6年云智能大数据产品技术一号位经验，10年技术团队管理经验；云智能技术架构/云布道师；研发阿里历代的大数据技术产品包括ODPS、DLA、ADB，最近五年主导宽表引擎研发、DLA、ADB湖仓研发；

可以使用阿里云数据湖分析服务DLA来做探索性的分析。

2020-03-22 12:06:12

赞同展开评论
珍宝珠

EDA的目的是去挖掘数据的一些重要信息。一般情况下会从粗到细的方式进行EDA探索。一开始我们可以去探索一些全局性的信息。观察一些不平衡的数据，计算一下各个类的方差和均值。看一下前几行数据的信息，包含什么特征等信息。使用Pandas中的df.info()去了解哪些特征是连续的，离散的，它们的类型(int、float、string)。接下来，删除一些不需要的列，这些列就是那些在分析和预测的过程中没有什么用的。

比如：某些列的值很多都是相同的，或者这些列有很多缺失值。当然你也可以去用一些中位数等去填充这些缺失值。然后我们可以去做一些可视化。对于一些类别特征或者值比较少的可以使用条形图。类标和样本数的条形图。找到一些最一般的特征。对一些特征和类别的关系进行可视化去获得一些基本的信息。然后还可以可视化两个特征或三个特征之间的关系，探索特征之间的联系。

你也可以使用PCA去了解哪些特征更加重要。组合特征去探索他们的关系，比如当A=0，B=0的类别是什么，A=1，B=0呢？比较特征的不同值，比如性别特征有男女两个取值，我们可以看下男和女两种取值的样本类标会不会不一样。

另外，除了条形图、散点图等基本的画图方式外，也可以使用PDF\CDF或者覆盖图等。观察一些统计数据比如数据分布、p值等。这些分析后，最后就可以开始建模了。

一开始可以使用一些比较简单的模型比如贝叶斯模型和逻辑斯谛回归模型。如果你发现你的数据是高度非线性的，你可以使用多项式回归、决策树或者SVM等。特征选择则可以基于这些特征在EDA过程中分析的重要性。如果你的数据量很大的话也可以使用神经网络。然后观察ROC曲线、查全率和查准率。

2019-11-13 10:42:36

赞同 1 展开评论

问答分类：

数据挖掘

问答标签：

数据分析eda 数据分析探索性

问答地址：

开发者社区 > 大数据 > 问答

相关问答

阿里云dataworks从SQL查询数据想转换到python进行数据分析，怎么样的操作路径？

178

0

0

咨询一个DataWorks问题，数据分析模块的数据源的安全中心，帮忙看下什么问题？

125

1

0

DataWorks新加入的成员，数据分析模块授权的数据源，新成员看不到，我怀疑和这个时间有关系？

132

3

0

DataWorks数据分析界面运行任务报这个错？

151

2

0

dataworks有时在【数据分析】平台这些sql，手动停止也会失效怎么办？

129

0

0

在DataWorks数据分析里面增加数据目录，是不是在这里的数据目录看不到表清单？

88

1

0

DataWorks数据分析师角色在哪里可以看到授权于我的查询的字段？

146

1

0

DataWorks能连只读实例数据库查询数据做数据分析吗？

114

1

0

DataWorks数据分析里面能一次性显示我所有的表吗？

92

1

0

DataWorks数据分析页面数据上传, 数分可以直接上传创建生产环境的表, 怎么限制这个权限?

125

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

12月冬日咖啡礼｜大模型解决方案邀你来体验

相关文章

企业数据分析系统建设费用多少？高性价比免费 BI 产品推荐

Oracle 窗口函数

RFID医院资产管理新模式

企业智能体定制的公司有哪些

2025年高口碑AI创意视频服务商TOP3推荐

还有其他疑问?