本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,小结,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
小结
探索性数据分析几乎是所有类型的数据挖掘项目都要执行的一项重要操作。解读分布、分布的形状和分布的重要参数是相当重要的。提前的假设检验可帮助我们更好地理解数据。不仅是分布及其性质,不同变量之间的关系也很重要。所以本章介绍了不同变量之间的二元和多元关系以及如何理解这些关系。诸如t检验、F检验、z检验和无参数检验等经典统计检验都是检验假设的重要方法。检验假设本身对于从数据集中得出结论和洞见也很重要。
本章我们介绍了多种统计检验和它们的用法、说明以及可以使用这些检验的场景。在实施探索性数据分析之后,下一章将介绍一些数据可视化方法来使读者对数据有个全方位的了解。有时,图形化的描述是最简单的数据展示方法。下一章将使用不同库中的一些内置数据集来创建直观的可视化。