《R语言数据挖掘》----1.8 统计学

简介:

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章,第1.8节,作者[哈萨克斯坦]贝特·麦克哈贝尔(Bater Makhabel),李洪成 许金炜 段力辉 译,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.8 统计学

统计学研究数据收集、数据分析、数据解释或说明,以及数据表示。作为数据挖掘的基础,它们的关系将在下面章节中说明。

1.8.1 统计学与数据挖掘

第一次使用数据挖掘这个术语的人是统计学家。最初,数据挖掘是一个贬义词,指的是企图提取得不到数据支持的信息。在一定程度上,数据挖掘构建统计模型,这是一个基础分布,用于可视化数据。

数据挖掘与统计学有着内在的联系,数据挖掘的数学基础之一就是统计学,而且很多统计模型都应用于数据挖掘中。

统计模型可以用来总结数据集合,也可以用于验证数据挖掘结果。

1.8.2 统计学与机器学习

随着统计学和机器学习的发展,这两个学科成为一个统一体。统计检验被用来验证机器学习模型和评估机器学习算法,机器学习技术与标准统计技术可以有机结合。

1.8.3 统计学与R语言

R是一种统计编程语言,它提供大量基于统计知识的统计函数。许多R语言添加包的贡献者来自统计学领域,并在他们的研究中使用R语言。

1.8.4 数据挖掘中统计学的局限性

在数据挖掘技术的演变过程中,由于数据挖掘中统计的局限性,人们在试图提取并不真正存在于数据中的信息时可能会犯错误。

Bonferroni原则(Bonferroni’s Principle)是一个统计定理,也被称为Bonferroni校正(Bonferroni correction)。你可以假设你找到的大部分结果都是事实上不存在的,即算法返回的结果大大超过了所假设的范围。

相关文章
|
6月前
|
数据采集 机器学习/深度学习 算法
R语言数据挖掘:从“挖井”到“淘金”
R语言数据挖掘:从“挖井”到“淘金”
143 9
|
机器学习/深度学习 数据采集 数据可视化
R语言在统计学中的深度应用
【5月更文挑战第6天】R语言在统计学中扮演重要角色,适用于数据导入处理、描述统计、假设检验、回归分析及可视化。例如,可读取CSV文件、计算描述性统计量、执行t检验、拟合线性回归模型及创建图表。其强大功能使R成为数据科学家和统计学家的理想工具。
|
数据可视化 vr&ar
R语言统计学DOE实验设计:用平衡不完全区组设计(BIBD)分析纸飞机飞行时间实验数据
R语言统计学DOE实验设计:用平衡不完全区组设计(BIBD)分析纸飞机飞行时间实验数据
|
SQL 数据可视化 算法
R语言公交地铁路线进出站数据挖掘网络图可视化
R语言公交地铁路线进出站数据挖掘网络图可视化
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
数据可视化 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(下)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
数据可视化 算法 数据挖掘
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分(上)
数据分享|R语言IMDb TOP250电影特征数据挖掘可视化分析受众偏好、排名、投票、评分
|
数据可视化 数据挖掘 文件存储
应用统计学与R语言实现笔记(番外篇三)——缺失值的相关系数分析
昨天刚好有位同学来咨询R语言里计算相关系数的一些问题,所以来谈谈关于缺失值的相关系数分析问题,主要是在R语言中如何处理含缺失值数据的相关系数分析。
1571 0
应用统计学与R语言实现学习笔记(六)——假设检验
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71420125 Chapter 6 Hypothesis Test 本篇是第6章,内容是假设检验。
1473 0
|
机器学习/深度学习 人工智能 算法
AI:几张图理清人工智能与机器学习、知识发现、数据挖掘、统计学、模式识别、神经计算学、数据库之间的暧昧关系
AI:几张图理清人工智能与机器学习、知识发现、数据挖掘、统计学、模式识别、神经计算学、数据库之间的暧昧关系
AI:几张图理清人工智能与机器学习、知识发现、数据挖掘、统计学、模式识别、神经计算学、数据库之间的暧昧关系