一文解析统计学在机器学习中的重要性

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

统计是一组工具,您可以使用这些工具来探求数据方面的重要问题。

您可以使用描述性统计方法将原始观测数据转换为您可以理解和共享的信息,也可以使用推断统计方法,通过数据的小样本对整个域进行推理。

在这篇文章中,您将明晰为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法。

本文中您将了解到:

统计通常被认为是应用机器学习领域的先决条件。
我们需要利用统计将观测结果转化为信息,并回答有关观测样本的问题。
统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

那我们开始吧!

统计是必备的先决条件

机器学习和统计是两个密切相关的研究领域,统计学家把机器学习称为“应用统计”或“统计学习”,而不是以计算机科学为主来命名。

对于初学者而言,机器学习的前提是他应具备一定的统计学背景。我们可以用挑选樱桃的例子来做个解释。

请先看一本流行的实用机器学习书《应用预测建模》中的一句话:

”读者应掌握一些基本统计知识,包括方差、相关、简单线性回归和基本假设检验(如p值和检验统计)“
——《应用预测建模》
2013年 第7页

流行书籍《统计学习入门》中也有这样的例子:

”我们期望读者至少有一门统计学基础课程。“
——《统计学习介绍及其
在R语言中的应用》
2013年 第9页

即使统计学不是先决条件,但还是需要一些简单的先导知识,正如广为人知的《编程集体智慧》一书的引语所言:

“这本书并不认为你事先就知道[…]或统计学[…] 但是,掌握一些三角学和基本统计知识将有助于你理解算法。”
——《编程集体智慧:构建
智能Web 2.0应用程序》
2007年 第13页

为了能够更好地理解机器学习,需要对统计学有一些基本的概念。

欲知其中缘由,我们首先必须明白为何要了解统计学领域的知识。

为什么要学统计学?

单独的原始观察数据只是数据,它们还不是信息或知识。

有了原始数据,那么接下来的问题是:

什么是最常见或可预期的观测?
观测的限制条件是什么?
数据是什么样子的?

虽然这些问题看起来很简单,但必须回答这些问题,才能将原始观察的数据转化为我们可以使用和分享的信息。

除了原始数据,我们还可以设计实验来采集观测数据。根据这些实验结果,我们可能获得更为复杂的问题,例如:

哪些变量是最相关的?
两个实验的结果有什么不同?
数据中的差异是真实的还是噪声的结果?

这类问题很重要,其结果对项目、利益相关者和有效决策都很重要。

我们需要用统计方法来找到数据问题的答案。

这样看来,我们需要利用统计方法,不但用它来了解用于训练机器学习模型的数据,而且用它来解释测试不同机器学习模型的结果。

这只是冰山一角,因为预测建模项目的每一步都需要用到统计方法。

什么是统计学?

统计学是数学的一个子领域。

它指的是处理数据和使用数据回答问题的方法集合。

统计学是对疑难问题进行数值猜想的艺术。[…]这些方法是几百年来由那些为自己的问题寻找答案的人开发出来的。
——《统计》第四版
2007年 第13页

由于该领域采用抓斗袋的方法来处理数据,对于初学者来说,它可能看起来大而无形。统计方法和其他研究领域的方法之间很难区分开来。通常,一种技术既可以是一种经典的统计方法,也可以是一种用于特征选择或建模的现代算法。

虽然统计知识并非没有深奥的理论知识,但从统计与概率的关系中得出的一些重要、容易理解的定理,可以提供有价值的理论基础。

举两个例子:大数定律和中心极限定理。

第一个可以帮助我们理解为什么较大的样本往往更好,第二个定理为我们比较样本之间的期望值(例如:平均值)提供基础。

当涉及我们在实践中使用的统计工具时,可以将统计领域分为两大类:

描述性统计用于总结数据
推理统计用于从数据样本中得出结论

"统计数据使研究人员能够从大量的采集到的信息或数据,从中总结出典型的经验。[…]统计数据也用导出关于群体间普遍差异的结论。[…]统计数据也可以用来判断两个变量的得分是否相关,并进行预测。"
——《统计概述》 第三版
2010年 第9—10页

描述统计(学)

描述性统计是指将观察到的原始数据汇总成我们可以理解和共享的信息的方法。

通常,我们认为描述性统计是对数据样本统计值的计算,以便总结数据样本的属性,例如共同的期望值(例如平均值或中值)和数据的价差(例如方差或标准偏差)。

描述性统计还涵盖利用图形方法对数据样本进行可视化。图表和图形可以提供对观测的形状或分布以及变量的相关做出定性理解。

推断统计

推断统计是一个有意思的名称,它是通过从一组较小的被称为样本的观察数据进行量化从而提炼出域或总体属性的方法。

通常,我们认为推断统计是从总体分布中估计出特征值,如期望值或价差的估计等等。

可以利用复杂的统计推断工具来量化给定观测数据样本的概率。这些工具通常被称为统计假设检验工具,其中检验的基本假设称为零假设。

有许多推断统计方法的例子,为增加测试数据的正确性,我们可以对假设的范围做出限定。

延展阅读

如果您想深入研究,本节将提供更多关于该主题的资源。

书籍
《应用预测建模》,2013年
《R语言应用程序统计学习导论》,2013年
《编程集智能:构建智能Web 2.0应用程序》,2007年
《统计》,第四版,2007年
《统计:统计推断的简明课程》,2004年
《简明统计》,第三版,2010年。

文章
维基百科上的统计
门户:维基百科上的统计
维基百科上的统计文章列表
维基百科上的数理统计
维基百科上的统计历史
维基百科的描述性统计
对维基百科的统计推断

总结

在这篇文章中,您已明晰为什么统计在机器学习中如此重要,对于机器学习,统计提供了许多通用且可行的方法。

具体而言,总结如下:

统计通常被认为是机器学习领域的先决条件。
我们需要统计数据来将观测结果转化为信息,并回答有关观测样本的问题。
统计是数百年来开发的一组工具,用于汇总数据和量化给定观测样本的域的属性。

原文发布时间为:2018-07-18
本文作者:Jason Brownlee
本文来自云栖社区合作伙伴“数据派THU”,了解相关信息可以关注“数据派THU

相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
R语言中的机器学习库:caret与mlr的深度解析
【9月更文挑战第2天】Caret和mlr是R语言中两个非常重要的机器学习库,它们在数据预处理、模型构建、调优和评估等方面提供了丰富的功能。Caret以其易用性和集成性著称,适合初学者和快速原型开发;而mlr则以其全面性和可扩展性见长,适合处理复杂的机器学习项目。在实际应用中,用户可以根据具体需求和项目特点选择合适的库进行开发。无论是学术研究、商业智能还是教育场景,这两个库都能为数据科学家和机器学习爱好者提供强大的支持。
|
22小时前
|
机器学习/深度学习 人工智能 算法
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
|
2月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
120 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
2月前
|
机器学习/深度学习 算法 Python
深度解析机器学习中过拟合与欠拟合现象:理解模型偏差背后的原因及其解决方案,附带Python示例代码助你轻松掌握平衡技巧
【10月更文挑战第10天】机器学习模型旨在从数据中学习规律并预测新数据。训练过程中常遇过拟合和欠拟合问题。过拟合指模型在训练集上表现优异但泛化能力差,欠拟合则指模型未能充分学习数据规律,两者均影响模型效果。解决方法包括正则化、增加训练数据和特征选择等。示例代码展示了如何使用Python和Scikit-learn进行线性回归建模,并观察不同情况下的表现。
429 3
|
2月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
91 2
|
3月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
346 1
|
4月前
|
图形学 机器学习/深度学习 人工智能
颠覆传统游戏开发,解锁未来娱乐新纪元:深度解析如何运用Unity引擎结合机器学习技术,打造具备自我进化能力的智能游戏角色,彻底改变你的游戏体验——从基础设置到高级应用全面指南
【8月更文挑战第31天】本文探讨了如何在Unity中利用机器学习增强游戏智能。作为领先的游戏开发引擎,Unity通过ML-Agents Toolkit等工具支持AI代理的强化学习训练,使游戏角色能自主学习完成任务。文章提供了一个迷宫游戏示例及其C#脚本,展示了环境观察、动作响应及奖励机制的设计,并介绍了如何设置训练流程。此外,还提到了Unity与其他机器学习框架(如TensorFlow和PyTorch)的集成,以实现更复杂的游戏玩法。通过这些技术,游戏的智能化程度得以显著提升,为玩家带来更丰富的体验。
69 1
|
29天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
67 2
|
2月前
|
缓存 Java 程序员
Map - LinkedHashSet&Map源码解析
Map - LinkedHashSet&Map源码解析
75 0
|
2月前
|
算法 Java 容器
Map - HashSet & HashMap 源码解析
Map - HashSet & HashMap 源码解析
57 0

推荐镜像

更多