备案控制台登录注册

开发者社区人工智能文章正文

算法金 | 统计学的回归和机器学习中的回归有什么差别？

2024-06-22 108 发布于上海

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： **摘要：**统计学回归重在解释，使用线性模型分析小数据集，强调假设检验与解释性。机器学习回归目标预测，处理大数据集，模型复杂多样，关注泛化能力和预测误差。两者在假设、模型、数据量和评估标准上有显著差异，分别适用于解释性研究和预测任务。

\

大侠幸会，在下全网同名「算法金」 0 基础转 AI 上岸，多个算法赛 Top 「日更万日，让更多人享受智能乐趣」

统计学中的回归

目标：

主要用于解释和推断自变量（independent variables）和因变量（dependent variables）之间的关系。
强调模型的解释性，了解各个自变量对因变量的影响。
假设：
假设数据符合特定统计假设，如正态分布、独立性和同方差性。
需要满足严格的模型假设。
模型复杂性：
通常使用简单模型，如线性回归。
模型形式固定，主要是线性或加性模型。
数据量：
通常处理较小的数据集。
评估方法：
强调参数的显著性检验（significance tests）。
使用 R 平方（(R^2)）和 P 值（P-value）等统计指标。

机器学习中的回归

目标：

主要用于预测，关注模型的预测性能。
更关注模型的泛化能力（generalization ability），即在新数据上的表现。
假设：
对数据分布和模型形式的假设较少。
灵活性更大，不需要满足严格的统计假设。
模型复杂性：
使用复杂模型，如决策树回归（decision tree regression）、随机森林回归（random forest regression）、支持向量回归（support vector regression）和神经网络（neural networks）等。
模型可以是非线性的，适应复杂数据模式。
数据量：
通常处理大规模的数据集。
评估方法：
使用交叉验证（cross-validation）等方法评估模型性能。
强调预测误差，如均方误差（Mean Squared Error, MSE）和均绝对误差（Mean Absolute Error, MAE）。

总结

统计学中的回归：用于解释和推断变量之间的关系，假设严格，模型简单，适用于小数据集。重点在于理解数据和变量关系，模型解释性强。
机器学习中的回归：用于预测和优化，假设少，模型复杂，适用于大数据集。重点在于提高模型的预测性能，模型灵活性高。

图示解释

统计学中的线性回归：

图示：数据点分布在图上，一条直线（回归线）穿过数据点，显示自变量与因变量之间的线性关系。
解读：这条直线表示最小二乘法（Least Squares Method）拟合出的最佳线性关系，用于解释 (X) 和 (Y) 之间的关系。
机器学习中的非线性回归：
图示：数据点分布在图上，一条曲线穿过数据点，显示自变量与因变量之间的复杂非线性关系。
解读：这条曲线可能是通过复杂模型（如决策树、神经网络）拟合出的，显示出自变量和因变量之间更复杂的模式和关系。

这两者的差别主要体现在模型的目标、假设、复杂性、数据量和评估方法上，各有其应用场景和优势。

统计学中的回归主要强调模型的解释性和简洁性，因此通常采用简单的线性模型。下面是一些具体原因：

假设和解释性

解释性：

统计学中的回归模型强调解释变量对因变量的影响。
线性回归模型的系数具有明确的解释意义，可以直接说明每个自变量对因变量的线性贡献。
简洁性：
线性模型较为简单，易于理解和解释。
在变量关系相对简单的情况下，线性模型能有效地捕捉主要趋势。
假设检验：
统计学中的回归依赖于一定的假设，如正态分布、独立性和同方差性。
这些假设在简单的线性模型中更容易满足和检验。

数据量和计算复杂度

数据量：

统计学方法通常用于较小的数据集。
简单模型在小数据集上表现更好，因为复杂模型容易过拟合。
计算复杂度：
线性回归计算简单，适用于快速分析和建模。
非线性模型（如决策树）计算复杂度较高，训练和预测时间更长。

过拟合和泛化能力

过拟合：

复杂模型（如右图的决策树回归）容易过拟合，即在训练数据上表现很好，但在新数据上表现不佳。
线性模型的简单性有助于避免过拟合，提升模型的泛化能力。

应用场景

应用场景：

统计学中的回归主要用于变量关系的探索和解释，如社会科学和经济学研究。
在这些领域，理解变量间的关系和影响是主要目标，而不是追求复杂模型的预测性能。

图示解读

统计学中的线性回归（左图）：

适用于数据关系较简单、主要目标是解释和推断的场景。
线性回归线展示了自变量和因变量之间的线性关系，便于解释。
机器学习中的决策树回归（右图）：
适用于数据关系复杂、主要目标是预测和优化的场景。
决策树回归曲线展示了自变量和因变量之间的复杂非线性关系，但解释性较差。

[ 抱个拳，总个结 ]

统计学中的回归更关注模型的简洁性和解释性，适用于变量关系较为简单、数据量较小的场景。因此，通常采用线性回归模型。而机器学习中的回归更多用于预测复杂关系，模型复杂性更高，适用于大数据集和需要高预测性能的应用。- 科研为国分忧，创新与民造福 -

日更时间紧任务急，难免有疏漏之处，还请大侠海涵内容仅供学习交流之用，部分素材来自网络，侵联删

[ 算法金，碎碎念 ]

全网同名，日更万日，让更多人享受智能乐趣

如果觉得内容有价值，烦请大侠多多分享、在看、点赞，助力算法金又猛又持久、很黄很 BL 的日更下去；

同时邀请大侠关注、星标算法金，围观日更万日，助你功力大增、笑傲江湖

文章标签：

机器学习/深度学习

算法

大数据

人工智能

关键词：

算法机器学习

算法人工智能平台 PAI

人工智能平台 PAI统计学

统计学人工智能平台 PAI

王金珍

+关注

目录

打赏

0

8

8

0

44

相关文章

龙大吉

|

4月前

|

机器学习/深度学习算法数据挖掘

K-means聚类算法是机器学习中常用的一种聚类方法，通过将数据集划分为K个簇来简化数据结构

K-means聚类算法是机器学习中常用的一种聚类方法，通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理，包括初始化、数据点分配与簇中心更新等步骤，以及如何在Python中实现该算法，最后讨论了其优缺点及应用场景。

龙大吉

212 6 6

简简单单做算法

|

6天前

|

机器学习/深度学习算法数据安全/隐私保护

基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络

本项目展示了人脸识别算法的运行效果（无水印），基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络（GRNN）、概率神经网络（PNN）、深度神经网络（DNN）和反向传播（BP）神经网络在人脸识别中的应用，涵盖各算法的结构特点与性能比较。

简简单单做算法

25 9 9

技术小达人

|

3天前

|

人工智能编解码算法

使用 PAI-DSW x Free Prompt Editing图像编辑算法，开发个人AIGC绘图小助理

使用 PAI-DSW x Free Prompt Editing图像编辑算法，开发个人AIGC绘图小助理

技术小达人

12 0 0

Echo_Wish

|

2月前

|

机器学习/深度学习人工智能算法

机器学习算法的优化与改进：提升模型性能的策略与方法

机器学习算法的优化与改进：提升模型性能的策略与方法

Echo_Wish

364 13 13

机器学习算法的优化与改进：提升模型性能的策略与方法

平凡程序猿~

|

14天前

|

机器学习/深度学习人工智能自然语言处理

解锁机器学习的新维度：元学习的算法与应用探秘

元学习作为一个重要的研究领域，正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法，研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入，元学习有望在人工智能的未来发展中发挥更大的作用。

平凡程序猿~

32 0 0

楠竹11

|

2月前

|

机器学习/深度学习算法网络安全

CCS 2024：如何严格衡量机器学习算法的隐私泄露？ ETH有了新发现

在2024年CCS会议上，苏黎世联邦理工学院的研究人员提出，当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施（HAMP、RelaxLoss、SELENA、DFKD和SSL），发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳，而强大的差分隐私基线则提供了更好的隐私-效用权衡。

楠竹11

59 14 15

pai_rec_coder

|

3月前

|

算法

PAI下面的gbdt、xgboost、ps-smart 算法如何优化？

设置gbdt 、xgboost等算法的样本和特征的采样率

pai_rec_coder

115 2 2

龙大吉

|

4月前

|

机器学习/深度学习算法数据挖掘

C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性，适合开发高性能的机器学习算法，尤其在底层算法实现、嵌入式系统和高性能计算中表现突出

本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性，适合开发高性能的机器学习算法，尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用，以及与Python等语言结合使用的案例，展望了其未来发展的挑战与机遇。

龙大吉

86 1 1

花开花落的世界

|

4月前

|

机器学习/深度学习自然语言处理算法

深入理解机器学习算法：从线性回归到神经网络

深入理解机器学习算法：从线性回归到神经网络

花开花落的世界

112 2 2

G0518

|

4月前

|

机器学习/深度学习算法

深入探索机器学习中的决策树算法

深入探索机器学习中的决策树算法

G0518

66 0 0

热门文章

最新文章

DeepSeek加持的通义灵码2.0 AI程序员实战案例：助力嵌入式开发中的算法生成革新

接入DeepSeek需要做算法备案吗？一文读懂算法备案的那些事儿

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证

算法系列之分治算法

C 408—《数据结构》算法题基础篇—链表（上）

【算法合规新时代】企业如何把握“清朗·网络平台算法典型问题治理”专项行动？

单纯接入第三方模型就无需算法备案了么？

C 408—《数据结构》算法题基础篇—链表（下）

算法系列之搜索算法-深度优先搜索DFS

又又又上新啦！魔搭免费模型推理API支持DeepSeek-R1，Qwen2.5-VL，Flux.1 dev及Lora等

R1类模型推理能力评测手把手实战

使用 PAI-DSW x Free Prompt Editing图像编辑算法，开发个人AIGC绘图小助理

阿里云PAI发布DeepRec Extension，打造稳定高效的分布式训练，并宣布开源！

基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成（RAG）系统

大数据分析中的机器学习基础：从原理到实践

容器化机器学习流水线：构建可复用的AI工作流

阿里万相重磅开源，人工智能平台PAI一键部署教程来啦

MME-CoT：多模态模型推理能力终极评测！六大领域细粒度评估，港中大等机构联合推出

基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络

相关课程

更多

场景实践 - 机器学习PAI实现精细化营销

场景实践 - 基于阿里云PAI机器学习平台使用时间序列分解模型预测商品销量

场景实践 - 基于机器学习进行收入预测分析

机器学习概览及常见算法

机器学习入门-概念原理及常用算法

神经网络概览及算法详解

相关电子书

更多

机器学习在恶意样本检测方面的实践之路

大规模机器学习在蚂蚁+阿里的应用

阿里巴巴机器学习平台AI

相关实验场景

更多

在PAI ArtLab一键设计AIGC新春红包

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

在PAI ArtLab一键实现欧洲杯粉丝专属贴纸制作

使用PAI-快速开始，低代码实现大语言模型微调和部署

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

使用Swing算法实现商品推荐

下一篇

通义万相：视觉生成大模型再进化

目录

目录

你好，我是AI助理

可以解答问题、推荐解决方案等