【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)

简介: 【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)

一、回归分析

在生活中存在很多相互制约又相互依赖的关系,这些关系主要有确定关系和非确定关系

确定关系指变量之间存在明确的函数关系,如圆的周长与半径之间的关系

非确定关系指各变量之间虽然有制约依赖关系,但无法用确定的函数表达式来表示,如人的血压与体重之间存在密切关系,但无法找到一个能准确表达其关系的函数,变量之间存在的这种非确定性关系,称为相对关系

事实上,有一些确定关系,由于测量误差的影响,也经常表现出某种程度的不确定性

对于不确定的关系,通过大量观测数值,可以发现其中变量间存在的统计规律。通过回归分析,可以表明自变量和因变量之间的显著关系或者表明多个自变量对一个因变量的影响强度

回归问题在形式上与分类问题十分相似,但是在分类问题中预测值y是一个离散变量,它代表通过特征x所预测出来的类别;而在回归问题中,y是一个连续变量

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归

回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系

具体来说,回归分析法指利用数据统计原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测今后因变量变化的分析。回归分析通常用于预测分析,时间序列模型以及发现变量之间的因果关系

设样本集S={s_1,s_2,…,s_m}包含m个样本,样本s_i=(x_i,y_i)包括一个实例x_i和一个实数标签值y_i,实例由n维特征向量表示,即x_i=(x_i^(1),x_i^(2),…,x_i^(n))

在学习过程,基于损失函数最小的思想,学习得到一个模型,该模型是从实例特征向量到实数的映射,用决策函数Y=f(X)来表示,X是定义域,它是所有实例特征向量的集合,Y是值域R

在预测过程,利用学习到的模型来得到未标记样本x的预测值y ̂。回归也称为拟合

有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)

根据因变量和自变量的个数分为一元回归分析、多元回归分析、逻辑回归分析和其他回归分析;根据因变量和自变量的函数表达式分为线性回归分析和非线性回归分析。线性回归是回归分析中最基本的方法。对于非线性回归,可以借助数学手段将其转化为线性回归,一旦线性回归问题得到解决,非线性回归问题也就迎刃而解

常用的回归分析技术有线性回归、逻辑回归、多项式回归和岭回归等

二、回归分析的过程

回归分析可以简单理解为数据分析与预测,通过对数据进行分析实现预测,也就是适当扩大已有自变量的取值范围,并承认该回归方程在扩大的定义域内成立。一般来说,回归分析的主要过程和步骤如下

(1)收集一组包含因变量和自变量的数据

(2)根据因变量和自变量之间的关系,初步设定回归模型

(3)求解合理的回归系数

(4)进行相关性检验,确定相关系数

(5)利用模型对因变量作出预测或解释,并计算预测值的置信区间

相关文章
|
1月前
|
数据采集 存储 NoSQL
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
建筑业数据挖掘:Scala爬虫在大数据分析中的作用
|
1月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
41 0
|
1月前
|
自然语言处理 数据可视化 安全
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,涉及疫情背景下周边游需求图谱分析,包括微信公众号文章分类、周边游产品热度分析、本地旅游图谱构建与分析,以及疫情前后旅游产品需求变化分析的Python实现方法。
47 1
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题一方案及Python实现
|
1月前
|
数据挖掘 调度 Python
【第十届“泰迪杯”数据挖掘挑战赛】B题:电力系统负荷预测分析 Baseline
第十届“泰迪杯”数据挖掘挑战赛B题的基线解决方案,涉及电力系统负荷预测分析,包括数据读取、特征处理、模型训练和评估,以及使用了LightGBM进行回归预测。
54 3
|
1月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
本文总结了2023年第十一届泰迪杯数据挖掘挑战赛A题的新冠疫情防控数据分析,提供了32页和40页的论文以及实现代码,涉及密接者追踪、疫苗接种影响分析、重点场所管控以及疫情趋势研判等多个方面,运用了机器学习算法和SEIR传染病模型等方法。
33 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 32页和40页论文及实现代码
|
1月前
|
机器学习/深度学习 安全 算法
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
本文介绍了2023年第十一届泰迪杯数据挖掘挑战赛A题的解题思路和Python代码实现,涵盖了新冠疫情防控数据的分析、建模方案以及数据治理的具体工作。
41 0
【2023年第十一届泰迪杯数据挖掘挑战赛】A题:新冠疫情防控数据的分析 建模方案及python代码详解
|
1月前
|
存储 数据可视化 数据挖掘
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题三方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于问题三“本地旅游图谱构建与分析”,介绍了基于OTA和UGC数据的旅游产品关联分析方法,使用支持度、置信度、提升度来计算关联度得分,并进行了结果可视化,同时指出了方案的改进方向。
34 1
|
1月前
|
存储 自然语言处理 算法
【第十届“泰迪杯”数据挖掘挑战赛】C题:疫情背景下的周边游需求图谱分析 问题二方案及Python实现
第十届“泰迪杯”数据挖掘挑战赛C题的解决方案,专注于疫情背景下的周边游需求图谱分析,具体针对问题二“周边游产品热度分析”,介绍了从OTA和UGC数据中提取旅游产品、计算产品热度得分、判断产品类型的方法,并给出了Python实现步骤和代码。
35 1
|
1月前
|
数据采集 自然语言处理 数据可视化
基于python数据挖掘在淘宝评价方面的应用与分析,技术包括kmeans聚类及情感分析、LDA主题分析
本文探讨了基于Python数据挖掘技术在淘宝评价分析中的应用,涵盖了数据采集、清洗、预处理、评论词频分析、情感分析、聚类分析以及LDA主题建模和可视化,旨在揭示淘宝客户评价中的潜在模式和情感倾向,为商家和消费者提供决策支持。
|
1月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。

热门文章

最新文章