《大数据架构和算法实现之路:电商系统的技术实战》——第3章 方案设计和技术选型:因变量连续的回归分析 3.1 线性回归的基本概念

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自华章计算机《大数据架构和算法实现之路:电商系统的技术实战》一书中的第3章,第3.1节,作者 黄 申,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章

方案设计和技术选型:

因变量连续的回归分析

利用分类和聚类技术解决了前面两个问题之后,本章最终要关注小丽提出的第三大需求:在合理的范围内预测商品的销售转化率。“这项任务看上去不可能完成啊!”大宝不禁感叹道。“大宝,你说的有道理。销售和证券市场类似,影响其变化的因素实在是太多了。不过,我们可以大胆假设一点:历史总是惊人的相似。遵循一定的科学方法,在某些场景下根据先前的数据进行尝试,也许能发现未来的一些规律。今天,我们就来讲述另一个重要的机器学习方法:因变量连续的回归分析。”

3.1 线性回归的基本概念

本章之前阐述的分类问题会根据某个样本中的一系列特征输入,最后判定其应该属于哪个分类,然后预测出一个离散的分类标签。现实中,除了分类还面临着一种问题,如何根据一系列的特征输入,给出连续的预测值?例如这里所说的,电子商务网站根据销售的历史数据,预估新商品在未来的销售情况,就是一种典型的应用场景。如果只是预估卖得“好”还是“不好”,粒度明显太粗,不利于商品的排序,如果预估值是其转化率或绝对销量,那就相对比较合理了。再次回到水果的案例,重新假想一个场景,我们邀请的果农都是久经沙场的老将,对于水果稍加评估就能预测有百分之多少的概率能卖出去。再将1000颗水果放入一个黑箱中,每次随机摸出一颗,这次我们不再让果农判断它是属于苹果、甜橙还是西瓜,而是让他们根据水果的外观、分量等因素预估其卖出去的可能性是多少,可能性是0%到100%之间的任何一个实数值。这就是最基本的因变量连续回归分析。

因变量连续回归的训练和测试流程及分类大体相当,不过采用的具体技术会有所不同,它采用的是研究一个或多个随机变量y1, y2, ..., yi与另一些变量x1, x2, ..., xk之间关系的统计方法,又称多重回归分析。我们将y1, y2, ..., yi称为因变量,x1, x2, ..., xk称为自变量。通常情况下,因变量的值可以分解为两部分:一部分是来自于自变量的影响,即表示为自变量相关的函数,其中函数的形式是已知的,可能是线性函数也可能是非线性函数,但含有一些未知参数;另一部分是来自于其他未被考虑的因素和随机性的影响,即随机误差。

  • 回归按照不同的维度可以分如下为几种。
  • 按照自变量数量:当自变量x的个数大于1时称为多元回归。
  • 按照因变量数量:当因变量y的个数大于1时称为多重回归。
  • 按照模型:如果因变量和自变量为线性关系,就称为线性回归模型;如果因变量和自变量为非线性关系,则称为非线性回归分析模型。举个例子,最简单的情形是一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y = a + bX + ε,这里X是自变量,Y是因变量,ε是随机误差,通常假定随机误差的均值为0。

假设此处的水果案例中,每个水果都有6个特征维度,包括形状、颜色、重量等。这六维就是自变量,最终卖出的概率是一重因变量。通过六元自变量预测最终卖出概率的这个因变量,称为六元一重回归分析。至于是否线性回归,则需要看训练过程中,线性回归模型是否能很好地拟合学习样本,使得随机误差足够小。如果不能,那就需要尝试非线性的回归模型。图3-1展示了二维空间里的拟合程度,图中离散的点是训练数据实例,直线是回归学习后确定的拟合线。从左侧可以看出,实例点和学习的直线非常接近,误差比较小。而右侧却相反,实例点和学习得出的直线距离都比较远。这种情况下我们认为左侧的拟合度要好于右侧,而且左侧学习得出的函数参数更可信。而右侧可能需要考虑换成其他非线性的回归函数。


screenshot

假设在水果的案例中我们足够幸运,最基本的线形回归效果很好,获得了如下的预测函数:

screenshot

那么,在预测的时候,我们将新的数据对象的各个维度特征值带入上述公式,那么就可以得到预估的转化率。不过在现实的数据中,情况往往比较复杂。对此,我们还可以进行相关性分析,用于确定如下关系。

  • 每个自变量和因变量之间的关系,初步估计对于最终预测而言,是比较重要的因素。
  • 不同自变量之间的关系,发现可能冗余的因素。

常见的相关系数是皮尔森(Pearson)系数,它是用来反映两个变量线性相关程度的统计量。取值范围在[-1, 1],绝对值越大,说明相关性越高,负数表示负相关。图3-2表示了正相关和负相关的含义。左侧X曲线和Y曲线有非常近似的变化趋势,当X上升Y往往也是上升的,X下降Y往往也下降,这就表示两者有较强的正相关性。右侧X和Y两者的变化趋势正好相反,当X上升的时候,Y往往是下降的,X下降的时候,Y往往是上升的,这就表示两者有较强的负相关性。


screenshot

皮尔森系数没有考虑重叠数对结果的影响。计算公式如下:

screenshot

其中n表示向量维度,xi和yi分别为两个向量在第i维的数值。和分别表示两个向量维度值序列的均值,sX和sY分别表示两个向量维度值序列的标准差。

由于这些回归分析的理论不容易理解,我们将直接使用R中的工具开展深入的分析,同时进行相关的讲解。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
19天前
|
机器学习/深度学习 算法 数据可视化
近端策略优化算法PPO的核心概念和PyTorch实现详解
本文深入解析了近端策略优化(PPO)算法的核心原理,并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程,涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合,适合希望掌握PPO算法及其实现的读者。
203 2
近端策略优化算法PPO的核心概念和PyTorch实现详解
|
6月前
|
监控 Java Nacos
阿里二面:10亿级分库分表,如何丝滑扩容、如何双写灰度?阿里P8方案+ 架构图,看完直接上offer!
阿里二面:10亿级分库分表,如何丝滑扩容、如何双写灰度?阿里P8方案+ 架构图,看完直接上offer!
阿里二面:10亿级分库分表,如何丝滑扩容、如何双写灰度?阿里P8方案+ 架构图,看完直接上offer!
|
10月前
|
存储 SQL 关系型数据库
Mysql高可用架构方案
本文阐述了Mysql高可用架构方案,介绍了 主从模式,MHA模式,MMM模式,MGR模式 方案的实现方式,没有哪个方案是完美的,开发人员在选择何种方案应用到项目中也没有标准答案,合适的才是最好的。
787 3
Mysql高可用架构方案
|
10月前
|
算法 数据处理 C语言
C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合
本文深入解析了C语言中的位运算技巧,涵盖基本概念、应用场景、实用技巧及示例代码,并讨论了位运算的性能优势及其与其他数据结构和算法的结合,旨在帮助读者掌握这一高效的数据处理方法。
352 1
|
11月前
|
存储 算法
数据结构与算法学习二二:图的学习、图的概念、图的深度和广度优先遍历
这篇文章详细介绍了图的概念、表示方式以及深度优先遍历和广度优先遍历的算法实现。
180 1
数据结构与算法学习二二:图的学习、图的概念、图的深度和广度优先遍历
|
5月前
|
数据采集 数据可视化 数据挖掘
基于Python的App流量大数据分析与可视化方案
基于Python的App流量大数据分析与可视化方案
|
7月前
|
弹性计算 负载均衡 Java
【上云基础系列 02-01】通过SLB+1台ECS+ESS弹性伸缩,搭建一个精简版的上云标准弹性架构(含方案及教程)
通常,构建一个弹性架构(即使是一个最基础的入门版),至少需要2台ECS。但是,很多小微企业刚开始上云的时候,为了节省成本不愿意购买更多的服务器。通过 “ALB+ESS弹性伸缩+1台ECS+RDS”方案,在保障低成本的同时,也不牺牲业务架构的弹性设计,更避免了很多人因为节省成本选择了单体架构后频繁改造架构的困局。 方案中的几个设计非常值得小微企业借鉴:(1)通过ALB/RDS的按量付费,节省了初期流量不大时的费用;(2)通过ESS弹性伸缩,不需要提前购买服务器资源,但是当业务增长或减少时却保持了资源弹性自动扩缩容。
|
7月前
|
存储 人工智能 并行计算
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
|
9月前
|
决策智能 数据库 开发者
使用Qwen2.5+SpringBoot+SpringAI+SpringWebFlux的基于意图识别的多智能体架构方案
本项目旨在解决智能体的“超级入口”问题,通过开发基于意图识别的多智能体框架,实现用户通过单一交互入口使用所有智能体。项目依托阿里开源的Qwen2.5大模型,利用其强大的FunctionCall能力,精准识别用户意图并调用相应智能体。 核心功能包括: - 意图识别:基于Qwen2.5的大模型方法调用能力,准确识别用户意图。 - 业务调用中心:解耦框架与业务逻辑,集中处理业务方法调用,提升系统灵活性。 - 会话管理:支持连续对话,保存用户会话历史,确保上下文连贯性。 - 流式返回:支持打字机效果的流式返回,增强用户体验。 感谢Qwen2.5系列大模型的支持,使项目得以顺利实施。
2660 8
使用Qwen2.5+SpringBoot+SpringAI+SpringWebFlux的基于意图识别的多智能体架构方案
|
8月前
|
存储 分布式计算 Hadoop
MPP 架构与 Hadoop 架构技术选型指南
MPP架构与Hadoop架构是处理海量数据的两大选择。MPP通过大规模并行处理实现快速查询响应,适用于企业级数据仓库和OLAP应用;Hadoop则以分布式存储和计算为核心,擅长处理非结构化数据和大数据分析。两者各有优劣,MPP适合结构化数据和高性能需求场景,而Hadoop在扩展性和容错性上表现更佳。选择时需综合考虑业务需求、预算和技术能力。
755 14

热门文章

最新文章