置信区间与预测区间:数据科学中的不确定性量化技术深度解读

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 本文深入探讨了统计学中两个常见但容易混淆的不确定性量化工具:置信区间和预测区间。

在数据科学实践中,结果的可靠性评估至关重要。准确理解结果的可靠程度能够为决策制定提供有力支持。

当我们能够量化结果的不确定性水平后,可以将其应用于以下方面:

  • 进行场景规划,评估最优和最劣情况
  • 开展风险评估,分析对决策的影响程度
  • 实施模型评估,对比不同模型的性能表现
  • 向决策者阐述结果的可信程度

不确定性的来源分析

考虑一个具体示例:假设我们需要估算300平方米住宅的平均价格。显然收集所有300平方米住宅的数据是不切实际的,我们只能基于具有代表性的样本子集计算平均价格。

这就引出了不确定性的根源:采样过程。我们仅能获取总体的一个子集或样本的信息。由于样本无法完美代表整个总体,样本估计值与真实总体参数之间必然存在偏差,这种偏差即为采样误差。不同的采样方式会导致不同的结果。比如对同一类型住宅进行两次采样,得到的平均价格可能会有所不同。

在预测平均价格时,由于无法获取全部总体数据,只能基于总体的子集构建模型。这导致了采样不确定性的产生,因为无法准确获知平均价格(因变量)与面积(自变量)之间的精确关系。采样过程必然带来不确定性,这种不确定性需要通过科学的方法进行量化。所以可以通过设定一个预期真值所在的区间来实现这一目标。区间范围越窄,表明估计的确定性越高(假设区间具有足够的覆盖率)。

在统计学中,量化不确定性通常使用两个经常被混淆的概念:置信区间预测区间

这两个概念在统计学中具有基础性地位,因此在数据科学领域也有广泛应用。从宏观角度看,它们都为目标变量的估计提供了概率意义上的上下界,形成了量化不确定性的区间。

从更深层次来看,这两个概念描述的是不同的统计特性。因此不应该将它们等同使用。若将置信区间误解为预测区间,可能导致对不确定性的错误认知,进而影响决策的准确性。

本文旨在帮助读者理解这两个概念的区别,将详细讨论置信区间和预测区间各自的度量对象,并据此分析它们的差异及其适用场景。让我们首先探讨使用更为广泛的置信区间。

置信区间

置信区间用于量化从样本集估计总体参数(如均值)时的采样不确定性。它反映了采样参数平均响应的不确定性程度。

仍以房价估算为例。我们需要估计300平方米住宅的平均价格。总体包含该类别的所有住宅。由于无法获取所有住宅的数据,只能收集部分住宅的样本数据。

针对采集的样本,可以通过以下公式计算样本均值的置信区间:

其中:x 表示均值z 表示置信水平对应的标准差倍数(95%置信水平时取1.96,99%置信水平时取2.576)s 表示样本标准差n 表示样本容量

这个过程可以对总体的不同样本重复进行。

置信区间的正确解读

置信水平95%的实际含义是:如果重复进行多次采样过程,约95%的区间会包含真实的总体参数。这里的置信水平描述的是区间构建过程的长期特性,而非针对某个具体区间的特性。这并不意味着真值有95%的概率落在某个特定样本的区间内。这种解释方式体现了频率学派的统计思想。

上图展示了从正态分布中抽取不同样本并计算90%置信区间的情况。红色列表示不包含总体均值的置信区间。

这是一个需要仔细辨别的重要差异:95%的置信水平描述的是区间构建过程的整体特性,而非单个具体区间的性质。

以300平方米住宅为例,假设我们得到的95%置信区间为400,000元到1,000,000元。这意味着如果我们进行大量重复采样,约95%的样本产生的置信区间会包含真实均值。这种表述强调了在重复采样和区间计算过程中捕获真实均值的长期概率特性。

在实际应用中,人们常说"我们有95%的把握认为真实总体均值位于400,000元到1,000,000元之间"。虽然这种表述并不准确(因为它暗示了对特定区间的确定性),但这种表述方式更易于理解,它体现了95%的类似计算区间会包含真实参数这一特性。

置信区间宽度的影响因素

从前述公式可以看出,影响置信区间宽度的主要因素有两个:总体方差和样本容量。

总体方差越大,样本之间的差异就越显著。这会导致样本标准差增大,进而使置信区间变宽。这种现象是合理的,因为更大的变异性意味着采样参数与总体参数的差异可能更大。

较大的样本容量能够降低异常值的影响,同时提高样本的代表性。这使得估计更为可靠从而产生更窄的置信区间。这一点在公式中也得到了体现:随着样本容量增加,分母变大,区间宽度相应减小。相反小样本容量会导致置信区间变宽,这是因为较少的采样提供的信息量较小,且更容易受到采样误差的影响。

预测区间

预测区间用于量化基于特定自变量值和历史数据对未来单个观测值预测的不确定性。它需要同时考虑预期值估计的不确定性和个体值的随机波动。

如果德国300平方米住宅的95%预测区间为400,000元到1,000,000元,这表明任一300平方米住宅的实际价格有95%的概率落在该区间内。

预测区间宽度的影响因素

预测区间的宽度主要受两个因素影响:模型估计的方差和目标变量的方差。与置信区间类似预测区间需要考虑模型估计的变异性。估计的方差越大,不确定性程度越高,预测区间就越宽。

预测区间还需要考虑目标变量本身的方差。目标变量的固有波动性越大,预测区间的宽度也会相应增加。

在理解了这些基本概念后,我们来探讨它们之间的关键差异。

置信区间与预测区间的核心差异

置信区间的特征

  • 用于描述总体参数(如均值或回归系数)的不确定性。(虽然"我们有95%的把握认为总体均值落在这个范围内"这种表述在技术上并不严格准确)
  • 主要关注历史数据和当前状态的分析

预测区间的特征

  • 用于描述具体预测值的不确定性。("我们有95%的把握认为下一个观测值会落在这个范围内")
  • 主要关注对未来状态的预测考虑以下回归分析模型:

其中:y 代表目标变量E[x|y] 代表条件期望响应x 代表特征变量beta_0 代表斜率系数beta_1 代表截距系数epsilon 代表随机误差项

置信区间量化了条件期望值 E[y|x] 估计的采样不确定性。而预测区间则反映了 y 整个取值范围的不确定性,而不仅限于期望值。

上图示说明了置信区间与预测区间的区别:置信区间描述了给定x条件下y均值的不确定性(即 E[y|x]),而预测区间描述了给定x条件下单个y值的不确定性。

还是以房价预测的线性回归模型为例:对于300平方米的住宅,95%置信区间可能是(250,000元,270,000元),而95%预测区间则可能是(220,000元,300,000元)。

可以观察到预测区间明显宽于置信区间并且这是合理的。因为预测区间不仅需要考虑均值估计的不确定性,还要包含单个观测值的随机变异。预测区间反映了单个300平方米住宅价格的波动范围,而置信区间仅反映了该类住宅平均价格的估计精度。

所以如果使用置信区间来表示单个未来观测值的不确定性,可能会导致对预测精度的错误判断。

总结

本文深入探讨了统计学中两个常见但容易混淆的不确定性量化工具:置信区间和预测区间。文章通过详细的理论分析和具体示例,阐明了这两种区间的本质区别:置信区间用于量化总体参数(如均值)估计的不确定性,主要反映采样过程带来的统计不确定性;而预测区间则用于量化单个未来观测值的不确定性,需要同时考虑模型估计和随机变异的双重影响。

这种区别直接导致了预测区间通常比置信区间更宽。理解这两种区间的差异对于正确评估和解释数据分析结果至关重要,能够帮助数据科学从业者在实践中做出更准确的判断和决策。通过准确理解和恰当使用这两种统计工具,我们能够更好地量化和传达分析结果中的不确定性,从而提供更可靠的数据支持。

https://avoid.overfit.cn/post/26d6e057f7f94b159bdef2b7708b7ff0

作者:Jonte Dancker

目录
相关文章
|
2天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
18天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
22天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
13天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
7天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
3684 13
|
25天前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
11天前
|
人工智能 自然语言处理 前端开发
什么?!通义千问也可以在线开发应用了?!
阿里巴巴推出的通义千问,是一个超大规模语言模型,旨在高效处理信息和生成创意内容。它不仅能在创意文案、办公助理、学习助手等领域提供丰富交互体验,还支持定制化解决方案。近日,通义千问推出代码模式,基于Qwen2.5-Coder模型,用户即使不懂编程也能用自然语言生成应用,如个人简历、2048小游戏等。该模式通过预置模板和灵活的自定义选项,极大简化了应用开发过程,助力用户快速实现创意。
|
14天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。
6040 10
|
8天前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
606 4
|
10天前
|
云安全 人工智能 自然语言处理