分位数回归+共形预测:Conformalized Quantile Regression实现更可靠的预测区间

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 预测不确定性量化在数据驱动决策中至关重要,分位数回归(QR)虽能生成自适应预测区间,但缺乏严格覆盖保证;共形预测(CP)则提供覆盖保证但缺乏强自适应性。Conformalized Quantile Regression (CQR)融合两者优势,通过校准分位数回归模型,生成既适应数据特性又具备统计保证的预测区间。本文深入探讨CQR理论、实现与应用,展示其在医疗、金融等领域提升预测可靠性的潜力,为高风险决策提供更精确和可信的支持。

预测不确定性量化在数据驱动决策过程中具有关键作用。无论是评估医疗干预的风险概率还是预测金融市场的价格波动范围,我们常需要构建预测区间——即以特定置信度包含目标真值的概率区间。

分位数回归(Quantile Regression, QR)作为一种传统统计方法,长期以来被用于预测此类区间。与常规回归方法建模条件均值不同,QR直接对条件分位数进行建模,例如预测结果的第90百分位数。

然而单纯依赖QR在实践应用中存在显著局限性:其生成的区间在面对新数据时往往校准不足(区间过窄或过宽)。Conformalized Quantile Regression (CQR)正是为解决这一问题而提出的创新方法,它将分位数回归与共形预测(Conformal Prediction)技术相结合,生成既具有自适应性(区间宽度随输入特征动态变化,类似QR)又具有严格统计保证(能够达到预设的覆盖率目标)的预测区间。

本文将深入探讨CQR的理论基础、技术实现、与传统方法的比较,以及它在医疗、金融、能源和气候科学等多个领域的实际应用。

从分位数回归到共形预测

分位数回归(QR)是一种历史悠久的统计技术,可追溯至19世纪Galton的研究,并在1970年代得到形式化。QR方法直接估计目标变量的条件分位数,而非条件均值。例如在房地产市场分析中,QR不仅可预测给定特征下的平均房价,还能估计给定特征下房价的第90百分位值。

QR通过优化尖点损失函数(pinball loss)(亦称分位数损失)学习预测Y在X条件下的q分位数。QR的主要优势之一是能够自然处理异方差性(heteroscedasticity)问题——例如,第5百分位与第95百分位预测值之间的区间可根据数据局部噪声水平自动调整宽窄。

这种特性使QR能够生成局部自适应预测区间:在数据波动较大的区域产生更宽的区间,而在数据表现稳定的区域生成更窄的区间,从而更精确地反映预测的不确定性分布。

经典QR的关键限制在于校准问题。QR本身无法保证未来数据点有90%会落在所谓的"90%预测区间"内。理论上,QR区间的覆盖率仅在渐近条件下(样本趋于无穷且模型规范正确)才能达到预期水平。

在有限样本情况下,或当模型设定不完全正确时,实际覆盖率可能与名义覆盖率存在显著偏差。图1清晰地展示了这一问题:图中展示的分位数回归模型生成的90%预测区间(阴影区域)未能完全覆盖数据样本,部分观测点落在区间之外,表明该"90%"区间在实践中的覆盖率不足。

与此相对,归纳共形预测(Inductive Conformal Prediction, ICP)作为一种现代不确定性量化方法,将校准作为其核心目标。ICP构建的预测区间具有无分布假设的有限样本覆盖保证。本质上共形方法可以应用于任意点预测模型(通常是均值回归模型),然后利用单独的校准数据集调整预测结果,使预测区间通过设计达到目标覆盖率。

ICP的唯一假设是训练数据与未来数据点满足可交换性(exchangeability)(即广义上的独立同分布条件)。对于回归问题,一种简单的分割共形(split-conformal)方法操作如下:首先在一部分数据上训练回归模型,然后计算校准集上的预测残差,最后确定一个阈值使得(1–α)比例的残差落在该阈值范围内。这一过程产生的预测带将以约(1-α)的概率覆盖真实值y。

ICP方法的优势在于其统计保证:当声明95%置信度时,它确实能够平均覆盖95%的新数据点。当使用均值估计器时,这种方法的限制在于生成的区间往往是均匀宽度的,或者仅轻微依赖于输入特征X(本质上是在所有预测点应用相同的残差阈值)。在异方差数据环境中,这种方法效率不高——可能导致在某些实际不需要的区域使用过度保守的宽区间,仅仅因为其他区域的数据变异性较高。

综上所述,分位数回归提供了自适应的预测区间但缺乏覆盖保证,而共形预测提供了覆盖保证但缺乏强自适应性。这自然引出了一个问题:能否将两种方法的优势结合起来?

Conformalized Quantile Regression (CQR)的工作原理

Conformalized Quantile Regression (CQR)正是融合上述两种方法优势的技术解决方案,它实现了"QR与CP优势的有效结合"。

由Romano、Patterson和Candès(2019)提出的CQR方法能够生成既能适应局部不确定性(如分位数回归)保持严格覆盖保证(如共形预测)的预测区间。换言之,CQR"通过合并分位数回归和共形预测,产生同时适应数据底层分布特性并维持严格覆盖保证的预测区间",从而实现双重目标:每个预测点处的区间尽可能窄,同时确保整体覆盖率的正确性

CQR的实现流程可以概括为以下关键步骤:

训练分位数模型:首先将数据集划分为训练集和校准集(类似于分割共形法)。使用训练集拟合两个分位数回归模型:一个预测下界分位数(如第5百分位),另一个预测上界分位数(如第95百分位),这两个模型共同界定目标预测区间。这些模型可以是任何能够预测特定分位数的回归算法,包括优化用于分位数损失的梯度提升树、随机森林或神经网络。

计算校准残差:接下来,将训练好的分位数模型应用于校准数据集。对于每个校准样本点(x_i, y_i),评估真实值y_i相对于分位数模型预测区间的位置关系。为每个点计算非一致性得分(nonconformity score),该得分实质上度量了当y_i落在预测区间外时,其偏离预测区间的距离。

确定校正量:然后,计算校准集上所有非一致性得分的(1-alpha)分位数值。这给出了一个值qCQR,使得90%的校准残差小于或等于该值。简言之qCQR是需要添加到或从原始分位数模型区间中减去的最小额外边际量,以确保90%的校准点被覆盖。

生成最终预测区间:最后,对于任何新输入x,CQR输出区间:[q^lower(xnew)−qCQR, q^upper(xnew)+qCQR]。此区间实质上是原始QR预测区间在每侧按常数qCQR进行扩展或收缩的结果。通过构造,这种调整后的区间将覆盖约(1-α)比例的未来数据点,即使在有限样本情况下且不依赖分布假设。CQR利用分位数回归作为智能起点,然后通过一个统一的微调缓冲区确保覆盖保证。若分位数估计接近完美,则缓冲区qCQR将非常小(理想情况下甚至为零)。若分位数模型低估了实际分布的扩散程度,qCQR将提供必要的补偿调整。

这一方法继承了两种组成技术的核心优势:区间长度可以随输入特征x变化(因为分位数回归预测会根据特征调整),从而像QR一样捕捉异方差模式;同时,由于共形校准步骤的作用,该区间具有(1-α)的有限样本覆盖保证。从理论角度看,CQR是分布无关的(无需参数模型假设)并且在可交换性条件下有效——若数据点满足独立同分布假设,则可以高置信度获得≥(1-α)的覆盖率(在X和Y的联合分布上)。

下面直接比较CQR与传统分位数回归的关键差异,以突显CQR的技术优势:

可以说CQR是分位数回归的即插即用增强版,它能够"每次都有效",默认情况下交付预期的覆盖保证。当QR模型声称某一预测为"第95百分位"时,CQR确保实际上确有约95%的结果落在该预测值之下——正如一位实践者所强调:"95%意味着真正的95%"。这种可靠性在高风险应用场景中尤为重要。

可视化比较:QR与CQR的差异

为了建立直观理解,我们回顾图1所示的场景。在该图中,分位数回归生成的预测区间未能覆盖部分数据点。若应用CQR方法,我们会使用校准集上的这些"未覆盖点"来适当扩展预测区间,直至覆盖所需比例的点。结果是所有(或几乎所有)数据点都将落入修正后的区间内,可能仅需在问题区域小幅增加区间宽度。换言之,CQR可能会在图1中的蓝色曲线上添加一个小的均匀缓冲区,略微提高上界并降低下界,直至95%的点被包含其中。在QR模型已经表现良好的区域,区间保持窄小,仅在必要处(如较高X值区域,QR模型原本低估了真实分布扩散)适度增宽。

实证研究证实了这一优势。例如,在一项包含29,993笔奥斯陆房屋销售数据的房价预测研究中,将CQR应用于随机森林模型后,生成的预测带宽度显著小于标准共形方法,同时仍然达到了90%的目标覆盖率。另一个医学领域的案例(从表观遗传数据预测生物年龄)发现,CQR生成的预测区间比共形均值回归方法更窄且个体间变异更大——表明CQR能更好地反映数据中的异质性,而基于均值的区间则过于保守且宽度几乎恒定。简言之,CQR通常提供两全其美的解决方案:精确、上下文敏感且可靠的预测区间。

总结

CQR(及共形预测)的应用正在迅速扩展。在机器学习研究中,CQR已被应用于时间序列预测(例如,流行的NeuralProphet库将CQR作为生成预测区间的选项)、时空数据分析(确保不同区域的预测覆盖率)以及算法公平性(一项工作引入"公平"CQR变体,确保跨不同子群体的均等覆盖率)。任何需要可靠不确定性量化的回归问题均可考虑CQR作为首选方法。其模型无关性意味着它可以包装任何前沿模型(梯度提升机、随机森林、神经网络等),使其预测具有可靠的概率特性。随着学术界和产业界对可信AI与机器学习的日益重视,CQR提供了一种相对简单却能显著提升预测模型可信度的技术增强方案。

Conformalized Quantile Regression (CQR)代表了预测建模领域的重要技术进步,它有效地结合了两个方向的优势:灵活、数据驱动的分位数估计严格的不确定性校准。对数据科学家、分析师和研究人员而言,采用CQR能带来更为可靠的分析洞见

CQR提供可靠的置信保证:当模型声明90%预测区间时,它确实能在实际应用中覆盖约90%的新数据结果。这种可靠性在医疗、金融等高风险决策领域尤为重要,它将预测模型转变为决策者可以真正信赖的工具。

CQR生成的自适应且信息丰富的预测区间区别于简单的不确定性带。这些区间能根据数据的局部不确定性动态调整形态。使用者能够准确识别模型不确定性较高的区域(较宽的区间表明该区域波动性更大或数据覆盖不足)与模型确定性较高的区域(较窄的区间)。这提供了更深入的分析视角,例如识别"模型对中等范围的案例预测较为确定,但对极端案例预测不确定"的模式——这类信息本身可以指导进一步行动,如针对极端案例收集更多数据。

CQR具有对分布异常的稳健性:由于其共形特性,即使数据具有异常误差分布、重尾特征或模型规范略有不准确,CQR方法也不会失效。该方法基于最少的假设,利用数据本身进行校准。这种稳健性使CQR能够跨多种应用场景部署,无需为每种情况专门调整——这是实际应用中的重要优势。

CQR提供实用的可获取性:实现CQR不再仅是理论练习——它已通过如MAPIE(面向scikit-learn用户)等库实现,并已集成到多个领域特定工具中。这降低了采用门槛。如果能训练回归模型,则只需几行额外代码即可应用CQR并获得更为丰富的预测输出。

如果你一直依赖传统分位数回归构建预测区间,现在或许是时候考虑"告别传统分位数回归,拥抱CQR"。通过对分位数预测进行共形化处理,您能确保模型不仅针对正确的分位数,还能以统计保证的方式达成预定目标。这将带来更精确、更可靠的预测洞见,支持在不确定环境中做出更明智的决策。

https://avoid.overfit.cn/post/915f13f1abf5462092bdf0b9f0e7cdc1

作者:Valeriy Manokhin

目录
相关文章
|
机器学习/深度学习 PyTorch 算法框架/工具
神经网络中的分位数回归和分位数损失
在使用机器学习构建预测模型时,我们不只是想知道“预测值(点预测)”,而是想知道“预测值落在某个范围内的可能性有多大(区间预测)”。例如当需要进行需求预测时,如果只储备最可能的需求预测量,那么缺货的概率非常的大。但是如果库存处于预测的第95个百分位数(需求有95%的可能性小于或等于该值),那么缺货数量会减少到大约20分之1。
1153 2
|
4月前
|
存储 人工智能 数据处理
2026年阿里云对象存储OSS最新收费标准价格表:
阿里云OSS按存储、流量、请求等维度收费,核心模式为按量付费与资源包(包年包月),未用功能不计费。主要费用为存储费(标准/低频/归档等类型)和流量费(仅公网流出,分闲忙时计费),另有请求、数据处理等增值费用。开通、上传及内网流量免费,新用户享免费额度,官网提供精准报价。
|
10月前
|
消息中间件 NoSQL Redis
水镜 OMS 系统:全渠道电商中台的设计与实现
水镜OMS是全渠道电商中台,整合线上线下资源,统一管理订单、库存与营销。支持天猫、京东等10+平台接入,通过订单路由与库存共享,实现高效订单处理。系统采用SpringCloud Alibaba架构,结合Redis、Kafka、分库分表等技术,保障高并发下稳定运行,日均订单量超10万,峰值达5000TPS,助力企业提升运营效率与数字化能力。
556 0
|
机器学习/深度学习 移动开发 自然语言处理
【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块,捕捉局部和全局上下文,增强特征表示
【YOLOv8改进 - 注意力机制】ContextAggregation : 上下文聚合模块,捕捉局部和全局上下文,增强特征表示
|
缓存 数据中心 网络架构
5个减少网络延迟的简单方法
高速互联网对工作与娱乐至关重要,延迟和断线会严重影响效率和体验。本文探讨了导致连接缓慢的三个关键因素:吞吐量、带宽和延迟,并提供了减少延迟的实用方法。包括重启设备、关闭占用带宽的程序、使用有线连接、优化数据中心位置以及添加内容分发网络 (CDN) 等策略。虽然完全消除延迟不可能,但通过这些方法可显著改善网络性能。
4208 7
|
数据采集 机器学习/深度学习 数据挖掘
10种数据预处理中的数据泄露模式解析:识别与避免策略
在机器学习中,数据泄露是一个常见问题,指的是测试数据在数据准备阶段无意中混入训练数据,导致模型在测试集上的表现失真。本文详细探讨了数据预处理步骤中的数据泄露问题,包括缺失值填充、分类编码、数据缩放、离散化和重采样,并提供了具体的代码示例,展示了如何避免数据泄露,确保模型的测试结果可靠。
1419 2
|
存储 缓存 Oracle
Oracle数据库可扩展性和性能
【7月更文挑战第6天】
553 7
|
缓存 Windows
一文教会你如何重装Windows10系统【过程+图解+说明】
该博客文章是一份详细的Windows 10系统重装教程,包括制作过程、图解说明和注意事项,作者分享了自己制作启动盘并成功安装系统的经验,适合初学者参考。
一文教会你如何重装Windows10系统【过程+图解+说明】
|
机器学习/深度学习
【元学习meta-learning】通俗易懂讲解元学习以及与监督学习的区别
本文通过通俗易懂的方式解释了元学习(Meta-learning)的概念及其与传统监督学习的区别,并通过实例说明了元学习是如何让模型具备快速学习新任务的能力。
4204 0
|
机器学习/深度学习 人工智能 算法
【专家系统】系统地掌握专家系统的基本概念、技术原理、实现方法以及应用实践。
专家系统是一种人工智能程序,它利用专家知识和推理能力来解决特定领域中的复杂问题,系统地掌握专家系统的基本概念、技术原理、实现方法以及应用实践。
2337 1