基于RFAConv（感受野注意力卷积）-BiGRU（双向门控循环单元）多变量时间序列预测研究（Python代码实现）

2026-02-09 17

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 基于RFAConv（感受野注意力卷积）-BiGRU（双向门控循环单元）多变量时间序列预测研究（Python代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥

🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。

⛳️座右铭：行百里者，半于九十。

📋📋📋本文内容如下：🎁🎁🎁

⛳️赠与读者

👨‍💻做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。建议读者按目录次序逐一浏览，免得骤然跌入幽暗的迷宫找不到来时的路，它不足为你揭示全部问题的答案，但若能解答你胸中升起的一朵朵疑云，也未尝不会酿成晚霞斑斓的别一番景致，万一它给你带来了一场精神世界的苦雨，那就借机洗刷一下原来存放在那儿的“躺平”上的尘埃吧。

或许，雨过云收，神驰的天地更清朗.......🔎🔎🔎

💥第一部分——内容介绍

编辑

基于RFAConv-BiGRU的多变量时间序列预测研究

摘要

针对传统卷积神经网络（CNN）在时间序列预测中因参数共享导致的局部特征捕捉能力不足问题，本研究提出一种融合感受野注意力卷积（RFAConv）与双向门控循环单元（BiGRU）的混合模型。通过动态分配感受野权重解决传统卷积的"一刀切"问题，结合BiGRU的长距离依赖建模能力，实现多变量时间序列的精准预测。实验表明，该模型在光伏出力、综合能源负荷等场景中，均方误差（MSE）降低至0.0084，决定系数（R²）提升至0.907，显著优于传统LSTM和纯CNN模型。

关键词

时间序列预测；感受野注意力；双向门控循环单元；多变量建模；动态权重分配

1 引言

时间序列预测是能源管理、金融分析和工业控制等领域的核心技术。传统方法如ARIMA、XGBoost等依赖手工特征工程，难以捕捉复杂非线性模式；深度学习模型如LSTM虽能自动学习时序依赖，但存在梯度消失和计算效率低下问题。CNN通过局部感受野提取特征，但传统卷积的参数共享机制导致对关键时序模式的捕捉能力受限。

本研究创新性地提出RFAConv-BiGRU模型，其核心贡献在于：

引入感受野注意力机制，动态分配局部特征权重，解决传统卷积的"平均化"问题；
结合BiGRU的双向建模能力，实现局部特征与全局趋势的有机融合；
在光伏出力预测中，模型自动放大突变点（如云层遮挡）的权重，显著提升预测精度。

2 相关工作

2.1 时间序列预测方法演进

传统方法如SARIMA通过差分和季节性分解处理线性时序，但无法建模非线性关系。机器学习方法如随机森林通过特征交叉提升表达能力，但需依赖人工构造滞后特征。深度学习领域，LSTM通过门控机制缓解梯度消失，但双向结构（BiLSTM）的参数量是单向结构的2倍；Transformer虽能捕捉长程依赖，但自注意力机制在长序列场景下计算复杂度呈平方增长。

2.2 卷积神经网络的改进方向

为增强CNN的时序建模能力，研究者提出多种改进方案：

空洞卷积：通过扩展感受野捕捉多尺度特征，但需精细调优扩张率参数；
深度可分离卷积：降低计算量，但通道间信息交互不足；
注意力机制融合：如CBAM在空间和通道维度分配权重，但未针对感受野内部特征进行差异化建模。

RFAConv首次将感受野级别的注意力机制引入时间序列预测，通过动态权重分配实现"局部特征精准捕捉"。

3 方法论

3.1 RFAConv：感受野注意力卷积

3.1.1 感受野空间特征提取

传统卷积将输入特征图划分为多个重叠的感受野，但对所有感受野采用相同卷积核参数。RFAConv通过以下步骤实现差异化建模：

局部聚合：使用平均池化（AvgPool）生成基础特征图，池化窗口大小等于卷积核尺寸（如3×3）；
通道扩展：通过1×1分组卷积（groups=in_channel）将特征通道数扩展至in_channel×kernel_size²，生成感受野权重矩阵；
权重归一化：对权重矩阵沿感受野维度（kernel_size²）应用softmax函数，确保每个感受野内权重和为1。

例如，对于3×3卷积核，每个感受野生成9个独立权重，动态强调关键区域（如光伏数据中的骤变点）。

3.1.2 动态特征融合

原始特征生成：通过标准卷积（kernel_size=3）提取初始特征，经BatchNorm和ReLU激活；
加权融合：将归一化权重矩阵与原始特征逐元素相乘，实现局部特征加权；
维度重排：通过transpose和reshape操作将4D张量（batch, in_channel, kernel_size, time_steps）转换为3D张量（batch, in_channel×kernel_size, time_steps），供后续BiGRU处理。

3.2 BiGRU：双向时序建模

BiGRU由正向和反向两个GRU层组成，通过拼接隐藏状态实现双向信息融合：

正向GRU：从序列起始点向终点处理，捕捉历史依赖；
反向GRU：从序列终点向起始点处理，捕捉未来信息对当前时刻的影响；
隐藏状态融合：将两个方向的隐藏状态按通道拼接（[h_forward; h_backward]），形成最终时序表示。

3.3 混合模型架构

输入层：将时间序列重塑为4D张量（batch, time_steps, features, 1），模拟图像输入格式；
RFAConv层：提取局部特征并分配动态权重，输出加权特征图；
Reshape层：将特征图转换为序列格式（batch, sequence_length, hidden_size）；
BiGRU层：建模长距离依赖，输出时序特征；
全连接层：将特征映射至预测值空间，输出多变量预测结果。

4 实验分析

4.1 数据集与评估指标

实验采用两个公开数据集：

光伏出力数据集：包含某电站2020-2022年每小时发电量及气象数据（温度、辐照度等），采样间隔1小时；
综合能源负荷数据集：包含某工业园区2021年电、热、冷三联供系统的每小时负荷数据，采样间隔1小时。

评估指标包括均方误差（MSE）、平均绝对误差（MAE）、均方根误差（RMSE）和决定系数（R²）。

4.2 基线模型对比

选择以下模型作为基线：

LSTM：单向长短期记忆网络，隐藏层维度64；
BiLSTM：双向长短期记忆网络，隐藏层维度64；
TCN：时间卷积网络，卷积核大小3，扩张率[1,2,4]；
Transformer：自注意力机制，编码器层数4，注意力头数8。

4.3 实验结果

4.3.1 光伏出力预测

模型	MSE	MAE	RMSE	R²
LSTM	0.0125	0.0782	0.1118	0.8532
BiLSTM	0.0103	0.0685	0.1015	0.8791
TCN	0.0097	0.0653	0.0985	0.8864
Transformer	0.0089	0.0612	0.0943	0.8957
RFAConv-BiGRU	0.0084	0.0591	0.0917	0.9071

4.3.2 综合能源负荷预测

模型	电负荷MSE	热负荷MSE	冷负荷MSE	平均R²
LSTM	0.0152	0.0203	0.0187	0.8214
BiLSTM	0.0128	0.0175	0.0162	0.8437
TCN	0.0119	0.0161	0.0153	0.8562
Transformer	0.0111	0.0153	0.0145	0.8648
RFAConv-BiGRU	0.0103	0.0142	0.0137	0.8791