解密EEMD分析:Rlibeemd包带你玩转信号分解和时间序列预测

简介: EEMD(Ensemble Empirical Mode Decomposition)是一种信号分解方法,它旨在分解非线性、非平稳或非白噪声的信号,以揭示复杂信号的局部特征和周期性成分。EEMD不同于传统的余弦变换、小波变换等线性变换方法,而是基于经验模态分解(EMD)的思想,通过添加噪声和多次重复分解的方式,避免了EMD中出现的模态混叠等问题。

一、简介



1.1 什么是EEMD?


EEMD(Ensemble Empirical Mode Decomposition)是一种信号分解方法,它旨在分解非线性、非平稳或非白噪声的信号,以揭示复杂信号的局部特征和周期性成分。EEMD不同于传统的余弦变换、小波变换等线性变换方法,而是基于经验模态分解(EMD)的思想,通过添加噪声和多次重复分解的方式,避免了EMD中出现的模态混叠等问题。


1.2 EEMD应用?


EEMD在信号处理中具有广泛的应用。它可用于生物医学信号处理,如脑电波信号、心电图信号等;在气象预报中,可以分析天气数据来进行短期和长期气象预测;在金融市场上,EEMD可以用于分析股票市场的长、短期波动特征和走势等。


1.3 怎么实现EEMD?


Rlibeemd是R语言下的一个EEMD算法包,它提供了多种EEMD算法的实现,并支持分解结果可视化。该包的优点在于它提供了多种EEMD算法的选择,标准的EMD算法和修改后的EEMD算法等,可以根据数据特点选择最合适的算法来进行分解。此外,该包还支持直接读取MATLAB中的数据,并能将分解结果输出为MATLAB格式。


二、理论基础



2.1 原始EMD及其局限性


原始EMD(Empirical Mode Decomposition)是一种数据分解方法,它旨在将数据分解为一组本征模态函数(Empirical Mode Function,EMD)和一个残差项。EMD的特点在于它是一种数据驱动的过程,它不依赖于先验的基函数或变换方法,而仅根据输入的数据本身,来构建一组局部自适应的基函数用于分解。


然而,EMD在分解过程中存在一些局限性,例如分解的模态数、分解结果不稳定性等,这对分析数据的准确性和可靠性带来了一定的影响。


2.2 EEMD的基本原理


基于对原始EMD的改进,EEMD(Ensemble Empirical Mode Decomposition)方法在分解过程中引入了噪声数据和多次分解的概念,以保证分解结果的稳定性和准确性。具体来说,EEMD的主要原理是,在原始信号中添加多个不同的高斯白噪声序列,通过多次分解来获得每个本征模态函数,最终把多次分解的模态函数的平均值作为该模态函数的最终结果。


相对于原始EMD,EEMD有以下优势:

  • 减少模态混叠问题,提高分解结果的精度和稳定性;
  • 在不影响结果精确度的情况下,可以通过增加噪声序列来增加分解的次数,进而提高分解结果的可靠性;
  • 可以对多个不同的高斯白噪声序列进行平均,以减少高频部分的噪声对分解结果的影响;
  • 这种方法具有良好的自适应性,可以分解非线性、非平稳或非白噪声序列。


在实际应用中,EEMD已经被广泛应用于时序分析、信号处理、图像处理、金融等领域。


三、EEMD分析的实现



3.1 安装并加载数据集


# 安装Rlibeemd
install.packages("Rlibeemd")
# 加载Rlibeemd包
library(Rlibeemd)
# 加载数据集
data(UKgas)
UKgas


结果展示:


Qtr1   Qtr2   Qtr3   Qtr4
1960  160.1  129.7   84.8  120.1
1961  160.1  124.9   84.8  116.9
1962  169.7  140.9   89.7  123.3
1963  187.3  144.1   92.9  120.1
1964  176.1  147.3   89.7  123.3
1965  185.7  155.3   99.3  131.3
1966  200.1  161.7  102.5  136.1
1967  204.9  176.1  112.1  140.9
1968  227.3  195.3  115.3  142.5
1969  244.9  214.5  118.5  153.7
1970  244.9  216.1  188.9  142.5
1971  301.0  196.9  136.1  267.3
1972  317.0  230.5  152.1  336.2
1973  371.4  240.1  158.5  355.4
1974  449.9  286.6  179.3  403.4
1975  491.5  321.8  177.7  409.8
1976  593.9  329.8  176.1  483.5
1977  584.3  395.4  187.3  485.1
1978  669.2  421.0  216.1  509.1
1979  827.7  467.5  209.7  542.7
1980  840.5  414.6  217.7  670.8
1981  848.5  437.0  209.7  701.2
1982  925.3  443.4  214.5  683.6
1983  917.3  515.5  224.1  694.8
1984  989.4  477.1  233.7  730.0
1985 1087.0  534.7  281.8  787.6
1986 1163.9  613.1  347.4  782.8


3.2 使用EEMD分解


可通过函数eemd(x, nstd, nee)来实现,其中,x为原始时间序列数据,nstd为加噪的标准差,nee为分解的次数。函数返回一个矩阵,每一列代表一个本征模态函数,最后一列代表残差项。


EEMD分解的步骤如下:

  • 选择合适的噪声类型及标准差,将噪声序列加到原信号中去。
  • 对加噪后的信号进行EMD分解,得到各个本征模态函数。
  • 重复步骤1和2,得到多次分解的结果。
  • 对每个本征模态函数及残差项进行平均,得到最终的分解结果


# 将四个季度数据存储到一个矩阵中
x <- as.matrix(UKgas)
# 进行EEMD分解
imfs <- eemd(x, num_siftings = 10, ensemble_size = 50, threads = 1)
# 将分解结果可视化
par(mfrow = c(2, 2))
colors <- c("steelblue", "firebrick", "springgreen3", "darkorchid3")
for (i in 1:4) {
  plot(imfs[, i], type = "l", main = paste0("IMFs for Qtr", i), col = colors[i])
}

640.png


显示高频和低频分量


par(mfrow = c(2, 1))
ts.plot(rowSums(imfs[,1:3]), main = "High Frequencies",col="red")
ts.plot(rowSums(imfs[, 4:ncol(imfs)]), main = "Low Frequencies",col="blue")

640.png


3.3 分解参数的设置与调整


用法
eemd(
  input,
  num_imfs = 0,
  ensemble_size = 250L,
  noise_strength = 0.2,
  S_number = 4L,
  num_siftings = 50L,
  rng_seed = 0L,
  threads = 0L
)
参数
input 
长度为 N 的向量。要分解的输入信号。
num_imfs 
要计算的固有模式函数 (IMF) 的数量。如果num_imfs设置为零, 将使用 num_imfs = emd_num_imfs(N) 的值,它对应于最大数量 基金组织。请注意,在这方面,最终剩余额也算作国际货币基金组织,因此您最 可能至少需要 num_imfs=2。
ensemble_size 
用作融合的输入信号的副本数。
noise_strength 
用作附加噪声的高斯随机数的标准差。该值相对于输入信号的标准偏差。
S_number 
整数。在给定的 EMD 程序中使用 S 号停止标准 值为 $S$。也就是说,迭代直到信号中的极值和零交叉次数 最多相差一个,S连续迭代保持不变。典型值为 范围 3–8。如果为零,则忽略此停止条件。默认值为 4。S_number
num_siftings 
使用最大筛分次数作为停止标准。如果为零,则忽略此停止条件。默认值为 50。num_siftings
rng_seed 
GSL的Mersenne扭曲随机数生成器的种子。值为零 (默认值)表示实现定义的默认值。
threads 
定义最大并行线程数的非负整数(通过 OpenMP 的 .默认值 0 使用由 OpenMP 定义的所有可用线程。omp_set_num_threadsomp_get_max_threads


EEMD算法中有几个关键的参数需要进行设置,包括分解的模态数目、每个模态的迭代次数、每种模态的随机种子等等。下面列出了一些常用的调参方法。


  • 迭代次数:每个IMF分解的迭代次数,对分解的质量有比较大的影响,一般建议设置在10到400之间,通常会选择一个介于其中的数值,比如说100左右。
  • 模态数目:手动控制分解结果中模态的数量,虽然每个模态是根据一些被一定临界模板判断出来的某些概率门槛,但是我们仍然可以手动增加或减少分解的模态数来适应不同的信号,并尽可能地充分刻画信号的频谱结构。
  • 随机种子:这是决定分解结果的随机性的主要因素之一,通常设置一个不同的随机种子会得到不同的分解结果。为了增加对结果的稳定性,可以考虑进行多次迭代,并将每次迭代的结果进行平均。
  • 交叉验证:与其他机器学习算法一样,交叉验证可以用来评估EEMD算法的性能,并帮助选择最佳的参数。


四、EEMD应用案例



假如我想预测UKgas从1987-2000各季度的使用量,该如何处理呢?


  • 数据预处理和分解
library(stats)
library(tseries)
library(forecast)
library(zoo)
UKgas_ts <- ts(UKgas, start = c(1960, 1), frequency = 4)
start <- 1987
end <- 2000
pred_length <- 4 * (end - start + 1)


  • EEMD分解
# 进行 EEMD 分解
eemdfit <- eemd(UKgas_ts)
# 选择第二个 EIM 模态,作为趋势项
gas_trend <- eemdfit[, "IMF 2"]
# 对 Residual 分解,得到高频噪声项,用于后续预测中叠加
residual_high <- eemd(eemdfit[,"Residual"])[,"IMF 1"]
# 选择第二个 EIM 模态,作为剩余项的趋势
residual_trend <- eemdfit[, "IMF 2"]
residual_notrend_ts <- eemdfit[,"Residual"] - residual_trend


  • 构建ARIMA模型
# 对去趋势后的训练集进行自动 ARIMA 模型拟合
fit <- auto.arima(residual_notrend_ts)
# 构建趋势和剩余项的 ARIMA 模型拟合
gas_trend_fit <- auto.arima(gas_trend)
residual_trend_fit <- auto.arima(residual_trend)


  • 预测
# 预测 1987-2000 年的季度燃气供应量
forecast_result <- forecast(fit, h=pred_length)
# 预测趋势和剩余项
gas_trend_result <- forecast(gas_trend_fit, h=pred_length)
residual_trend_result <- forecast(residual_trend_fit, h=pred_length)


  • 获取最终预测结果
# 将预测结果加上去趋势和剩余项的效应,得到最终预测结果
final_prediction <- forecast_result$mean + gas_trend_result$mean+ residual_trend_result$mean
final_prediction


结果展示:

Qtr1      Qtr2      Qtr3      Qtr4
1987  796.0600  798.9608  794.7780  792.2792
1988  795.4890  804.0116  816.9882  833.1798
1989  848.6965  859.6348  866.1588  870.9519
1990  875.8916  881.7667  889.5793  899.7981
1991  911.0271  921.3635  930.4858  939.1067
1992  947.2945  954.8810  962.6045  971.3260
1993  980.6850  989.8194  998.7303 1007.8307
1994 1016.8369 1025.2965 1033.5758 1042.2879
1995 1051.2579 1060.0110 1068.7032 1077.7033
1996 1086.7645 1095.4773 1104.0485 1112.8821
1997 1121.8243 1130.5449 1139.2115 1148.1338
1998 1157.1341 1165.9039 1174.5907 1183.4765
1999 1192.4239 1201.1829 1209.8917 1218.7907
2000 1227.7486 1236.5397 1245.2806 1254.1781


五、总结



5.1 Rlibeemd包及其EEMD实现的优势


  • 可定制性:Rlibeemd包提供了较多的参数供用户定制,使用户能够根据具体问题选择各种参数从而达到更好的效果。
  • 鲁棒性:EEMD分析是不确定性的方法,在给定快速傅里叶变换(Fourier transform)的噪音时,它能够保持稳定性。因此,在很多情况下,EEMD能够使得信号处理结果更加稳健。(EEMD是免去了必须精确选择 IMF 微调的方法,具有相对较好的稳定性)
  • 抗噪声:EEMD能够有效地抑制高斯白噪声的影响,提高分析精度。
  • EMD塑形过程的捆绑:传统EMD分析存在塑形过程,一些固有问题是EMD分析本身所固有的,EEMD将必须塑形的过程变为可捆绑的步骤,这则有助于防止污染因子的掺杂。


5.2 EEMD分析在信号处理中的应用前景


  • 音频信号处理:EEMD分析可以用于分析音频信号中的周期信号,并将它们分解为各个固有周期分量,以实现去除周期变化,或更好地理解周期变化等应用。
  • 类脑信号处理:EEMD分析可以应用于类脑信号的处理,如 EEG 信号(脑电波)的分析,将信号分解为恰当的分量,以更好地理解脑电波变化,并由此推断出脑反应或认知功能等信息。
  • 机械信号分析:EEMD分析可以用于机械信号分析,如振动信号的处理,通过将振动信号分解为各个固有频率成分,以实现有效的故障诊断。
  • 地震信号分析:EEMD分析也可以应用于地震信号分析,如地下水位信号分析,通过将信号分解为各个固有频率成分,以更好地理解地震信号的动态演化规律,以实现精准的预判和决策。


目录
相关文章
|
算法 计算机视觉
【MATLAB 】 EEMD 信号分解+希尔伯特黄变换+边际谱算法
【MATLAB 】 EEMD 信号分解+希尔伯特黄变换+边际谱算法
1301 0
|
Linux Shell Windows
Linux如何检查文件夹的大小?
在Linux中查看文件夹大小,可使用`du`(如`du -sh *`)、`df`(如`df -h /home`)查看磁盘使用情况,`ncdu`提供交互式浏览,`ls -lh`显示当前目录文件大小,`find`与`du`结合找大文件夹,`tree --du -h`展示目录结构及大小,或用`awk`与`du`组合按大小排序。不同场景下,这些命令各有优势。
782 1
Linux如何检查文件夹的大小?
|
并行计算 算法 计算机视觉
【MATLAB 】 EEMD 信号分解+模糊熵(近似熵)算法
【MATLAB 】 EEMD 信号分解+模糊熵(近似熵)算法
445 0
|
传感器 测试技术 atlas
Landsat系列卫星:Landsat 9 详解和细节(NASA/USGS)
Landsat系列卫星:Landsat 9 详解和细节(NASA/USGS)
4060 0
Landsat系列卫星:Landsat 9 详解和细节(NASA/USGS)
|
3月前
|
云安全 人工智能 安全
2025全球AI攻防挑战赛:巅峰对决,守护未来数字身份安全!| 阿里云天池平台赛事推荐丨云工开物
2025全球AI攻防挑战赛由多家顶尖机构联合主办,旨在应对AI时代安全威胁。赛事设置三大战场、六大命题,涵盖视觉、动态交互与声纹认证,推动动态攻防技术革新。参赛者将有机会获得百万奖金及与顶尖专家交流的平台。立即组队,共筑AI安全防线!
|
9月前
|
机器学习/深度学习 数据可视化 数据处理
构建可靠的时间序列预测模型:数据泄露检测、前瞻性偏差消除与因果关系验证
在时间序列分析中,数据泄露、前瞻性偏差和因果关系违反是三大常见且严重影响模型有效性的技术挑战。数据泄露指预测模型错误使用了未来信息,导致训练时表现优异但实际性能差;前瞻性偏差则是因获取未来数据而产生的系统性误差;因果关系违反则可能导致虚假相关性和误导性结论。通过严格的时序数据分割、特征工程规范化及因果分析方法(如格兰杰因果检验),可以有效防范这些问题,确保模型的可靠性和实用性。示例分析展示了日本天然气价格数据中的具体影响及防范措施。 [深入阅读](https://avoid.overfit.cn/post/122b36fdb8cb402f95cc5b6f2a22f105)
357 24
构建可靠的时间序列预测模型:数据泄露检测、前瞻性偏差消除与因果关系验证
|
机器学习/深度学习 数据可视化
FredNormer: 非平稳时间序列预测的频域正则化方法
FredNormer是一种创新的频域正则化方法,旨在提高时间序列预测模型处理非平稳数据的能力。现有正则化技术虽在分布偏移上有所成效,但在频域动态模式捕捉方面存在不足。FredNormer通过自适应增强关键频率分量的权重,解决了这一问题,并设计了即插即用模块,便于集成到各类预测模型中。实验表明,FredNormer在多个公共数据集上显著提升了预测精度,特别是在复杂频率特征的数据集上效果显著。此外,其计算效率也优于现有方法。该方法为非平稳时间序列预测提供了有力工具。
267 3
FredNormer: 非平稳时间序列预测的频域正则化方法
|
11月前
|
机器学习/深度学习 监控 自动驾驶
基于深度学习的图像识别技术研究进展###
本文旨在探讨深度学习在图像识别领域的最新研究进展,重点分析卷积神经网络(CNN)的技术创新、优化策略及其在实际应用中的成效。通过综述当前主流算法结构、损失函数设计及数据集增强技巧,本文揭示了提升模型性能的关键因素,并展望了未来发展趋势。尽管未直接涉及传统摘要中的研究背景、方法、结果与结论等要素,但通过对关键技术点的深度剖析,为读者提供了对领域现状与前沿动态的全面理解。 ###
|
机器学习/深度学习 算法 数据处理
一文讲懂“预测滞后性”:详细解析
本文介绍了预测分析中常见的“预测滞后性”现象及其原因,包括数据收集延迟、模型训练耗时、预测算法延迟及模型特性等。文章还提供了应对策略,如实时数据处理、选择合适模型、在线学习及多方法结合,并附有使用简单移动平均法进行时间序列预测的Python代码示例,帮助读者理解和优化预测过程。
|
供应链 数据挖掘 Java
微店商品列表接口详解与实战应用
微店商品列表数据接口是专为开发者设计的API,允许调用微店店铺所有商品数据。接口(如micro.item_search_shop,具体名称需确认)提供商品ID、标题、价格等信息,支持商品展示、数据分析及库存管理等功能。开发者须在微店开放平台注册并创建应用获取API凭证,构建HTTP请求调用接口,处理返回的商品数据。此接口有助于优化购物体验,提供数据支持。[体验API:b.mrw.so/2Pv6Qu]