解密EEMD分析:Rlibeemd包带你玩转信号分解和时间序列预测

简介: EEMD(Ensemble Empirical Mode Decomposition)是一种信号分解方法,它旨在分解非线性、非平稳或非白噪声的信号,以揭示复杂信号的局部特征和周期性成分。EEMD不同于传统的余弦变换、小波变换等线性变换方法,而是基于经验模态分解(EMD)的思想,通过添加噪声和多次重复分解的方式,避免了EMD中出现的模态混叠等问题。

一、简介



1.1 什么是EEMD?


EEMD(Ensemble Empirical Mode Decomposition)是一种信号分解方法,它旨在分解非线性、非平稳或非白噪声的信号,以揭示复杂信号的局部特征和周期性成分。EEMD不同于传统的余弦变换、小波变换等线性变换方法,而是基于经验模态分解(EMD)的思想,通过添加噪声和多次重复分解的方式,避免了EMD中出现的模态混叠等问题。


1.2 EEMD应用?


EEMD在信号处理中具有广泛的应用。它可用于生物医学信号处理,如脑电波信号、心电图信号等;在气象预报中,可以分析天气数据来进行短期和长期气象预测;在金融市场上,EEMD可以用于分析股票市场的长、短期波动特征和走势等。


1.3 怎么实现EEMD?


Rlibeemd是R语言下的一个EEMD算法包,它提供了多种EEMD算法的实现,并支持分解结果可视化。该包的优点在于它提供了多种EEMD算法的选择,标准的EMD算法和修改后的EEMD算法等,可以根据数据特点选择最合适的算法来进行分解。此外,该包还支持直接读取MATLAB中的数据,并能将分解结果输出为MATLAB格式。


二、理论基础



2.1 原始EMD及其局限性


原始EMD(Empirical Mode Decomposition)是一种数据分解方法,它旨在将数据分解为一组本征模态函数(Empirical Mode Function,EMD)和一个残差项。EMD的特点在于它是一种数据驱动的过程,它不依赖于先验的基函数或变换方法,而仅根据输入的数据本身,来构建一组局部自适应的基函数用于分解。


然而,EMD在分解过程中存在一些局限性,例如分解的模态数、分解结果不稳定性等,这对分析数据的准确性和可靠性带来了一定的影响。


2.2 EEMD的基本原理


基于对原始EMD的改进,EEMD(Ensemble Empirical Mode Decomposition)方法在分解过程中引入了噪声数据和多次分解的概念,以保证分解结果的稳定性和准确性。具体来说,EEMD的主要原理是,在原始信号中添加多个不同的高斯白噪声序列,通过多次分解来获得每个本征模态函数,最终把多次分解的模态函数的平均值作为该模态函数的最终结果。


相对于原始EMD,EEMD有以下优势:

  • 减少模态混叠问题,提高分解结果的精度和稳定性;
  • 在不影响结果精确度的情况下,可以通过增加噪声序列来增加分解的次数,进而提高分解结果的可靠性;
  • 可以对多个不同的高斯白噪声序列进行平均,以减少高频部分的噪声对分解结果的影响;
  • 这种方法具有良好的自适应性,可以分解非线性、非平稳或非白噪声序列。


在实际应用中,EEMD已经被广泛应用于时序分析、信号处理、图像处理、金融等领域。


三、EEMD分析的实现



3.1 安装并加载数据集


# 安装Rlibeemd
install.packages("Rlibeemd")
# 加载Rlibeemd包
library(Rlibeemd)
# 加载数据集
data(UKgas)
UKgas


结果展示:


Qtr1   Qtr2   Qtr3   Qtr4
1960  160.1  129.7   84.8  120.1
1961  160.1  124.9   84.8  116.9
1962  169.7  140.9   89.7  123.3
1963  187.3  144.1   92.9  120.1
1964  176.1  147.3   89.7  123.3
1965  185.7  155.3   99.3  131.3
1966  200.1  161.7  102.5  136.1
1967  204.9  176.1  112.1  140.9
1968  227.3  195.3  115.3  142.5
1969  244.9  214.5  118.5  153.7
1970  244.9  216.1  188.9  142.5
1971  301.0  196.9  136.1  267.3
1972  317.0  230.5  152.1  336.2
1973  371.4  240.1  158.5  355.4
1974  449.9  286.6  179.3  403.4
1975  491.5  321.8  177.7  409.8
1976  593.9  329.8  176.1  483.5
1977  584.3  395.4  187.3  485.1
1978  669.2  421.0  216.1  509.1
1979  827.7  467.5  209.7  542.7
1980  840.5  414.6  217.7  670.8
1981  848.5  437.0  209.7  701.2
1982  925.3  443.4  214.5  683.6
1983  917.3  515.5  224.1  694.8
1984  989.4  477.1  233.7  730.0
1985 1087.0  534.7  281.8  787.6
1986 1163.9  613.1  347.4  782.8


3.2 使用EEMD分解


可通过函数eemd(x, nstd, nee)来实现,其中,x为原始时间序列数据,nstd为加噪的标准差,nee为分解的次数。函数返回一个矩阵,每一列代表一个本征模态函数,最后一列代表残差项。


EEMD分解的步骤如下:

  • 选择合适的噪声类型及标准差,将噪声序列加到原信号中去。
  • 对加噪后的信号进行EMD分解,得到各个本征模态函数。
  • 重复步骤1和2,得到多次分解的结果。
  • 对每个本征模态函数及残差项进行平均,得到最终的分解结果


# 将四个季度数据存储到一个矩阵中
x <- as.matrix(UKgas)
# 进行EEMD分解
imfs <- eemd(x, num_siftings = 10, ensemble_size = 50, threads = 1)
# 将分解结果可视化
par(mfrow = c(2, 2))
colors <- c("steelblue", "firebrick", "springgreen3", "darkorchid3")
for (i in 1:4) {
  plot(imfs[, i], type = "l", main = paste0("IMFs for Qtr", i), col = colors[i])
}

640.png


显示高频和低频分量


par(mfrow = c(2, 1))
ts.plot(rowSums(imfs[,1:3]), main = "High Frequencies",col="red")
ts.plot(rowSums(imfs[, 4:ncol(imfs)]), main = "Low Frequencies",col="blue")

640.png


3.3 分解参数的设置与调整


用法
eemd(
  input,
  num_imfs = 0,
  ensemble_size = 250L,
  noise_strength = 0.2,
  S_number = 4L,
  num_siftings = 50L,
  rng_seed = 0L,
  threads = 0L
)
参数
input 
长度为 N 的向量。要分解的输入信号。
num_imfs 
要计算的固有模式函数 (IMF) 的数量。如果num_imfs设置为零, 将使用 num_imfs = emd_num_imfs(N) 的值,它对应于最大数量 基金组织。请注意,在这方面,最终剩余额也算作国际货币基金组织,因此您最 可能至少需要 num_imfs=2。
ensemble_size 
用作融合的输入信号的副本数。
noise_strength 
用作附加噪声的高斯随机数的标准差。该值相对于输入信号的标准偏差。
S_number 
整数。在给定的 EMD 程序中使用 S 号停止标准 值为 $S$。也就是说,迭代直到信号中的极值和零交叉次数 最多相差一个,S连续迭代保持不变。典型值为 范围 3–8。如果为零,则忽略此停止条件。默认值为 4。S_number
num_siftings 
使用最大筛分次数作为停止标准。如果为零,则忽略此停止条件。默认值为 50。num_siftings
rng_seed 
GSL的Mersenne扭曲随机数生成器的种子。值为零 (默认值)表示实现定义的默认值。
threads 
定义最大并行线程数的非负整数(通过 OpenMP 的 .默认值 0 使用由 OpenMP 定义的所有可用线程。omp_set_num_threadsomp_get_max_threads


EEMD算法中有几个关键的参数需要进行设置,包括分解的模态数目、每个模态的迭代次数、每种模态的随机种子等等。下面列出了一些常用的调参方法。


  • 迭代次数:每个IMF分解的迭代次数,对分解的质量有比较大的影响,一般建议设置在10到400之间,通常会选择一个介于其中的数值,比如说100左右。
  • 模态数目:手动控制分解结果中模态的数量,虽然每个模态是根据一些被一定临界模板判断出来的某些概率门槛,但是我们仍然可以手动增加或减少分解的模态数来适应不同的信号,并尽可能地充分刻画信号的频谱结构。
  • 随机种子:这是决定分解结果的随机性的主要因素之一,通常设置一个不同的随机种子会得到不同的分解结果。为了增加对结果的稳定性,可以考虑进行多次迭代,并将每次迭代的结果进行平均。
  • 交叉验证:与其他机器学习算法一样,交叉验证可以用来评估EEMD算法的性能,并帮助选择最佳的参数。


四、EEMD应用案例



假如我想预测UKgas从1987-2000各季度的使用量,该如何处理呢?


  • 数据预处理和分解
library(stats)
library(tseries)
library(forecast)
library(zoo)
UKgas_ts <- ts(UKgas, start = c(1960, 1), frequency = 4)
start <- 1987
end <- 2000
pred_length <- 4 * (end - start + 1)


  • EEMD分解
# 进行 EEMD 分解
eemdfit <- eemd(UKgas_ts)
# 选择第二个 EIM 模态,作为趋势项
gas_trend <- eemdfit[, "IMF 2"]
# 对 Residual 分解,得到高频噪声项,用于后续预测中叠加
residual_high <- eemd(eemdfit[,"Residual"])[,"IMF 1"]
# 选择第二个 EIM 模态,作为剩余项的趋势
residual_trend <- eemdfit[, "IMF 2"]
residual_notrend_ts <- eemdfit[,"Residual"] - residual_trend


  • 构建ARIMA模型
# 对去趋势后的训练集进行自动 ARIMA 模型拟合
fit <- auto.arima(residual_notrend_ts)
# 构建趋势和剩余项的 ARIMA 模型拟合
gas_trend_fit <- auto.arima(gas_trend)
residual_trend_fit <- auto.arima(residual_trend)


  • 预测
# 预测 1987-2000 年的季度燃气供应量
forecast_result <- forecast(fit, h=pred_length)
# 预测趋势和剩余项
gas_trend_result <- forecast(gas_trend_fit, h=pred_length)
residual_trend_result <- forecast(residual_trend_fit, h=pred_length)


  • 获取最终预测结果
# 将预测结果加上去趋势和剩余项的效应,得到最终预测结果
final_prediction <- forecast_result$mean + gas_trend_result$mean+ residual_trend_result$mean
final_prediction


结果展示:

Qtr1      Qtr2      Qtr3      Qtr4
1987  796.0600  798.9608  794.7780  792.2792
1988  795.4890  804.0116  816.9882  833.1798
1989  848.6965  859.6348  866.1588  870.9519
1990  875.8916  881.7667  889.5793  899.7981
1991  911.0271  921.3635  930.4858  939.1067
1992  947.2945  954.8810  962.6045  971.3260
1993  980.6850  989.8194  998.7303 1007.8307
1994 1016.8369 1025.2965 1033.5758 1042.2879
1995 1051.2579 1060.0110 1068.7032 1077.7033
1996 1086.7645 1095.4773 1104.0485 1112.8821
1997 1121.8243 1130.5449 1139.2115 1148.1338
1998 1157.1341 1165.9039 1174.5907 1183.4765
1999 1192.4239 1201.1829 1209.8917 1218.7907
2000 1227.7486 1236.5397 1245.2806 1254.1781


五、总结



5.1 Rlibeemd包及其EEMD实现的优势


  • 可定制性:Rlibeemd包提供了较多的参数供用户定制,使用户能够根据具体问题选择各种参数从而达到更好的效果。
  • 鲁棒性:EEMD分析是不确定性的方法,在给定快速傅里叶变换(Fourier transform)的噪音时,它能够保持稳定性。因此,在很多情况下,EEMD能够使得信号处理结果更加稳健。(EEMD是免去了必须精确选择 IMF 微调的方法,具有相对较好的稳定性)
  • 抗噪声:EEMD能够有效地抑制高斯白噪声的影响,提高分析精度。
  • EMD塑形过程的捆绑:传统EMD分析存在塑形过程,一些固有问题是EMD分析本身所固有的,EEMD将必须塑形的过程变为可捆绑的步骤,这则有助于防止污染因子的掺杂。


5.2 EEMD分析在信号处理中的应用前景


  • 音频信号处理:EEMD分析可以用于分析音频信号中的周期信号,并将它们分解为各个固有周期分量,以实现去除周期变化,或更好地理解周期变化等应用。
  • 类脑信号处理:EEMD分析可以应用于类脑信号的处理,如 EEG 信号(脑电波)的分析,将信号分解为恰当的分量,以更好地理解脑电波变化,并由此推断出脑反应或认知功能等信息。
  • 机械信号分析:EEMD分析可以用于机械信号分析,如振动信号的处理,通过将振动信号分解为各个固有频率成分,以实现有效的故障诊断。
  • 地震信号分析:EEMD分析也可以应用于地震信号分析,如地下水位信号分析,通过将信号分解为各个固有频率成分,以更好地理解地震信号的动态演化规律,以实现精准的预判和决策。


目录
相关文章
|
3月前
|
机器学习/深度学习 数据可视化
FredNormer: 非平稳时间序列预测的频域正则化方法
FredNormer是一种创新的频域正则化方法,旨在提高时间序列预测模型处理非平稳数据的能力。现有正则化技术虽在分布偏移上有所成效,但在频域动态模式捕捉方面存在不足。FredNormer通过自适应增强关键频率分量的权重,解决了这一问题,并设计了即插即用模块,便于集成到各类预测模型中。实验表明,FredNormer在多个公共数据集上显著提升了预测精度,特别是在复杂频率特征的数据集上效果显著。此外,其计算效率也优于现有方法。该方法为非平稳时间序列预测提供了有力工具。
75 3
FredNormer: 非平稳时间序列预测的频域正则化方法
【时间序列分析】——时序分解定理详解
【时间序列分析】——时序分解定理详解
|
8月前
|
机器学习/深度学习 算法
基于VMD-SSA-LSTM的多维时序光伏功率预测
基于VMD-SSA-LSTM的多维时序光伏功率预测
|
8月前
|
机器学习/深度学习 算法 定位技术
Python用Lstm神经网络、离散小波转换DWT降噪对中压电网电压时间序列预测
Python用Lstm神经网络、离散小波转换DWT降噪对中压电网电压时间序列预测
|
8月前
|
算法 vr&ar
状态空间模型:卡尔曼滤波器KFAS建模时间序列
状态空间模型:卡尔曼滤波器KFAS建模时间序列
|
8月前
|
算法
R语言从经济时间序列中用HP滤波器,小波滤波和经验模态分解等提取周期性成分分析
R语言从经济时间序列中用HP滤波器,小波滤波和经验模态分解等提取周期性成分分析
|
机器学习/深度学习
时序预测 | MATLAB实现基于CNN-GRU卷积门控循环单元的时间序列预测-递归预测未来(多指标评价)
时序预测 | MATLAB实现基于CNN-GRU卷积门控循环单元的时间序列预测-递归预测未来(多指标评价)
|
数据可视化 算法
时序分解 | MATLAB实现基于SVMD逐次变分模态分解的信号分解分量可视化
时序分解 | MATLAB实现基于SVMD逐次变分模态分解的信号分解分量可视化
时序预测 | MATLAB实现基于GRU门控循环单元的时间序列预测-递归预测未来(多指标评价)
时序预测 | MATLAB实现基于GRU门控循环单元的时间序列预测-递归预测未来(多指标评价)
|
机器学习/深度学习
时序预测 | MATLAB实现基于CNN-BiGRU卷积双向门控循环单元的时间序列预测-递归预测未来(多指标评价)
时序预测 | MATLAB实现基于CNN-BiGRU卷积双向门控循环单元的时间序列预测-递归预测未来(多指标评价)