时间序列去趋势化和傅里叶变换

简介: 在计算傅里叶变换之前对信号去趋势是一种常见的做法,特别是在处理时间序列时。在这篇文章中,我将从数学和视觉上展示信号去趋势是如何影响傅里叶变换的。

在计算傅里叶变换之前对信号去趋势是一种常见的做法,特别是在处理时间序列时。在这篇文章中,我将从数学和视觉上展示信号去趋势是如何影响傅里叶变换的。

这篇文章的目的是让介绍理解什么是常数和线性去趋势,为什么我们使用它们,以及它们是如何影响信号的傅里叶变换的。

傅里叶变换快速回顾

我们将使用傅里叶变换的如下定义:对于输入序列x[n],当n=0到n时,傅里叶变换的第k个系数为以下复数:

常量去趋势

序列x[n]可以分解如下:将其写成两个信号的和:“常数部分”等于信号的平均值,“平均值周围的可变性”部分给出实际信号与其平均值之间的差值:

对于所有样本n,我们有:

首先,求x均值的傅里叶变换

这是一个简单的序列,所以在k=0处x的均值为0,在其他地方的值也为0。

使用下面代码绘制所有指数也可以看到为什么它们的和总是为0(除了k=0)。

 import numpy as np
 import matplotlib.pyplot as plt

 N = 10
 ns = np.arange(N)

 fig, axes = plt.subplots(1, N//2+1, figsize=(18,8), sharex=True, sharey=True)

 for k in range(0, N//2+1):
     eiks = np.exp(-2*1J*np.pi*ns/N*k)
     pretty_ax(axes[k])
     plot_sum_vector(eiks, axes[k])
     axes[k].set_title(f'k={k}')
     axes[k].set_aspect('equal')
 fig.suptitle(f'Complex plot of the $e^{
  
  {-2i\pi kn/N}}$ families')

现在我们把x的傅里叶变换写成这样,分为两部分

分解x的傅里叶变换,结果是2个傅里叶变换的和:“可变性”部分的傅里叶变换,以及k=0时等于平均值的系数。

也就是说x的傅里叶变换等于其可变性在均值附近的傅里叶变换的和,再加上除k = 0处之外的序列,这个序列都为0,所以他的均值是x。

这就常数去趋势,是在进行傅里叶变换之前去除信号的均值。对于傅里叶系数,就傅里叶系数而言,它对应于将k = 0系数设置为0。

k = 0的系数始终等于信号的平均值,可以使用下面方法证明:

线性去趋势

方法与前面相同:将输入信号写为2个部分的和:“线性”部分,以及围绕该线性部分的其余变化:

这里的线性部分是从最小二乘拟合计算。利用指数,可以将线性部分写为:

其中b是信号的平均值。让我们来看看它的傅里叶变换:

线性部分的傅里叶变换为,给定傅里叶变换的线性性质:

线性去趋势包括在进行傅里叶变换之前去除x的线性部分:它从结果中去除aFT(n)+b项,其中a是常数因子(对应于线性拟合的斜率),FT(n)是线性序列[0,1,…]的傅里叶变换,b是信号的平均值(因此第一个傅里叶系数将为0,就像常数去趋势一样)。

python代码

在Python中使用numpy和scipy实现非常简单。

Scipy在它的signal 包中提供了detrend函数,带有一个类型参数来指定我们是想让信号保持常量趋势还是线性趋势。

在下面的例子中,创建了一个长度为20个样本的信号,其中包含一个前导系数为2的线性部分,一个噪声,一个偏移量为4的正弦部分。

 import numpy as np
 from scipy.signal import detrend
 import matplotlib.pyplot as plt

 N = 20
 # create a sample signal, with linear, offset, noise and sinus parts
 ys = np.arange(N) * 2 + 4 + np.random.randn(N) + 4*np.sin(2*np.pi*np.arange(N)/5)
 # constant and linear detrend
 ys_c = detrend(ys, type='constant')
 ys_l = detrend(ys, type='linear')

 fig, axes = plt.subplots(1, 2)

 ax = axes[0]
 ax.plot(ys, label='raw')
 ax.plot(ys_c, label='constant-detrended')
 ax.plot(ys_l, label='linear-detrended')
 ax.legend()
 ax.set_title('Input signal')

 ax = axes[1]
 # we use rfft since our input signals are real
 ax.plot(np.abs(np.fft.rfft(ys)))
 ax.plot(np.abs(np.fft.rfft(ys_c)))
 ax.plot(np.abs(np.fft.rfft(ys_l)))
 ax.set_title('Module of Fourier-transform')

在左边我们有原始输入信号,以及它的常数去趋势和线性去趋势版本。

常数去趋势有效地去除信号的平均值,使其在0附近居中。线性去趋势不仅去掉了信号的平均值,而且还去掉了它的线性趋势(又名“直线斜率”)。从视觉上看,在线性去趋势信号上比在原始信号上更容易发现正弦部分。

右边是每个信号的傅里叶变换模块:如果不去除趋势,我们得到蓝色模块。使用常数去趋势法去除平均值可以有效地将0系数设置为0,这在大多数情况下使得图表更容易分析。自线性去趋势的结果是最好的:输出傅里叶系数很好地显示了输出频谱中的频率,线性去趋势的主要优点是它大大减少了频谱泄漏。

线性信号的傅里叶变换

对于不同的K值,我们可以很容易地画出线性信号Kn (K为斜率)的傅里叶变换:

 import numpy as np
 import matplotlib.pyplot as plt

 N = 10
 ns = np.arange(N)
 Ks = [-5, 2, 5]

 fig, axes = plt.subplots(len(Ks), N//2+1, figsize=(18,8), sharex=True, sharey=True, gridspec_kw={'hspace':0, 'wspace':0})

 for i, K in enumerate(Ks):
     xs = K*np.arange(N)
     for k in range(0, N//2+1):
         Zs = xs * np.exp(-2*1J*np.pi*ns/N*k) / N
         ax = axes[i, k]
         pretty_ax(ax)
         plot_sum_vector(Zs, ax)
         ax.set_aspect('equal')
         ax.set_xlabel(f'k={k}')
     axes[i, 0].set_ylabel(f'K={K}')
 fig.tight_layout()

对于给定的k值,用红色箭头表示的傅里叶系数总是对齐的,并且等于一个比例。所以输出频谱中被去掉的部分总是序列[0,1,…N]的傅里叶变换的部分,其比例因子由线性拟合的斜率给出。

总结

在这篇文章中,我们介绍了常量和线性去趋势:它们分别由去除输入信号的平均值或线性拟合组成。在计算傅里叶变换之前的预处理步骤有助于使输出谱更容易解释。

去除信号的平均值使第0个系数为0。结果图更容易检查,因为大多数情况下,平均值与频谱的其余部分相比可能相当大。如果我们去掉这个系数,y轴的尺度就更容易设定。

线性去趋势除了去掉平均值也去掉了信号中的总体趋势,这通常是原始信号的主导部分,这样可以去掉其他成分例如季节行为等,所以如果需要对季节性进行分析还需要另外的处理。

https://avoid.overfit.cn/post/84dd016b15e440c3a9bf8c7c08a4adb4

作者:Yoann Mocquin

目录
相关文章
|
机器学习/深度学习 数据可视化 算法
数据处理方法—— 7 种数据降维操作 !!
数据处理方法—— 7 种数据降维操作 !!
953 0
|
编译器 C++ Windows
win10 环境下配置 openGL的freeglut、glew等库,使用openGL
win10 环境下配置 openGL的freeglut、glew等库,使用openGL
8025 0
|
数据可视化 关系型数据库 MySQL
将 PostgreSQL 迁移到 MySQL 数据库
将 PostgreSQL 迁移到 MySQL 数据库
2771 2
|
算法 IDE Java
《Drools7.0.0.Final规则引擎教程》第1章 Drools简介
《Drools7.0.0.Final规则引擎教程》第1章 Drools简介
1637 0
|
负载均衡 网络协议 算法
Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式
本文探讨了Docker容器环境中服务发现与负载均衡的技术与方法,涵盖环境变量、DNS、集中式服务发现系统等方式,以及软件负载均衡器、云服务负载均衡、容器编排工具等实现手段,强调两者结合的重要性及面临挑战的应对措施。
483 3
|
监控 算法 Linux
探索Linux中的lz4命令:高效的数据压缩工具
**探索Linux中的LZ4工具:快速数据压缩。LZ4算法提供高速压缩与解压缩,适合实时数据处理。命令行工具如`lz4c`用于文件压缩(`lz4c file.txt compressed.lz4`)和解压缩(`lz4c -d compressed.lz4 decompressed.txt`)。特点是速度快、低内存占用,可选压缩级别。注意命令的实际形式取决于安装的实现,使用前应查阅文档。**
|
存储 NoSQL 算法
【LFU】一文让你弄清 Redis LFU 页面置换算法
【LFU】一文让你弄清 Redis LFU 页面置换算法
436 1
|
编解码 安全 网络协议
Computer:Todesk(远程控制软件)的简介、安装、使用方法之详细攻略
导读:近些年,ToDesk在远程控制软件领域异军突起,作为国产软件,发展迅猛,的确有“两把刷子”。博主近一段时间,通过下载安装,测试了文件传输、远程打印、远程开机,尤其是远程控制帮助博主自己的粉丝解决了很多编程上的bug,用起来还算比较得心应手,基本无延迟,而且不卡顿,要的就是口碑。其实,国外外市场上远程控制软件也不少,有的想要免费,有的是想要速度快,有的主要考虑安全,小孩子才做选择,而我们全要,免费且不限速的,恐怕只有ToDesk了。
Computer:Todesk(远程控制软件)的简介、安装、使用方法之详细攻略