专题五数据分析与多项式计算-2

简介: 专题五数据分析与多项式计算

三、数据插值

从数学上分析,数据插值是一种函数逼近的方法。对于已知的点列[(x1,y1),(x2,y2),……,(xn,yn)],其中x与y对应的函数关系y=f(x)是一个未知函数。在此,我们构造一个近似函数g(x)≈f(x),满足g(xi)=yi(i=1,2,……,n)。具体构造方式不在此介绍。


1、一维插值函数

MATLAB提供一维插值函数:Y1=interpl(X,Y,X1,method)

该语句将根据X、Y的值,计算函数在X1处的值。其中,X、Y是两个等长的已知向量,分别表示采样点和采样值。X1是一个向量或标量,表示要插值的点。

(1)method参数用于指定插值方法,常用得有四种:

  • linear:线性插值,此为默认方法。将与插值点靠近的两个数据点用直线连接,然后在直线上选取对应插值点的数据。
  • nearest:最近点插值。选择最近样本点的值作为插值数据。
  • pchip:分段3次埃尔米特插值。采用分段三次多项式,除满足插值条件,还需要满足在若干节点处相邻插值函数的一阶导数相等,使得曲线光滑的同时,还具有保形性。
  • spline:3次样条插值。每个分段内构造一个三次多项式,使其插值函数除满足插值条件外,还要求在各节点处具有连续的一阶和二阶导数。

(多项式次数并非越高越好,次数越高,越容易产生震荡而偏离原函数,称为Runge现象。取3次是比较合适的。)


例子:对比四种插值

x= [0,3,5,7,9,11,12,13,14,15];
y=[0,1.2,1.7,2.0,2.1,2.0,1.8,1.2,1.0,1.6];
x1=0:0.1:15;
subplot(2,2,1)
y1=interp1(x,y,x1,'linear');
plot(x1,y1)
title('linear')
subplot(2,2,2)
y1=interp1(x,y,x1,'nearest');
plot(x1,y1)
title('nearest')
subplot(2,2,3)
y1=interp1(x,y,x1,'pchip');
plot(x1,y1)
title('pchip')
subplot(2,2,4)
y1=interp1(x,y,x1,'spline');
plot(x1,y1)
title('spline')

c9d7653149802f909d9b2b85fc90b608_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1JpY2FyZG8y,size_16,color_FFFFFF,t_70.png


(2)四种方法的比较

  • 线性插值和最近点插值方法比较简单。其中线性插值方法的计算量与样本点n无关。n越大,误差越小。
  • 3次埃尔米特插值和3次样条插值都能保证曲线的光滑性。相比较而言,3次埃尔米特插值具有保形性;而3次样条插值要求其二阶导数也连续,所以插值函数的性态更好。


2、二维插值函数

Z1=interp2(X,Y,Z,X1,Y1,method)


其中,X、Y是两个向量,表示两个参数的采样点。Z是采样点对应的函数值。X1、Y1是两个向量或标量,表示要插值的点。

不支持pchip方法。

例子:

x=20:10:90;
y=(0:5:20)';
z=[8.9,10.32,11.3,12.5,13.9,15.3,17.8,21.3;8.7,10.8,11,12.1,13.2,14.8,16.55,20.8;8.3,9.65,10.88,12,13.2,14.6,16.4,20.5;8.1,9.4,10.7,11.9,13.1,14.5,16.2,20.3;8.1,9.2,10.8,12,13.2,14.8,16.9,20.9];
xi=20:90;
yi=(0:20)';
zi=interp2(x,y,z,xi,yi,'spline');
surf(xi,yi,zi)

516ab935ef345554bf380bc82d6b122d_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1JpY2FyZG8y,size_16,color_FFFFFF,t_70.png


四、数据插值应用举例

1、机动车刹车距离问题


分析:设d=有效视距,d1=反应距离,d2=制动距离,d3=安全距离,v=行驶速度,t=反应时间

其中,d1=t*v;d2与v有关,但关系式d2(v)未知。

(1)建立方程:10v+d2(v)+10=120,利用数据插值方法,求得v-d的拟合曲线

(2)由已知的d=120,求得对应的v(v取整数)。

(3)在d-v拟合曲线中找到 v=125对应的d

v=20:10:150;
vs=v.*(1000/3600);
d1=10.*vs;
d2=[3.15,7.08,12.59,19.68,28.34,38.57,50.4,63.75,78.71,95.22,113.29,132.93,154.12,176.87];
d3=10;
d=d1+d2+d3;
vi=20:1:150;
di=interp1(v,d,vi,'spline');
%求d=120对应的整数v
x=abs(di-120);
[y,i]=sort(x);%将x按升序排列
vi(i(1))%x中最小元素的序号i(1),即是d=120对应的整数速度v
plot(vi,di,vi(i(1)),di(i(1)),'rp')
%求v=125对应的d
j=find(vi==125);
di(j)%求得d=480.1373
hold on
plot(vi,di,vi(j),di(j),'rp')

bfd95935c9656844643a93d5c149d01e_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1JpY2FyZG8y,size_16,color_FFFFFF,t_70.png

2、沙盘制作问题

x=0:200:1800;
y=x.';
z=[2000,2000,2001,1992,1954,1938,1972,1995,1999,1999;2000,2002,2006,1908,1533,1381,1728,1959,1998,2000;
2000,2005,2043,1921,977,897,1310,1930,2003,2000;1997,1978,2009,2463,2374,1445,1931,2209,2050,2003;  1992,1892,1566,1971,2768,2111,2653,2610,2121,2007;1991,1875,1511,1556,2221,1986,2660,2601,2119,2007;
1996,1950,1797,2057,2849,2798,2608,2303,2052,2003;1999,1999,2079,2685,3390,3384,2781,2165,2016,2000;
2000,2002,2043,2271,2668,2668,2277,2049,2003,2000;2000,2000,2004,2027,2067,2067,2027,2004,2000,2000];
x1=0:50:1800;
y1=x1';
z1=interp2(x,y,z,x1,y1,'spline');
subplot(1,2,1)
surf(x1,y1,z1);
subplot(1,2,2)
contour(x1,y1,z1,11)%绘制等高线

dfdc6a5a8bfc8351d5c0e95ff2380614_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1JpY2FyZG8y,size_16,color_FFFFFF,t_70.png


五、曲线拟合

曲线拟合与数据插值类似,也是一种函数逼近的方法。对于已知的点列[(x1,y1),(x2,y2),……,(xn,yn)],其中x与y对应的函数关系y=f(x)是一个未知函数。在此,我们构造一个近似函数g(x),使得误差σi=g(xi)-f(xi)在某种意义下达到最小。


1、实现方法

MATLAB中多项式拟合函数为:ployfit(),其功能为秋的最小二乘拟合多项式系数,调用格式:

(1)P=polyfit(X,Y,m):返回次数为 n 的多项式 p(x) 的系数

(2)[P,S]=polyfit(X,Y,m)

(3)[P,S,mu]=polyfit(X,Y,m):根据样本数据X和Y,产生一个m次多项式P及其在采样点误差数据S,mu是一个二元向量,mu(1)是mean(X),而mu(2)是std(X)。


2、例子:人口增长

(1)利用曲线拟合函数

x=1790:10:2010;
y=[3.9,5.3,7.2,9.6,12.9,17.1,23.2,31.4,38.6, 50.2,63.0,76.0,92.0,105.7,122.8,131.7,150.7,179.3,203.2,226.5,248.7,281.4,308.7];
plot(x,y,'*')
p=polyfit(x,y,3);
polyval(p,2020)
plot(x,y,'*',x,polyval(p,x));

求解得预计2020年人口总数为339.7869百万

(2)根据上述拟合的曲线,计算2016年人口的误差

曲线拟合计算的2016年人口为 327.0964百万,而实际为323.1百万,误差为2.24%

(3)优化曲线,缩小上述误差

根据研究,一个国家的人口增长有如下特点:

–发展越平稳,人口增长越有规律。

–当经济发展到一定水平时,人口增长率反而下降。

总而言之,不同的环境和经济发展水平,人口

可能有不同的增长规律。因此,在人口增长数据的拟合上,应该将二战后至今这一时期的数据与此前的数据分开处理。

x=1950:10:2010;
y=[150.7,179.3,203.2,226.5,248.7,281.4,308.7];
p=polyfit(x,y,2);%采用3次,会发现第3和第2的系数为0,即次数太高。
plot(x,y,'*',x,polyval(p,x))
polyval(p,2016)
polyval(p,2020)

b4e391924fc4a417b00d2dbf87da0420_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1JpY2FyZG8y,size_16,color_FFFFFF,t_70.png

根据新的拟合,2016年的相对误差减小到0.64%。因此,优化有效。求得2020年预计人口数为 336.7857百万。

(4)总结

  • 要对问题的背景进行详细分析
  • 采样带你并非越多越好,根据实际情况可以减少采样点分段拟合。


3、曲线拟合与数据插值的比较

(1)相同点

  • 都属于函数逼近的方法
  • 都能进行数据估算


(2)不同点

  • 实现方法不同:数据插值要求逼近函数经过样本点,而曲线拟合只需要总体误差最小。
  • 结果形式不同:数据插值采用分段逼近,没有确定的逼近函数表达式。
  • 侧重点不同:数据插值一般用于样本区间内的插值计算;曲线拟合不仅可以估算区间内其他点的函数值,还可以预测时序函数的发展趋势以及从统计数据中总结的一般性经验。
  • 应用场合不同:若样本数据为精确数据,适合采用数据插值;若样本数据为统计数据或者存在误差,则适合用曲线拟合。

总结


目录
相关文章
|
2月前
|
人工智能 前端开发 数据挖掘
Arm 发布 Neoverse 新品:数据分析性能提升 196%,奠定未来计算及 AI 的基石
北京时间 2 月 22 日,半导体巨头 Arm 更新了 Arm® Neoverse™ 产品路线图,宣布推出两款基于全新第三代 Neoverse IP 构建的全新计算子系统(CSS):Arm Neoverse CSS V3 和 Arm Neoverse CSS N3。
|
6月前
|
数据挖掘
专题五数据分析与多项式计算-1
专题五数据分析与多项式计算
37 0
|
6月前
|
Python
python 股票数据分析、绘制K线图、价格走势图、收益率计算 完整代码+数据 可直接运行
python 股票数据分析、绘制K线图、价格走势图、收益率计算 完整代码+数据 可直接运行
95 0
python 股票数据分析、绘制K线图、价格走势图、收益率计算 完整代码+数据 可直接运行
|
9月前
|
缓存 弹性计算 分布式计算
阿里云适合建网、web应用、数据分析和计算、数据库系统的云服务器价格参考
阿里云服务器新客专享,新用户完成账号实名认证,享受优惠价格购买计算型、通用型、内存型云服务器爆款配置特价优惠,限1-2台,这些云服务器主要适合搭建网站、web应用、数据分析和计算、数据库系统等中小类型和规模的企业级应用。
348 1
阿里云适合建网、web应用、数据分析和计算、数据库系统的云服务器价格参考
|
10月前
|
数据挖掘 Python
|
10月前
|
SQL 安全 搜索推荐
隐语V0.8.0发版:基于多方安全计算的数据分析引擎SCQL上线
隐语V0.8.0发版:基于多方安全计算的数据分析引擎SCQL上线
155 0
|
12月前
|
数据可视化 数据挖掘 数据处理
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
跟着Nature Genetics学数据分析:使用GEC软件计算有效位点数从而确定GWAS的阈值
|
分布式计算 数据挖掘 大数据
《如何使用大数据计算服务 MaxCompute进行数据分析》电子版地址
如何使用大数据计算服务 MaxCompute进行数据分析
104 0
《如何使用大数据计算服务 MaxCompute进行数据分析》电子版地址
|
数据挖掘
一维数组实验题:计算平均数、中位数和众数 在调查数据分析(Survey data analysis)中经常需要计算平均数、中位数和众数。用函数编程计算40个输入数据(是取值1—10之间的任意整数)的平
一维数组实验题:计算平均数、中位数和众数 在调查数据分析(Survey data analysis)中经常需要计算平均数、中位数和众数。用函数编程计算40个输入数据(是取值1—10之间的任意整数)的平
145 0
|
6天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
【4月更文挑战第25天】R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。