9、变异系数
变异系数是衡量数据观测值中各个变量变异程度的一个统计量,定义为
1. >> clear 2. R1=normrnd(2,4,10,1); 3. R2=normrnd(4,4,10,1); 4. [R1,R2] 5. ans = 6. -0.8480 -2.0246 7. -2.6968 2.2215 8. 1.2310 3.3762 9. 0.9037 5.1043 10. 8.1203 2.9553 11. 1.0039 5.7737 12. -2.2569 5.5676 13. 8.4138 -1.0027 14. 6.9387 0.2082 15. 1.0815 1.0356 16. >> [std(R1)/mean(R1),std(R2)/mean(R2)] 17. ans = 18. 1.8930 1.1821
可见,样本R1的变异程度高于R2的变异程度。
10、常见分布的期望与方差的计算
11、协方差和相关系数
cov(X,dim) 当X为向量时,返回X的方差;当X为矩阵时,返回X各列之间的协方差。
1. >> clear 2. >> X=rand(4) 3. X = 4. 0.7482 0.9133 0.9961 0.9619 5. 0.4505 0.1524 0.0782 0.0046 6. 0.0838 0.8258 0.4427 0.7749 7. 0.2290 0.5383 0.1067 0.8173 8. >> a=cov(X) 9. a = 10. 0.0837 0.0088 0.0762 0.0023 11. 0.0088 0.1177 0.1195 0.1349 12. 0.0762 0.1195 0.1822 0.1167 13. 0.0023 0.1349 0.1167 0.1856
R=corrcoef(X) 返回矩阵X各列之间的相关系数。
[r,p,pl,pu]=corrcoef(X)
- r为X各列相关系数;
- p为矩阵X不相关假设检验的p值;
- pl,pu是r的95%置信区间的下限和上限。
1. >> clear 2. >> X=[1 2 3 4;2 3 4 5;3 4 5 6;0.2 0.4 0.8 0.9]; 3. >> [r,p,pl,pu]=corrcoef(X) 4. >> X 5. X = 6. 1.0000 2.0000 3.0000 4.0000 7. 2.0000 3.0000 4.0000 5.0000 8. 3.0000 4.0000 5.0000 6.0000 9. 0.2000 0.4000 0.8000 0.9000 10. r = 11. 1.0000 0.9846 0.9651 0.9367 12. 0.9846 1.0000 0.9960 0.9835 13. 0.9651 0.9960 1.0000 0.9957 14. 0.9367 0.9835 0.9957 1.0000 15. p = 16. 1.0000 0.0154 0.0349 0.0633 17. 0.0154 1.0000 0.0040 0.0165 18. 0.0349 0.0040 1.0000 0.0043 19. 0.0633 0.0165 0.0043 1.0000 20. pl = 21. 1.0000 0.4366 0.0556 -0.2446 22. 0.4366 1.0000 0.8185 0.4098 23. 0.0556 0.8185 1.0000 0.8039 24. -0.2446 0.4098 0.8039 1.0000 25. pu = 26. 1.0000 0.9997 0.9993 0.9987 27. 0.9997 1.0000 0.9999 0.9997 28. 0.9993 0.9999 1.0000 0.9999 29. 0.9987 0.9997 0.9999 1.0000
以5%为置信度,可以看出,第1列和第4列不相关(p>5%),且相关系数的95%置信区间显著包含0,即相关性较弱。
12、偏度和峰度
12.1 偏度
y=skewness(X) 偏度是描述样本数据围绕其均值对称情况的描述,如果y<0,则数据分布偏向均值左边(左偏);反之为右偏。
1. >> clear 2. >> x=0:0.1:15; 3. >> X=chi2pdf(x,5); 4. >> plot(x,X,'*'); 5. >> y=skewness(X) 6. y = 7. 0.4090
1. >> x=0:0.1:15; 2. >> X1=chi2pdf(x,10); 3. >> plot(x,X1,'*'),y=skewness(X1) 4. y = 5. -0.4681
12.2 峰度
y=kurtosis(X) 若y=3称样本数据呈正态峰度;若r>3,样本曲线比标准正态分布平坦;r<3,样本曲线比标准正态分布陡峭。
1. >> clear 2. >> y=[]; 3. >> r=3:0.05:6; 4. >> for k=1:length(r) 5. x=-r(k):0.1:r(k); 6. X=normpdf(x,0,1); 7. y1=kurtosis(X); 8. y=[y,y1]; 9. end 10. >> plot(r,y,'*')