相关概念
1.采样相关概念
- 总体:研究对象的全体
- 样本:从总体中的随机抽样
- 采样偏差:是由于抽样过程中没有达到足够随机而产生 、
抽样的方式会严重影响样本的随机性,从而影响对总体的预测,抽样的方法有多种,可以使用一定的方法来减小采样误差,然而采样误差是无法避免的。
2.误差:不确定性的某种表示
-
标准差:使用标准差画error bar;用于表征数据分散程度
- 总体标准差:
- 样本标准差:
-
Bootstrap置信区间:用总体统计量的估计区间画error bar;用于表征数据的波动范围
- 可重复采样:抽取的个体仍可参加下次采样,常用于估计总体统计量的置信区间
- 如何使用Bootstrap计算置信区间(Quantile算法):用重采样的采样方法,计算统计量并排序,取相应的分位数,作为置信区间的边界
推荐阅读:如果你有兴趣,可以阅读《An Introduction to the Bootstrap》这本书了解更多关于Bootstrap的知识和其他计算置信区间的方法
- seaborn画图参数区别:1)使用标准差绘制error bar:ci=’sd’ 2)使用Bootstrap置信区间画error bar:ci & n_boot
代码如下:
import pandas
iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
iris.columns=['sepal_length','sepal_width','petal_length','petal_width','species']
import seaborn
%matplotlib inline
seaborn.barplot(x='species',y='petal_length',data=iris,ci='sd')
seaborn.barplot(x='species',y='petal_length',data=iris,ci=90,n_boot=1000)
Error Bar:黑线即为Error Bar,在每一列上的Error Bar 表征:在给定的置信区间下,统计量的范围会在黑线内波动