DC学院学习笔记(十四):总体、采样及Error Bar-阿里云开发者社区

开发者社区> 开发与运维> 正文

DC学院学习笔记(十四):总体、采样及Error Bar

简介: 总体、采样及Error Bar的一些知识

相关概念

1.采样相关概念

  • 总体:研究对象的全体
  • 样本:从总体中的随机抽样
  • 采样偏差:是由于抽样过程中没有达到足够随机而产生 、

抽样的方式会严重影响样本的随机性,从而影响对总体的预测,抽样的方法有多种,可以使用一定的方法来减小采样误差,然而采样误差是无法避免的。

2.误差:不确定性的某种表示

  • 标准差:使用标准差画error bar;用于表征数据分散程度

    • 总体标准差:image
    • 样本标准差:image
  • Bootstrap置信区间:用总体统计量的估计区间画error bar;用于表征数据的波动范围

    • 可重复采样:抽取的个体仍可参加下次采样,常用于估计总体统计量的置信区间
    • 如何使用Bootstrap计算置信区间(Quantile算法):用重采样的采样方法,计算统计量并排序,取相应的分位数,作为置信区间的边界

    推荐阅读:如果你有兴趣,可以阅读《An Introduction to the Bootstrap》这本书了解更多关于Bootstrap的知识和其他计算置信区间的方法

    • seaborn画图参数区别:1)使用标准差绘制error bar:ci=’sd’ 2)使用Bootstrap置信区间画error bar:ci & n_boot

代码如下:

import pandas
iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
iris.columns=['sepal_length','sepal_width','petal_length','petal_width','species']
import seaborn
%matplotlib inline
seaborn.barplot(x='species',y='petal_length',data=iris,ci='sd')

output_2_1

seaborn.barplot(x='species',y='petal_length',data=iris,ci=90,n_boot=1000)

output_3_1

Error Bar:黑线即为Error Bar,在每一列上的Error Bar 表征:在给定的置信区间下,统计量的范围会在黑线内波动

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章