《社会调查数据管理——基于Stata 14管理CGSS数据》一3.2 和统计有关的术语

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介:

本节书摘来自异步社区《社会调查数据管理——基于Stata 14管理CGSS数据》一书中的第3章,第3.2节,作者 唐丽娜,更多章节内容可以访问云栖社区“异步社区”公众号查看

3.2 和统计有关的术语

和数据管理密不可分的另一个专业是统计学。

在信息数据时代,每个人都要具备一定的统计学知识[1]。否则可能因为无法读懂数据、统计分析结果而错失良机,也有可能错误地解读各种数据,给个人生活和工作造成不便。

统计,即把数字统一起来计算。统计是一门关于数字的学科,包括统计描述和统计推断。所谓统计描述,指的是对原始数据进行概括总结的方法,而统计推断指的是基于样本数据来推断总体的某些特征或趋势的方法。

接下来介绍的都是和数据管理有关的统计学基础知识。

在统计学中,变量(variable)指的是要调查或测量的对象的某种特征或属性,如性别、年龄、受教育程度、态度等。

取值(value):指的是调查对象某种特征或属性的全部可能。取值不一定都是数字,也可以是文字,如性别的取值是男性和女性。

统计量(statistics):对抽样数据进行统计计算得出的数值,如平均值(mean)、总和(sum)、最大值(max value)、最小值(min value)。

参数(parameter):对研究总体进行统计计算得出的数值。

总体(population):要研究或调查的对象的全体。比如,要调查某个公司的员工平均收入,那么总体就是现在就职于该公司的所有员工。

样本(sampling):总体的一个子集。比如,要调查某跨国公司的员工平均收入,这个公司非常庞大,员工有几万人,且分布在世界各地,可以采用科学的抽样方法从中抽取3000人作为一个样本,只调查这3000名员工的收入情况。

信度(reliability):指的是测量方法的质量,即对同一现象进行重复观察是否可以得到相同的资料(艾尔·芭比,2014)。在社会调查中,信度和社会调查人员的工作质量息息相关(虚假数据的信度为零),严格按照调查项目的规定工作,方能保证执行过程的信度。社会调查数据采集完成后,科学、客观的数据管理是确保数据信度的有效方法。在社会调查中,常见的测量数据信度的方法是对分法,即把数据随机等分成两份,看两组数据的统计结果是否很接近,如果差异很大,测量信度就有可能有问题。

效度(validity):指的是实证社会调查问卷中的问题在多大程度上反映了要研究问题的真实含义。有效性关注的是提出的问题、收集的数据以及数据分析的正确性[2]。效度是研究设计优劣的一个非常重要的指标,很多研究耗费了大量的研究经费、调查了大量的研究对象,但研究问题并没有很好地测量到想要研究的问题或感兴趣的点,这样的研究和研究数据的效度就很低。

常见的检验效度有效性的标准有表面效度、标准关联效度、建构效度和内容效度[3]。

信度和效度是一对相互关联的概念,好的研究和数据必须效度和信度都要高。

均值(mean):调查对象某个特征(如收入)的总体平均情况,用数值表述是某个变量的算术平均值,类别变量(如性别)没有均值,即使能够算出一个均值,这个均值也没有实际意义。

众数(mode):调查对象在某个特征上出现次数最多的一种情况,用数值表述是某个变量有多个取值,调查对象选择次数最多的那个值就是众数。

中位数(median):是一个位置值,指的是位于中间(N/2或50%)的那个调查对象选择的取值。把调查对象在某个特征上(如收入)的所有可能出现的情况排序,位于第50%个位置上的人选择的特征(某一特定收入)就是中位数。用数值表述是把变量的取值按顺序排列,并列出每个取值出现的频数,第50%所在的取值就是中位数。

分位数(quartile):也是一个位置值,指的是第几个百分位数,和中位数的计算方法一样,中位数是分位数的一种,即中间分位数,常见的有上四分位数——25%分位数,下四分位数——75%分位数。其中下四分位数和上四分位数的差就是分位数差。

标准差(standard deviation):调查对象在某个特征上(如收入)的差异情况。用数值表述就是某个变量的均值减去每个取值的差的平方和,然后除以调查对象个数,再取平方根,这个平方根就是标准差,这个统计量只能用于定量变量。

数据管理和数据分析离不开统计,统计量是检验数据清理、数据分析的重要标准,数据管理人员必须掌握基础的统计知识。市面上的统计书籍已经相当丰富,且分门别类的十分详尽,如社会统计学、医学统计学、生物统计学等,可以根据自己的专业和工作需要选择阅读。

相关文章
|
2月前
|
Web App开发 缓存 数据库
DMS产品常见问题之DMS数据规定失败如何解决
DMS(数据管理服务,Data Management Service)是阿里云提供的一种数据库管理和维护工具,它支持数据的查询、编辑、分析及安全管控;本汇总集中了DMS产品在实际使用中用户常遇到的问题及其相应的解答,目的是为使用者提供快速参考,帮助他们有效地解决在数据管理过程中所面临的挑战。
|
5月前
|
数据管理 数据库 数据安全/隐私保护
数据管理与持久化:深度解析Docker数据卷
Docker 数据卷在容器化应用中扮演着关键角色,它们提供了一种灵活且可持久化的方式来处理应用数据。本文将深入讨论 Docker 数据卷的基本概念、使用方法以及一系列高级应用场景,通过更为丰富和实际的示例代码,帮助大家全面掌握数据卷的使用和管理。
|
13天前
|
运维 数据管理 数据库
数据管理DMS产品使用合集之在阿里云DMS中,想对数据精度进行校验,有什么方法
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
13天前
|
运维 Cloud Native 数据管理
数据管理DMS产品使用合集之数据归档功能可以在 DMS 上自动分批次执行吗
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
13天前
|
NoSQL 数据管理 MongoDB
数据管理DMS产品使用合集之如何通过阿里云的数据管理服务(DMS)导出MongoDB数据
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
23天前
|
存储 数据采集 数据管理
《数据治理简易速速上手小册》第7章 元数据管理(2024 最新版)
《数据治理简易速速上手小册》第7章 元数据管理(2024 最新版)
40 0
|
23天前
|
存储 Oracle 数据管理
Oracle 12c的自动数据优化(ADO)与热图:数据管理的“瘦身”与“透视”艺术
【4月更文挑战第19天】Oracle 12c的ADO和热图技术革新数据管理。ADO智能清理无用数据,优化存储,提升查询速度,实现数据"瘦身";热图则以直观的视觉表示展示数据分布和状态,助力识别性能瓶颈,犹如数据的"透视"工具。这两项技术结合,强化数据管理,为企业业务发展保驾护航。
|
1月前
|
人工智能 安全 数据处理
首次全国数据工作会议召开,数据管理体制建设迈上新台阶
首次全国数据工作会议召开,数据管理体制建设迈上新台阶
29 1
|
2月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
310 0
|
8月前
|
关系型数据库 分布式数据库 数据库
PolarDB MySQL通过DMS恢复误操作数据
本场景介绍日常访问PolarDB MySQL数据库时,由于操作导致数据不符合预期,需要将数据快速恢复到正常状态。误操作受影响的数据量在10万以内时,可使用DMS数据追踪的方式恢复数据。
141 0